1단계
왜 로컬 LLM · LM Studio 시작
25 분
왜 로컬 LLM · LM Studio 시작
ChatGPT 호출 한 줄은 빠르고 편합니다. 그래도 로컬 LLM 이 답인 자리가 있어요.
1. 로컬이 유리한 네 가지 자리
- 외부 반출 불가 — 사내 문서 · 의료 · 금융
- 요청당 비용 누적 — 초당 수십 호출이 일상인 백엔드
- latency 예측 — 클라우드 tail latency 500ms+
- 오프라인 · 개인 기기 — Tauri 데스크탑 앱 내장 AI
단, 품질 · 컨텍스트 길이는 여전히 Claude Opus · GPT-4 class 가 앞섭니다.
2. LM Studio — 로컬 모델의 표준 런처
무료 · macOS / Windows / Linux 지원. GGUF 파일 선택만으로 Gemma · Llama · Qwen · Mistral 실행.
# LM Studio 다운로드 후
# 모델 검색 → gemma-2-9b-it · llama-3.2-3b · qwen2.5-coder
# Load Model → Server tab → Start Server (기본 http://localhost:1234)
3. OpenAI 호환 endpoint
LM Studio 는 OpenAI SDK 그대로 호출 가능.
from openai import OpenAI
client = OpenAI(base_url="http://localhost:1234/v1", api_key="lm-studio")
resp = client.chat.completions.create(
model="gemma-2-9b-it",
messages=[{"role": "user", "content": "한국어로 짧게 답해 줘: 1 + 1 은?"}],
temperature=0.3,
)
print(resp.choices[0].message.content)
base_url · model 만 바꾸면 클라우드 ↔ 로컬 스위치.
4. VRAM 가이드
| 파라미터 | 양자화 | 권장 VRAM |
|---|---|---|
| 3B | Q4_K_M | 4 GB |
| 7 ~ 9B | Q4_K_M | 8 ~ 12 GB |
| 14B | Q4_K_M | 16 GB |
| 32B | Q4_K_M | 24 GB + |
CPU 전용도 가능하지만 토큰 생성이 느림 (초당 1 ~ 5 tok). 실시간성이 필요하면 GPU.
5. 모델 고르기
- 코드 · RAG 요약 — Qwen2.5-Coder · Gemma 2 9B
- 한국어 품질 — Gemma 2 9B · Gemma 4 e2b-it (2026)
- 낮은 VRAM — Llama 3.2 3B · Phi-3 mini
처음에는 Gemma 2 9B Q4_K_M 을 권장. 한국어 · 영어 · 코드 모두 평균 이상.
6. 자주 걸리는 자리
- model 이름 불일치 —
curl /v1/models가 반환한 id 를 그대로 사용 - temperature 너무 높음 — RAG 은 0.1 ~ 0.4, 창작은 0.7 ~ 1.0
- 연속 호출 시 컨텍스트 누적 — OpenAI 와 달리 자동 트림 없음. 직접 자르거나 새 세션
하고픈 말
첫 RAG 은 Gemini · OpenAI 로 연결해 동작 확인 후, 다음 단계에서 로컬로 바꾸는 순서가 빠릅니다. 로컬이 만능이 아니라 "필요할 때 스위치" 가 가장 실용적.
Next
- 02-embeddings