왜 로컬 LLM · LM Studio 시작

ChatGPT 호출 한 줄은 빠르고 편합니다. 그래도 로컬 LLM 이 답인 자리가 있어요.

1. 로컬이 유리한 네 가지 자리

외부 반출 불가 — 사내 문서 · 의료 · 금융
요청당 비용 누적 — 초당 수십 호출이 일상인 백엔드
latency 예측 — 클라우드 tail latency 500ms+
오프라인 · 개인 기기 — Tauri 데스크탑 앱 내장 AI

단, 품질 · 컨텍스트 길이는 여전히 Claude Opus · GPT-4 class 가 앞섭니다.

2. LM Studio — 로컬 모델의 표준 런처

무료 · macOS / Windows / Linux 지원. GGUF 파일 선택만으로 Gemma · Llama · Qwen · Mistral 실행.

# LM Studio 다운로드 후
# 모델 검색 → gemma-2-9b-it · llama-3.2-3b · qwen2.5-coder
# Load Model → Server tab → Start Server (기본 http://localhost:1234)

3. OpenAI 호환 endpoint

LM Studio 는 OpenAI SDK 그대로 호출 가능.

from openai import OpenAI

client = OpenAI(base_url="http://localhost:1234/v1", api_key="lm-studio")

resp = client.chat.completions.create(
    model="gemma-2-9b-it",
    messages=[{"role": "user", "content": "한국어로 짧게 답해 줘: 1 + 1 은?"}],
    temperature=0.3,
)
print(resp.choices[0].message.content)

base_url · model 만 바꾸면 클라우드 ↔ 로컬 스위치.

4. VRAM 가이드

파라미터	양자화	권장 VRAM
3B	Q4_K_M	4 GB
7 ~ 9B	Q4_K_M	8 ~ 12 GB
14B	Q4_K_M	16 GB
32B	Q4_K_M	24 GB +

CPU 전용도 가능하지만 토큰 생성이 느림 (초당 1 ~ 5 tok). 실시간성이 필요하면 GPU.

5. 모델 고르기

코드 · RAG 요약 — Qwen2.5-Coder · Gemma 2 9B
한국어 품질 — Gemma 2 9B · Gemma 4 e2b-it (2026)
낮은 VRAM — Llama 3.2 3B · Phi-3 mini

처음에는 Gemma 2 9B Q4_K_M 을 권장. 한국어 · 영어 · 코드 모두 평균 이상.

6. 자주 걸리는 자리

model 이름 불일치 — curl /v1/models 가 반환한 id 를 그대로 사용
temperature 너무 높음 — RAG 은 0.1 ~ 0.4, 창작은 0.7 ~ 1.0
연속 호출 시 컨텍스트 누적 — OpenAI 와 달리 자동 트림 없음. 직접 자르거나 새 세션

하고픈 말

첫 RAG 은 Gemini · OpenAI 로 연결해 동작 확인 후, 다음 단계에서 로컬로 바꾸는 순서가 빠릅니다. 로컬이 만능이 아니라 "필요할 때 스위치" 가 가장 실용적.

02-embeddings