Gemini — Google 의 멀티모달 LLM 라인업
Gemini — Google 의 멀티모달 LLM 라인업
Gemini 는 Google DeepMind 가 2023 년 말에 공개한 모델 시리즈입니다. 텍스트뿐 아니라 이미지·오디오·비디오·코드를 함께 다루는 멀티모달 입력, 1.5 부터 들어온 매우 긴 컨텍스트가 특징으로 거론됩니다.
1. Gemini 에 대한 이야기
Google DeepMind 가 2023 년 12 월 6 일에 Gemini 1.0 을 공개했습니다. 그 전까지 Bard 라는 이름으로 제공되던 챗봇이 Gemini 로 통합됐고, Pixel 8 Pro 같은 디바이스에 Nano 변형이 탑재되며 데스크탑·모바일·서버 전반으로 라인업이 펼쳐졌습니다.
| 시점 | 모델 | 메모 |
|---|---|---|
| 2023-12 | Gemini 1.0 (Ultra · Pro · Nano) | 첫 공개. |
| 2024-02 | Gemini 1.5 Pro | 1M 토큰 컨텍스트. |
| 2024-05 | Gemini 1.5 Flash | 빠르고 싼 변형. |
| 2024-12 | Gemini 2.0 (Flash 등) | 멀티모달 출력·도구 사용 강화. |
| 2025 | Gemini 2.5 Pro · Flash | 추론 강화 변형. |
세대가 지나며 위치 정리:
- Pro · Ultra — 가장 큰 능력. 비용·지연이 큼.
- Flash — 가벼운 변형. 처리량 위주.
- Nano — 디바이스 내장 (온디바이스) 작은 변형.
세대·날짜에 따라 정확한 모델 이름과 가용성이 자주 바뀌므로 공식 문서의 모델 카드를 그때그때 확인합니다.
2. 1M 토큰 컨텍스트
Gemini 1.5 Pro 가 일반 가용성 시점에 표준 1M 토큰 컨텍스트를 지원한다고 공개됐습니다 (연구 발표에서는 2M 까지 함께 소개). 컨텍스트가 매우 길면 책 한 권 · 동영상 · 코드 베이스 통째로 입력하는 사용 패턴이 가능해집니다.
"lost in the middle" 같은 위치 효과는 여전히 관찰되므로 큰 컨텍스트가 항상 정답은 아닙니다.
3. API 진입점 두 가지
- Google AI Studio (
ai.google.dev) — 개인 개발자·실험. API 키 한 개로 시작. - Vertex AI (Google Cloud) — GCP 프로젝트 · IAM · 로깅 · 과금이 통합된 엔터프라이즈 진입점. 데이터 거주지 (region) · VPC-SC 같은 통제.
같은 모델이지만 인증 · 과금 · 기능 가용성 · SLA 가 다른 경우가 있습니다.
4. 호출 모양
from google import genai
client = genai.Client(api_key="...")
response = client.models.generate_content(
model="gemini-2.0-flash",
contents="한국어로 한 문단 요약해 주세요.",
)
print(response.text)
REST 도 같은 결을 따릅니다. 이미지·PDF·오디오·비디오 같은 입력은 Part 단위로 나눠 contents 에 담습니다.
5. 멀티모달 입력
| 입력 | 메모 |
|---|---|
| 이미지 | PNG · JPEG · WEBP · HEIC. |
| 오디오 | 음성 · 음악. 자막 · 요약 · 분석. |
| 비디오 | MP4. 프레임 단위 또는 타임스탬프 기반. |
| 페이지 · 이미지 · 텍스트 혼합 문서. |
업로드 한도·가용한 형식은 모델·세대마다 다릅니다.
6. Function calling · JSON mode
- Function calling — 함수 시그니처를 모델에 전달하면 모델이 호출 파라미터 (JSON) 를 만들어 반환. 실제 호출은 호출자가 수행.
- JSON mode · response schema — 출력 형식을 JSON 으로 강제. JSON Schema 또는 Pydantic 으로 스키마.
7. 다른 모델과의 객관 비교
| 모델군 | 제공자 | 출시 | 특징 |
|---|---|---|---|
| Gemini | Google DeepMind | 2023-12 | 멀티모달 폭 · 매우 긴 컨텍스트 · GCP 통합. |
| GPT (4 · 4o · o1 · o3) | OpenAI | 2022-11 | 도구 생태계 · 폭넓은 채택 · 추론 모델군. |
| Claude (3 · 3.5 · 4) | Anthropic | 2023-03 | 긴 컨텍스트 · 글쓰기·코딩 강세. |
| Mistral · Codestral | Mistral AI | 2023 | 유럽 기반 · 오픈 가중치 변형. |
| Llama (3 · 3.1 · 3.2) | Meta | 2023~ | 오픈 가중치 (라이선스 별도). |
| Qwen | Alibaba | 2023~ | 오픈 가중치 · 다국어. |
세대·시점에 따라 강·약점은 빠르게 바뀝니다. 단일 벤치마크보다 자기 도메인 평가가 신뢰도가 높습니다.
8. 가격 · 컨텍스트 캐싱
가격 — 토큰당 과금 (input · output 분리, 캐시 · context-caching 별도). 무료 티어가 있는 곳도 있고 가용 한도·제약이 다릅니다. Vertex AI 는 GCP 의 일반 빌링과 묶여 다른 서비스 (저장 · 로깅 · 네트워크) 비용이 함께 듭니다.
컨텍스트 캐싱 — 큰 시스템 프롬프트 · 문서를 매번 다시 보내지 않도록 서버에 캐시해 두는 기능이 1.5 세대부터 도입됐습니다. Anthropic · OpenAI 도 비슷한 캐시 기능을 가지고 있고 가격 · TTL · 키 정의가 제공자마다 다릅니다.
9. 안전 설정 · 환경 변수
Gemini API 는 카테고리별 안전 분류기 임계값을 설정할 수 있습니다 (폭력 · 성적 · 괴롭힘 · 위험행위). 기본값과 변경값의 차이를 자기 데이터로 검증.
export GOOGLE_API_KEY=... # macOS · Linux
$env:GOOGLE_API_KEY = "..." # Windows PowerShell
Vertex AI 의 인증은 보통 gcloud auth application-default login 으로 받은 ADC (Application Default Credentials) 또는 서비스 계정 키 파일.
10. 자주 걸리는 자리
모델 이름 변동 — gemini-1.5-pro-latest 같은 alias 와 날짜 핀 (gemini-1.5-pro-002) 의 의미가 다릅니다. 운영은 핀 고정이 안전.
지역 제약 — 일부 모델·기능이 특정 region 에서만. Vertex AI 의 location 설정 주의.
컨텍스트 한도와 실제 한도 — 1M 토큰을 광고해도 입력·출력 합계와 모델별 한도가 따로 정의됩니다. 출력 토큰은 보통 별도 작은 상한.
이미지·비디오 토큰 환산 — 비텍스트 입력은 내부적으로 토큰으로 환산. 가격 계산 시 텍스트 토큰만 보면 어긋남.
차단·필터링 — 안전 분류가 입력·출력을 막는 사례. 이유·카테고리 코드를 응답에서 확인.
대답 길이 제한 — max_output_tokens 를 작게 두고 잊으면 응답이 잘립니다.
AI Studio vs Vertex AI 차이 — 같은 코드가 한쪽에서 동작하고 다른 쪽에서는 추가 권한·설정이 필요.
데이터 사용 정책 — AI Studio 무료 키와 Vertex AI 의 데이터 학습 사용 정책이 다르다는 안내. 약관 확인.
하고픈 말
Gemini 의 매력은 멀티모달 폭과 매우 긴 컨텍스트입니다. 다만 모델 이름 · 가격 · 한도가 자주 변하므로 운영에서는 모델 핀 고정 + 자기 도메인 평가셋 + WireMock 으로 외부 의존을 끊은 dev 검증이 안전합니다.
Next
- embeddings-deep
- agents-overview
Google AI for Developers · Vertex AI Generative AI · Gemini API Models · Google DeepMind Gemini · Gemini 1.5 보고서 · LMArena · LiveBench 를 참고합니다.