Gemini — Google 의 멀티모달 LLM 라인업

Gemini 는 Google DeepMind 가 2023 년 말에 공개한 모델 시리즈입니다. 텍스트뿐 아니라 이미지·오디오·비디오·코드를 함께 다루는 멀티모달 입력, 1.5 부터 들어온 매우 긴 컨텍스트가 특징으로 거론됩니다.

1. Gemini 에 대한 이야기

Google DeepMind 가 2023 년 12 월 6 일에 Gemini 1.0 을 공개했습니다. 그 전까지 Bard 라는 이름으로 제공되던 챗봇이 Gemini 로 통합됐고, Pixel 8 Pro 같은 디바이스에 Nano 변형이 탑재되며 데스크탑·모바일·서버 전반으로 라인업이 펼쳐졌습니다.

시점	모델	메모
2023-12	Gemini 1.0 (Ultra · Pro · Nano)	첫 공개.
2024-02	Gemini 1.5 Pro	1M 토큰 컨텍스트.
2024-05	Gemini 1.5 Flash	빠르고 싼 변형.
2024-12	Gemini 2.0 (Flash 등)	멀티모달 출력·도구 사용 강화.
2025	Gemini 2.5 Pro · Flash	추론 강화 변형.

세대가 지나며 위치 정리:

Pro · Ultra — 가장 큰 능력. 비용·지연이 큼.
Flash — 가벼운 변형. 처리량 위주.
Nano — 디바이스 내장 (온디바이스) 작은 변형.

세대·날짜에 따라 정확한 모델 이름과 가용성이 자주 바뀌므로 공식 문서의 모델 카드를 그때그때 확인합니다.

2. 1M 토큰 컨텍스트

Gemini 1.5 Pro 가 일반 가용성 시점에 표준 1M 토큰 컨텍스트를 지원한다고 공개됐습니다 (연구 발표에서는 2M 까지 함께 소개). 컨텍스트가 매우 길면 책 한 권 · 동영상 · 코드 베이스 통째로 입력하는 사용 패턴이 가능해집니다.

"lost in the middle" 같은 위치 효과는 여전히 관찰되므로 큰 컨텍스트가 항상 정답은 아닙니다.

3. API 진입점 두 가지

Google AI Studio (ai.google.dev) — 개인 개발자·실험. API 키 한 개로 시작.
Vertex AI (Google Cloud) — GCP 프로젝트 · IAM · 로깅 · 과금이 통합된 엔터프라이즈 진입점. 데이터 거주지 (region) · VPC-SC 같은 통제.

같은 모델이지만 인증 · 과금 · 기능 가용성 · SLA 가 다른 경우가 있습니다.

4. 호출 모양

from google import genai

client = genai.Client(api_key="...")
response = client.models.generate_content(
    model="gemini-2.0-flash",
    contents="한국어로 한 문단 요약해 주세요.",
)
print(response.text)

REST 도 같은 결을 따릅니다. 이미지·PDF·오디오·비디오 같은 입력은 Part 단위로 나눠 contents 에 담습니다.

5. 멀티모달 입력

입력	메모
이미지	PNG · JPEG · WEBP · HEIC.
오디오	음성 · 음악. 자막 · 요약 · 분석.
비디오	MP4. 프레임 단위 또는 타임스탬프 기반.
PDF	페이지 · 이미지 · 텍스트 혼합 문서.

업로드 한도·가용한 형식은 모델·세대마다 다릅니다.

6. Function calling · JSON mode

Function calling — 함수 시그니처를 모델에 전달하면 모델이 호출 파라미터 (JSON) 를 만들어 반환. 실제 호출은 호출자가 수행.
JSON mode · response schema — 출력 형식을 JSON 으로 강제. JSON Schema 또는 Pydantic 으로 스키마.

7. 다른 모델과의 객관 비교

모델군	제공자	출시	특징
Gemini	Google DeepMind	2023-12	멀티모달 폭 · 매우 긴 컨텍스트 · GCP 통합.
GPT (4 · 4o · o1 · o3)	OpenAI	2022-11	도구 생태계 · 폭넓은 채택 · 추론 모델군.
Claude (3 · 3.5 · 4)	Anthropic	2023-03	긴 컨텍스트 · 글쓰기·코딩 강세.
Mistral · Codestral	Mistral AI	2023	유럽 기반 · 오픈 가중치 변형.
Llama (3 · 3.1 · 3.2)	Meta	2023~	오픈 가중치 (라이선스 별도).
Qwen	Alibaba	2023~	오픈 가중치 · 다국어.

세대·시점에 따라 강·약점은 빠르게 바뀝니다. 단일 벤치마크보다 자기 도메인 평가가 신뢰도가 높습니다.

8. 가격 · 컨텍스트 캐싱

가격 — 토큰당 과금 (input · output 분리, 캐시 · context-caching 별도). 무료 티어가 있는 곳도 있고 가용 한도·제약이 다릅니다. Vertex AI 는 GCP 의 일반 빌링과 묶여 다른 서비스 (저장 · 로깅 · 네트워크) 비용이 함께 듭니다.

컨텍스트 캐싱 — 큰 시스템 프롬프트 · 문서를 매번 다시 보내지 않도록 서버에 캐시해 두는 기능이 1.5 세대부터 도입됐습니다. Anthropic · OpenAI 도 비슷한 캐시 기능을 가지고 있고 가격 · TTL · 키 정의가 제공자마다 다릅니다.

9. 안전 설정 · 환경 변수

Gemini API 는 카테고리별 안전 분류기 임계값을 설정할 수 있습니다 (폭력 · 성적 · 괴롭힘 · 위험행위). 기본값과 변경값의 차이를 자기 데이터로 검증.

export GOOGLE_API_KEY=...           # macOS · Linux
$env:GOOGLE_API_KEY = "..."          # Windows PowerShell

Vertex AI 의 인증은 보통 gcloud auth application-default login 으로 받은 ADC (Application Default Credentials) 또는 서비스 계정 키 파일.

10. 자주 걸리는 자리

모델 이름 변동 — gemini-1.5-pro-latest 같은 alias 와 날짜 핀 (gemini-1.5-pro-002) 의 의미가 다릅니다. 운영은 핀 고정이 안전.

지역 제약 — 일부 모델·기능이 특정 region 에서만. Vertex AI 의 location 설정 주의.

컨텍스트 한도와 실제 한도 — 1M 토큰을 광고해도 입력·출력 합계와 모델별 한도가 따로 정의됩니다. 출력 토큰은 보통 별도 작은 상한.

이미지·비디오 토큰 환산 — 비텍스트 입력은 내부적으로 토큰으로 환산. 가격 계산 시 텍스트 토큰만 보면 어긋남.

차단·필터링 — 안전 분류가 입력·출력을 막는 사례. 이유·카테고리 코드를 응답에서 확인.

대답 길이 제한 — max_output_tokens 를 작게 두고 잊으면 응답이 잘립니다.

AI Studio vs Vertex AI 차이 — 같은 코드가 한쪽에서 동작하고 다른 쪽에서는 추가 권한·설정이 필요.

데이터 사용 정책 — AI Studio 무료 키와 Vertex AI 의 데이터 학습 사용 정책이 다르다는 안내. 약관 확인.

하고픈 말

Gemini 의 매력은 멀티모달 폭과 매우 긴 컨텍스트입니다. 다만 모델 이름 · 가격 · 한도가 자주 변하므로 운영에서는 모델 핀 고정 + 자기 도메인 평가셋 + WireMock 으로 외부 의존을 끊은 dev 검증이 안전합니다.

embeddings-deep
agents-overview

Google AI for Developers · Vertex AI Generative AI · Gemini API Models · Google DeepMind Gemini · Gemini 1.5 보고서 · LMArena · LiveBench 를 참고합니다.

Gemini — Google 의 멀티모달 LLM 라인업

Gemini — Google 의 멀티모달 LLM 라인업

1. Gemini 에 대한 이야기

2. 1M 토큰 컨텍스트

3. API 진입점 두 가지

4. 호출 모양

5. 멀티모달 입력

6. Function calling · JSON mode

7. 다른 모델과의 객관 비교

8. 가격 · 컨텍스트 캐싱

9. 안전 설정 · 환경 변수

10. 자주 걸리는 자리

하고픈 말

Next

ai 카테고리로