Google NotebookLM — 자료 기반 Gemini 노트북 (RAG 형 도구)
Google NotebookLM — 자료 기반 Gemini 노트북
NotebookLM 은 Google 의 자료 우선 (source-grounded) AI 노트북. 사용자가 업로드한 PDF·구글 문서·웹사이트·YouTube·오디오에서만 답변을 합성하므로 hallucination 이 일반 챗봇보다 적음. 04-gemini-api 가 raw API, 08-google-ai-studio 가 generic playground·Build 라면 NotebookLM 은 RAG 인터페이스가 자체 내장된 노트북 입니다.
1. 정체성
- 사이트:
notebooklm.google.com(또는 enterprise 의 NotebookLM Plus) - 출시: 2023-07 (Project Tailwind) → 2024 일반 공개 → 2025 모바일 앱
- 모델: Gemini 1.5 / 2.0 / 2.5 (시기별 자동 업그레이드)
- 컨텍스트: 노트북 1개당 최대 50개 자료 (각 파일 500MB / 무료 50만 단어, Plus 200만 단어)
- 한 줄 정의: "내 자료만 읽고 답하는 Gemini 노트북".
2. 입력 가능한 자료 형태
| 자료 유형 | 비고 |
|---|---|
| OCR 처리 자동 | |
| Google Docs | Drive 직접 연결 |
| 텍스트 파일 (.txt, .md) | UTF-8 권장 |
| 웹페이지 URL | HTML 파싱 |
| YouTube URL | 자막 기반 (자막 없으면 거부) |
| 오디오 파일 (.mp3, .wav 등) | 전사 (Speech-to-Text) 후 인덱싱 |
| 복사 붙여넣기 | 1만 단어 단위 chunk |
3. 핵심 기능
3.1 인용 기반 답변 (Citations)
답변의 모든 문장에 자료 위치 (페이지·timestamp) 가 클릭 가능한 인용 번호로 붙음. 어디서 가져왔는지 즉시 확인 → 신뢰도 검증이 직관적. 이게 일반 ChatGPT/Gemini 채팅과 가장 큰 차이.
3.2 Audio Overview (팟캐스트 자동 생성)
자료를 입력으로 두 명의 AI 호스트가 자연어로 대화하는 팟캐스트 를 자동 생성 (영어 + 일부 언어). 강의·논문·계약서·매뉴얼 등 긴 자료를 5~15분짜리 팟캐스트로 청취 가능 → "출퇴근 학습" 사용 사례.
3.3 Mind Map (마인드맵)
자료를 분석해 계층 구조의 마인드맵으로 자동 시각화 → 학습·정리에 유용.
3.4 노트 (Studio)
채팅 응답을 노트 로 저장 → 같은 노트북 안에서 누적. 노트도 다시 입력으로 사용 가능 (재귀 합성).
3.5 공유 (Plus)
노트북 자체를 동료에게 공유. Viewer (질문만) / Chat (질문 + 노트 추가) 권한 분리.
4. 무료 vs Plus
| 항목 | Free | Plus (Google One AI Premium 또는 Workspace 부가) |
|---|---|---|
| 노트북 개수 | 100 | 무제한 |
| 자료 수/노트북 | 50 | 300 |
| 일일 채팅 | 50회 | 500회 |
| 일일 Audio Overview | 3 | 20 |
| 공유 | ✗ | ✓ |
| 비용 | $0 | $20/월 ~ |
5. 활용 시나리오
| 시나리오 | 예 |
|---|---|
| 학습 | 강의 PDF 50장 + 영상 → 정리 노트 + 팟캐스트 |
| 연구 | 논문 30편 → 비교 표 + 미해결 지점 지도 |
| 계약·정책 | 약관 100p → 조항별 Q&A + 위험 요약 |
| 매뉴얼 | 사내 가이드 → 신규 입사자 자율 Q&A |
| 회의 | 회의록 1년치 → 안건별 결정 추적 |
| 인터뷰 분석 | 음성 10시간 → 인사이트 추출 |
| 책 정리 | 비문학 책 1권 → 챕터별 요약 + 적용 사례 |
6. 한계
- 학습에 활용되지 않음 — 업로드 자료는 모델 학습에 사용 안 됨 (정책 명시). 단 Free 의 채팅 입력은 일부 익명화 후 품질 개선에 사용 가능 → 민감 자료는 Plus 권장.
- 자료 외 답변 거부 — 일반 상식 질문은 답하지 않음 ("자료에 없습니다"). 의도된 제약.
- 50자료 한도 — Free 는 노트북당 50개 (Plus 300). 대규모 코퍼스는 분할 필요.
- API 없음 — 2026-05 현재 NotebookLM 자체 API 미공개. 비슷한 RAG 를 자동화하려면 Gemini API + 자체 RAG (02-rag-pgvector) 로 구축.
- 한국어 — 텍스트는 한국어 강함. 단 Audio Overview 는 영어가 가장 자연스러움 (한국어는 점진 개선 중).
7. 비슷한 도구
| 도구 | 강점 | 약점 vs NotebookLM |
|---|---|---|
| ChatGPT (with files) | 일반 상식 + 자료 모두 | 인용 표기 약함 |
| Claude Projects | 1M 토큰 컨텍스트 | 팟캐스트 없음 |
| Perplexity Spaces | 웹 + 내 자료 혼합 | 마인드맵 없음 |
| Notion AI | 노트 통합 | RAG 단순 |
| 자체 RAG (pgvector + Gemini) | 완전 통제·외부 노출 가능 | 구축·유지 비용 |
8. 사용 팁
- 자료 메타정보 — PDF 의 OCR 품질 영향 큼. 텍스트 추출 가능한 PDF 권장 (스캔 PDF 는 별도 OCR 후 업로드).
- 자료 분리 — 한 노트북에 너무 다양한 주제 섞으면 답변 노이즈. 주제별 노트북 분리.
- YouTube 자막 확인 — 한국어 영상은 자막 자동 생성 안 된 경우 다수. 업로드 전 자막 ON 확인.
- Audio Overview 후 노트 저장 — 팟캐스트 생성 후 Save to note 로 transcript 저장 → 검색 가능.
- Plus 무료 체험 — Google One AI Premium 1개월 무료 → Plus 기능 시험 후 결정.
9. 자체 호스팅 가능성
NotebookLM 자체는 self-host 불가. 비슷한 워크플로를 자체 구축하려면:
- 벡터 DB: pgvector (02-rag-pgvector) 또는 Qdrant
- 임베딩: Gemini text-embedding-004 또는 OpenAI text-embedding-3-small (05-embeddings-deep)
- LLM: Gemini API (04-gemini-api) 또는 LM Studio (01-local-llm-lmstudio)
- 인용: 답변 생성 시 chunk id + 페이지 번호를 source 메타로 첨부 → UI 에서 원문 링크
- 팟캐스트: ElevenLabs / Google TTS + 두 페르소나 스크립트 자동 생성
자체 구축은 데이터 통제·외부 비공개 자료에 유리. 단순 학습용은 NotebookLM 이 빠름.