RAG 개요 (Retrieval-Augmented Generation Overview)¶
RAG란?¶
검색 증강 생성(RAG, Retrieval-Augmented Generation)은 대규모 언어 모델(LLM)을 정보 검색 시스템과 결합하여, 외부 지식 기반에 접근할 수 있도록 하는 기술입니다. 2020년 Meta(구 Facebook) AI 연구팀이 처음 제시한 이 방법은 현재 다양한 산업에서 생성형 AI의 신뢰성을 향상시키는 핵심 기술이 되었습니다.
RAG의 기본 원리¶
LLM은 학습 단계에서 고정된 지식을 습득합니다. 이는 다음과 같은 문제를 야기합니다:
- 최신 정보 부재: 학습 데이터 이후의 새로운 정보에 대응 불가
- 도메인 지식 한계: 특정 분야의 깊이 있는 지식 부족
- 환각 현상: 존재하지 않는 정보를 그럴듯하게 생성
RAG는 이런 문제들을 해결하기 위해 LLM이 필요할 때마다 외부 데이터베이스에 접근하도록 설계되었습니다.
RAG vs 파인튜닝: 비교¶
| 항목 | RAG | 파인튜닝 |
|---|---|---|
| 학습 방식 | 검색 기반, 추가 학습 불필요 | 추가 데이터로 모델 재훈련 |
| 비용 | 검색 인프라 비용 | 높은 컴퓨팅 비용 |
| 업데이트 속도 | 즉시 (데이터 추가로) | 재훈련 필요 (시간 소요) |
| 지식 추적성 | 검색 출처 명확함 | 모델 내부 (불명확함) |
| 메모리 효율 | 높음 | 낮음 (모델 크기 증가) |
| 적합한 경우 | 자주 변하는 정보 | 특정 스타일 학습 |
RAG 선택 가이드¶
!!! 💡 RAG를 사용해야 할 때 - 뉴스, 주가 데이터처럼 자주 업데이트되는 정보 - 사내 문서, 법규처럼 도메인 특화 지식이 필요할 때 - 검증 가능한 출처가 중요할 때 - 비용 효율성이 중요할 때
!!! 📌 파인튜닝이 필요할 때 - 특정 말투나 스타일 학습 필요 - 문제 해결 능력 향상 필요 - 의료, 법률 같은 매우 특화된 추론 필요
RAG의 기본 아키텍처¶
RAG 시스템은 크게 세 가지 단계로 작동합니다:
1단계: 검색 (Retrieval)¶
2단계: 증강 (Augmentation)¶
3단계: 생성 (Generation)¶
한국 실무 예시: 사내 문서 기반 Q&A 시스템¶
시나리오: SK하이닉스의 신입사원이 사내 정책에 대해 질문
질문: "휴가 신청은 언제까지 해야 하나요?"
RAG 시스템의 동작:
1. 검색: 사내 HR 문서, 휴가 정책 관련 파일 검색
2. 증강: 발견한 규정 "최소 3주전 신청 필수" 프롬프트에 추가
3. 생성: Claude 4.6이 정책 문서 기반으로 답변 생성
결과:
"휴가 신청은 휴가 시작 최소 3주전까지 신청하셔야 합니다.
(출처: 2024년 개정 사내 휴가 규정 2.1항)"
!!! 💡 실전 팁 - 한국 기업의 이점: RAG를 사용하면 급변하는 사내 정책을 LLM 재훈련 없이 반영 가능 - 문서 관리: 정책 변경 시 벡터 DB만 업데이트하면 즉시 시스템에 반영 - 감사 추적: 모든 답변의 출처를 명확히 기록 가능 (컴플라이언스 강화)
RAG의 장점¶
1. 신뢰성 향상¶
- 검증 가능성: 생성된 답변의 출처를 정확히 제시 가능
- 환각 감소: 실제 문서 기반이므로 거짓 정보 생성 감소
- 감사 추적: 답변에 사용된 문서를 기록하여 책임 추적 가능
2. 최신 정보 활용¶
- 즉각적 업데이트: 모델 재훈련 없이 새로운 정보 반영
- 동적 지식 기반: 실시간으로 변하는 정보에 대응
- 버전 관리: 문서 버전별로 다른 답변 제공 가능
3. 비용 효율성¶
- 모델 크기: 작은 모델(예: GPT-4 대신 GPT-3.5 기반)으로도 효과적
- 재훈련 비용: 수천 달러의 GPU 비용 절감
- 유지보수: 새로운 지식 추가 시 단순히 문서만 추가
4. 확장성과 유연성¶
- 다양한 도메인: 법률, 의료, 기술 등 어느 분야든 적용 가능
- 다국어 지원: 번역 문서 추가로 다국어 시스템 구축
- 점진적 개선: 피드백을 통해 문서 품질 지속적 개선
RAG의 과제¶
1. 검색 품질에 의존¶
문제: 관련도 높은 문서를 찾지 못하면 품질 저하 해결책: - 고수준의 임베딩 모델 사용 - 다양한 검색 알고리즘 조합 (하이브리드 검색) - 검색 결과 순위 최적화
2. 정보 충돌¶
문제: 검색된 정보와 LLM의 학습된 지식이 모순될 경우 예시:
해결책: - 신뢰 점수 시스템 도입 - 최신 정보 우선순위 명시 - 모델 프롬프트에 "검색 문서를 최우선 신뢰" 지시
3. 컨텍스트 길이 제한¶
문제: 많은 검색 결과로 인한 토큰 증가 - GPT-5.4: 최대 128,000 토큰 - Claude 4.6: 최대 200,000 토큰 - Gemini 2.5 Pro: 최대 1,000,000 토큰
해결책: - 필요한 문서만 선택적 검색 - 문서 요약 후 사용 - 멀티 홉(multi-hop) 검색으로 단계적 정보 활용
한국 산업별 RAG 활용¶
금융/보험업¶
- KB금융: 상품 정보 및 약관 기반 Q&A
- 삼성화재: 보험 가입 조건 및 청구 절차 안내
- 위험 감소: RAG로 부정확한 정보 제공 위험 최소화
의료/헬스케어¶
- 서울대학교병원: 최신 임상 가이드라인 기반 상담 지원
- 약사 상담: 의약품 상호작용 정보 검색
- 환자 안전: 신뢰성 높은 정보 제공
공공행정¶
- 정부24: 민원 안내 및 정책 설명
- 지방자치단체: 지역 조례 및 규정 안내
- 투명성: 모든 답변에 법규 근거 명시
📝 핵심 정리¶
RAG의 핵심 개념¶
- 검색 → 증강 → 생성: 세 단계 프로세스
- 외부 지식 활용: 최신 정보와 도메인 지식 활용 가능
- 출처 명확: 모든 답변이 검증 가능
- 동적 업데이트: 모델 재훈련 없이 지식 업데이트
선택 기준¶
- RAG 추천: 자주 변하는 정보, 도메인 특화 지식, 신뢰성 중시
- 파인튜닝 추천: 특정 스타일/능력 학습, 고도의 추론 필요
성공 요인¶
- 검색 품질: 좋은 임베딩 모델과 벡터 DB
- 문서 품질: 정확하고 최신 문서 유지
- 프롬프트 설계: 검색 결과를 효과적으로 활용
- 평가 체계: 정기적인 성능 모니터링
참고 자료¶
- Lewis et al. (2021). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
- Shi et al. (2024). Retrieval-Augmented Generation for Large Language Models: A Survey
다음 단계¶
다음 페이지에서 RAG 파이프라인의 실제 구현 방법을 배우겠습니다.