RAG 개요 (Retrieval-Augmented Generation Overview)¶

RAG란?¶

검색 증강 생성(RAG, Retrieval-Augmented Generation)은 대규모 언어 모델(LLM)을 정보 검색 시스템과 결합하여, 외부 지식 기반에 접근할 수 있도록 하는 기술입니다. 2020년 Meta(구 Facebook) AI 연구팀이 처음 제시한 이 방법은 현재 다양한 산업에서 생성형 AI의 신뢰성을 향상시키는 핵심 기술이 되었습니다.

RAG의 기본 원리¶

LLM은 학습 단계에서 고정된 지식을 습득합니다. 이는 다음과 같은 문제를 야기합니다:

최신 정보 부재: 학습 데이터 이후의 새로운 정보에 대응 불가
도메인 지식 한계: 특정 분야의 깊이 있는 지식 부족
환각 현상: 존재하지 않는 정보를 그럴듯하게 생성

RAG는 이런 문제들을 해결하기 위해 LLM이 필요할 때마다 외부 데이터베이스에 접근하도록 설계되었습니다.

RAG vs 파인튜닝: 비교¶

항목	RAG	파인튜닝
학습 방식	검색 기반, 추가 학습 불필요	추가 데이터로 모델 재훈련
비용	검색 인프라 비용	높은 컴퓨팅 비용
업데이트 속도	즉시 (데이터 추가로)	재훈련 필요 (시간 소요)
지식 추적성	검색 출처 명확함	모델 내부 (불명확함)
메모리 효율	높음	낮음 (모델 크기 증가)
적합한 경우	자주 변하는 정보	특정 스타일 학습

RAG 선택 가이드¶

!!! 💡 RAG를 사용해야 할 때 - 뉴스, 주가 데이터처럼 자주 업데이트되는 정보 - 사내 문서, 법규처럼 도메인 특화 지식이 필요할 때 - 검증 가능한 출처가 중요할 때 - 비용 효율성이 중요할 때

!!! 📌 파인튜닝이 필요할 때 - 특정 말투나 스타일 학습 필요 - 문제 해결 능력 향상 필요 - 의료, 법률 같은 매우 특화된 추론 필요

RAG의 기본 아키텍처¶

RAG 시스템은 크게 세 가지 단계로 작동합니다:

1단계: 검색 (Retrieval)¶

사용자 질문
    ↓
임베딩 변환
    ↓
벡터 데이터베이스 검색
    ↓
관련 문서 추출 (상위 K개)

2단계: 증강 (Augmentation)¶

검색된 문서들
    ↓
프롬프트에 통합
    ↓
인용 정보 추가
    ↓
LLM 입력 준비

3단계: 생성 (Generation)¶

확장된 프롬프트 + 문서 컨텍스트
    ↓
LLM 처리 (GPT-5.4, Claude 4.6, Gemini 2.5 Pro 등)
    ↓
최종 답변 생성
    ↓
인용과 함께 사용자에게 전달

한국 실무 예시: 사내 문서 기반 Q&A 시스템¶

시나리오: SK하이닉스의 신입사원이 사내 정책에 대해 질문

질문: "휴가 신청은 언제까지 해야 하나요?"

RAG 시스템의 동작:
1. 검색: 사내 HR 문서, 휴가 정책 관련 파일 검색
2. 증강: 발견한 규정 "최소 3주전 신청 필수" 프롬프트에 추가
3. 생성: Claude 4.6이 정책 문서 기반으로 답변 생성

결과:
"휴가 신청은 휴가 시작 최소 3주전까지 신청하셔야 합니다.
(출처: 2024년 개정 사내 휴가 규정 2.1항)"

!!! 💡 실전 팁 - 한국 기업의 이점: RAG를 사용하면 급변하는 사내 정책을 LLM 재훈련 없이 반영 가능 - 문서 관리: 정책 변경 시 벡터 DB만 업데이트하면 즉시 시스템에 반영 - 감사 추적: 모든 답변의 출처를 명확히 기록 가능 (컴플라이언스 강화)

RAG의 장점¶

1. 신뢰성 향상¶

검증 가능성: 생성된 답변의 출처를 정확히 제시 가능
환각 감소: 실제 문서 기반이므로 거짓 정보 생성 감소
감사 추적: 답변에 사용된 문서를 기록하여 책임 추적 가능

2. 최신 정보 활용¶

즉각적 업데이트: 모델 재훈련 없이 새로운 정보 반영
동적 지식 기반: 실시간으로 변하는 정보에 대응
버전 관리: 문서 버전별로 다른 답변 제공 가능

3. 비용 효율성¶

모델 크기: 작은 모델(예: GPT-4 대신 GPT-3.5 기반)으로도 효과적
재훈련 비용: 수천 달러의 GPU 비용 절감
유지보수: 새로운 지식 추가 시 단순히 문서만 추가

4. 확장성과 유연성¶

다양한 도메인: 법률, 의료, 기술 등 어느 분야든 적용 가능
다국어 지원: 번역 문서 추가로 다국어 시스템 구축
점진적 개선: 피드백을 통해 문서 품질 지속적 개선

RAG의 과제¶

1. 검색 품질에 의존¶

문제: 관련도 높은 문서를 찾지 못하면 품질 저하 해결책: - 고수준의 임베딩 모델 사용 - 다양한 검색 알고리즘 조합 (하이브리드 검색) - 검색 결과 순위 최적화

2. 정보 충돌¶

문제: 검색된 정보와 LLM의 학습된 지식이 모순될 경우 예시:

문서: "2024년 최저임금은 10,830원"
LLM 학습 데이터: "2023년 최저임금은 9,620원"
→ 어느 것을 신뢰할까?

해결책: - 신뢰 점수 시스템 도입 - 최신 정보 우선순위 명시 - 모델 프롬프트에 "검색 문서를 최우선 신뢰" 지시

3. 컨텍스트 길이 제한¶

문제: 많은 검색 결과로 인한 토큰 증가 - GPT-5.4: 최대 128,000 토큰 - Claude 4.6: 최대 200,000 토큰 - Gemini 2.5 Pro: 최대 1,000,000 토큰

해결책: - 필요한 문서만 선택적 검색 - 문서 요약 후 사용 - 멀티 홉(multi-hop) 검색으로 단계적 정보 활용

한국 산업별 RAG 활용¶

금융/보험업¶

KB금융: 상품 정보 및 약관 기반 Q&A
삼성화재: 보험 가입 조건 및 청구 절차 안내
위험 감소: RAG로 부정확한 정보 제공 위험 최소화

의료/헬스케어¶

서울대학교병원: 최신 임상 가이드라인 기반 상담 지원
약사 상담: 의약품 상호작용 정보 검색
환자 안전: 신뢰성 높은 정보 제공

공공행정¶

정부24: 민원 안내 및 정책 설명
지방자치단체: 지역 조례 및 규정 안내
투명성: 모든 답변에 법규 근거 명시

📝 핵심 정리¶

RAG의 핵심 개념¶

검색 → 증강 → 생성: 세 단계 프로세스
외부 지식 활용: 최신 정보와 도메인 지식 활용 가능
출처 명확: 모든 답변이 검증 가능
동적 업데이트: 모델 재훈련 없이 지식 업데이트

선택 기준¶

RAG 추천: 자주 변하는 정보, 도메인 특화 지식, 신뢰성 중시
파인튜닝 추천: 특정 스타일/능력 학습, 고도의 추론 필요

성공 요인¶

검색 품질: 좋은 임베딩 모델과 벡터 DB
문서 품질: 정확하고 최신 문서 유지
프롬프트 설계: 검색 결과를 효과적으로 활용
평가 체계: 정기적인 성능 모니터링

참고 자료¶

Lewis et al. (2021). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
Shi et al. (2024). Retrieval-Augmented Generation for Large Language Models: A Survey

다음 단계¶

다음 페이지에서 RAG 파이프라인의 실제 구현 방법을 배우겠습니다.