LLM 추론 평가 및 벤치마크¶
개요¶
이 섹션에서는 LLM의 추론 능력을 객관적으로 측정하는 방법과 주요 벤치마크를 다룹니다. 추론 모델들의 성능을 평가하고 비교하는 것은 올바른 모델 선택과 프롬프트 최적화에 필수적입니다.
주요 벤치마크¶
1. 수학 분야¶
| 벤치마크 | 설명 | 난이도 | o3 | Claude 4.6 |
|---|---|---|---|---|
| GSM8K | 초등 수학 문제 | 낮음 | ~95% | ~85% |
| MATH | 고등학교 수학 | 중간 | ~70% | ~45% |
| AIME | 경시 수학 | 높음 | ~40% | ~15% |
2. 논리 및 추론¶
| 벤치마크 | 설명 | 테스트 항목 |
|---|---|---|
| ARC | 과학 추론 | 객관식 과학 문제 |
| HellaSwag | 상식 추론 | 일상적 상황 이해 |
| BBQ | 한글 이해 | 의존성 문제 |
3. 코딩 능력¶
| 벤치마크 | 설명 | 난이도 |
|---|---|---|
| HumanEval | 알고리즘 작성 | 중간 |
| LeetCode Hard | 복잡한 알고리즘 | 높음 |
| MBPP | 프로그램 합성 | 낮음~중간 |
한글 평가 벤치마크¶
KoBEST (Korean BEST)¶
한국 언어 이해와 추론을 측정하는 종합 벤치마크:
한글 수학 문제 예제¶
문제:
한 회사의 2023년 매출이 100억원이었고,
2024년에 25% 증가했으며,
2025년에는 2024년의 90%였습니다.
2025년의 예상 매출은?
정답: 112.5억원
과정 검증: 100 → 125 → 112.5
평가 방법론¶
1. 정확도 평가¶
def evaluate_reasoning(responses, ground_truth):
correct = sum(1 for r in responses if r == ground_truth)
accuracy = correct / len(responses)
return accuracy
# 예: 10개 문제 중 7개 정답
# 정확도: 70%
2. 과정 평가 (Process Evaluation)¶
단계별 평가
최종 답뿐만 아니라 추론 과정도 평가합니다:
- 논리적 연속성 (50점)
- 수학적 정확성 (30점)
- 명확한 표현 (20점)
3. 신뢰성 평가¶
모델별 성능 비교 (2026)¶
수학 능력¶
o3: ████████████ 95%
o4-mini: █████████ 80%
Claude 4.6: ████████ 75%
GPT-5.4: ████████ 74%
Gemini 2.5: ███████ 68%
DeepSeek-R1: ████████ 72%
추론 속도¶
Claude 4.6: ████████████ 1초 (빠름)
GPT-5.4: ██████████ 2초
Gemini 2.5: █████████ 3초
o4-mini: ███████ 5초
o3: ███ 30초 (느림)
비용 효율성¶
Claude 4.6: ████████████ 최고 효율
Gemini 2.5: ██████████ 우수
GPT-5.4: ████████ 보통
o4-mini: ███████ 낮음
o3: █ 매우 낮음
실전 평가 체크리스트¶
💡 모델 평가 시 확인사항:
- 정확도: 벤치마크에서 80% 이상 달성?
- 속도: 평균 응답 시간이 수용 가능한 범위?
- 비용: 월 예산 내에서 운영 가능?
- 신뢰도: 같은 문제 반복 시 일관성?
- 한글 처리: 한글 입력에 대한 성능?
- 도구 호출: 필요시 API 호출 가능?
- 출력 품질: 형식 요구사항 충족?
추론 기법별 테스트¶
이 섹션의 다른 페이지에서 다음 기법들을 상세히 학습합니다:
핵심 정리¶
- 주요 벤치마크: GSM8K, MATH, ARC, HumanEval
- 한글 평가: KoBEST, 한글 수학 문제
- 평가 지표: 정확도, 과정, 신뢰도
- 모델 선택 시 수학/속도/비용 트레이드오프 고려
- 실전 평가 체크리스트로 모델 검증