LLM 추론 평가 및 벤치마크¶

개요¶

이 섹션에서는 LLM의 추론 능력을 객관적으로 측정하는 방법과 주요 벤치마크를 다룹니다. 추론 모델들의 성능을 평가하고 비교하는 것은 올바른 모델 선택과 프롬프트 최적화에 필수적입니다.

주요 벤치마크¶

1. 수학 분야¶

벤치마크	설명	난이도	o3	Claude 4.6
GSM8K	초등 수학 문제	낮음	~95%	~85%
MATH	고등학교 수학	중간	~70%	~45%
AIME	경시 수학	높음	~40%	~15%

2. 논리 및 추론¶

벤치마크	설명	테스트 항목
ARC	과학 추론	객관식 과학 문제
HellaSwag	상식 추론	일상적 상황 이해
BBQ	한글 이해	의존성 문제

3. 코딩 능력¶

벤치마크	설명	난이도
HumanEval	알고리즘 작성	중간
LeetCode Hard	복잡한 알고리즘	높음
MBPP	프로그램 합성	낮음~중간

한글 평가 벤치마크¶

KoBEST (Korean BEST)¶

한국 언어 이해와 추론을 측정하는 종합 벤치마크:

1. KLUE-STS: 의미 유사도 판단
2. KLUE-NLI: 자연언어 추론
3. KorSTSB: 문장 유사도
4. YNAT: 뉘앙스 이해
5. WCCN: 일관성 검증

한글 수학 문제 예제¶

문제:
한 회사의 2023년 매출이 100억원이었고,
2024년에 25% 증가했으며,
2025년에는 2024년의 90%였습니다.
2025년의 예상 매출은?

정답: 112.5억원
과정 검증: 100 → 125 → 112.5

평가 방법론¶

1. 정확도 평가¶

def evaluate_reasoning(responses, ground_truth):
    correct = sum(1 for r in responses if r == ground_truth)
    accuracy = correct / len(responses)
    return accuracy

# 예: 10개 문제 중 7개 정답
# 정확도: 70%

2. 과정 평가 (Process Evaluation)¶

단계별 평가

최종 답뿐만 아니라 추론 과정도 평가합니다:

논리적 연속성 (50점)
수학적 정확성 (30점)
명확한 표현 (20점)

3. 신뢰성 평가¶

같은 문제를 5번 반복해서 테스트:
- 모두 같은 답: 100% 신뢰도
- 4번 같은 답: 80% 신뢰도
- 3번만 같은 답: 60% 신뢰도 (신뢰 불가)

모델별 성능 비교 (2026)¶

수학 능력¶

o3:          ████████████ 95%
o4-mini:     █████████ 80%
Claude 4.6:  ████████ 75%
GPT-5.4:       ████████ 74%
Gemini 2.5:  ███████ 68%
DeepSeek-R1: ████████ 72%

추론 속도¶

Claude 4.6:  ████████████ 1초 (빠름)
GPT-5.4:       ██████████ 2초
Gemini 2.5:  █████████ 3초
o4-mini:     ███████ 5초
o3:          ███ 30초 (느림)

비용 효율성¶

Claude 4.6:  ████████████ 최고 효율
Gemini 2.5:  ██████████ 우수
GPT-5.4:       ████████ 보통
o4-mini:     ███████ 낮음
o3:          █ 매우 낮음

실전 평가 체크리스트¶

💡 모델 평가 시 확인사항:

정확도: 벤치마크에서 80% 이상 달성?
속도: 평균 응답 시간이 수용 가능한 범위?
비용: 월 예산 내에서 운영 가능?
신뢰도: 같은 문제 반복 시 일관성?
한글 처리: 한글 입력에 대한 성능?
도구 호출: 필요시 API 호출 가능?
출력 품질: 형식 요구사항 충족?

추론 기법별 테스트¶

이 섹션의 다른 페이지에서 다음 기법들을 상세히 학습합니다:

간접 추론: 모순과 대우를 이용한 증명
물리적 추론: 현실 세계 이해와 상식
인도형 연쇄 추론: 구조화된 추론 템플릿

핵심 정리¶

주요 벤치마크: GSM8K, MATH, ARC, HumanEval
한글 평가: KoBEST, 한글 수학 문제
평가 지표: 정확도, 과정, 신뢰도
모델 선택 시 수학/속도/비용 트레이드오프 고려
실전 평가 체크리스트로 모델 검증

학습 후 다음 단계¶

간접 추론으로 논리적 기법 학습
물리적 추론으로 상식 능력 평가
인도형 연쇄 추론으로 실전 적용
LLM 추론 연구로 최신 이론 이해