콘텐츠로 이동

LLM 추론 평가 및 벤치마크

개요

이 섹션에서는 LLM의 추론 능력을 객관적으로 측정하는 방법과 주요 벤치마크를 다룹니다. 추론 모델들의 성능을 평가하고 비교하는 것은 올바른 모델 선택과 프롬프트 최적화에 필수적입니다.

주요 벤치마크

1. 수학 분야

벤치마크 설명 난이도 o3 Claude 4.6
GSM8K 초등 수학 문제 낮음 ~95% ~85%
MATH 고등학교 수학 중간 ~70% ~45%
AIME 경시 수학 높음 ~40% ~15%

2. 논리 및 추론

벤치마크 설명 테스트 항목
ARC 과학 추론 객관식 과학 문제
HellaSwag 상식 추론 일상적 상황 이해
BBQ 한글 이해 의존성 문제

3. 코딩 능력

벤치마크 설명 난이도
HumanEval 알고리즘 작성 중간
LeetCode Hard 복잡한 알고리즘 높음
MBPP 프로그램 합성 낮음~중간

한글 평가 벤치마크

KoBEST (Korean BEST)

한국 언어 이해와 추론을 측정하는 종합 벤치마크:

1. KLUE-STS: 의미 유사도 판단
2. KLUE-NLI: 자연언어 추론
3. KorSTSB: 문장 유사도
4. YNAT: 뉘앙스 이해
5. WCCN: 일관성 검증

한글 수학 문제 예제

문제:
한 회사의 2023년 매출이 100억원이었고,
2024년에 25% 증가했으며,
2025년에는 2024년의 90%였습니다.
2025년의 예상 매출은?

정답: 112.5억원
과정 검증: 100 → 125 → 112.5

평가 방법론

1. 정확도 평가

def evaluate_reasoning(responses, ground_truth):
    correct = sum(1 for r in responses if r == ground_truth)
    accuracy = correct / len(responses)
    return accuracy

# 예: 10개 문제 중 7개 정답
# 정확도: 70%

2. 과정 평가 (Process Evaluation)

단계별 평가

최종 답뿐만 아니라 추론 과정도 평가합니다:

  • 논리적 연속성 (50점)
  • 수학적 정확성 (30점)
  • 명확한 표현 (20점)

3. 신뢰성 평가

같은 문제를 5번 반복해서 테스트:
- 모두 같은 답: 100% 신뢰도
- 4번 같은 답: 80% 신뢰도
- 3번만 같은 답: 60% 신뢰도 (신뢰 불가)

모델별 성능 비교 (2026)

수학 능력

o3:          ████████████ 95%
o4-mini:     █████████ 80%
Claude 4.6:  ████████ 75%
GPT-5.4:       ████████ 74%
Gemini 2.5:  ███████ 68%
DeepSeek-R1: ████████ 72%

추론 속도

Claude 4.6:  ████████████ 1초 (빠름)
GPT-5.4:       ██████████ 2초
Gemini 2.5:  █████████ 3초
o4-mini:     ███████ 5초
o3:          ███ 30초 (느림)

비용 효율성

Claude 4.6:  ████████████ 최고 효율
Gemini 2.5:  ██████████ 우수
GPT-5.4:       ████████ 보통
o4-mini:     ███████ 낮음
o3:          █ 매우 낮음

실전 평가 체크리스트

💡 모델 평가 시 확인사항:

  • 정확도: 벤치마크에서 80% 이상 달성?
  • 속도: 평균 응답 시간이 수용 가능한 범위?
  • 비용: 월 예산 내에서 운영 가능?
  • 신뢰도: 같은 문제 반복 시 일관성?
  • 한글 처리: 한글 입력에 대한 성능?
  • 도구 호출: 필요시 API 호출 가능?
  • 출력 품질: 형식 요구사항 충족?

추론 기법별 테스트

이 섹션의 다른 페이지에서 다음 기법들을 상세히 학습합니다:

핵심 정리

  • 주요 벤치마크: GSM8K, MATH, ARC, HumanEval
  • 한글 평가: KoBEST, 한글 수학 문제
  • 평가 지표: 정확도, 과정, 신뢰도
  • 모델 선택 시 수학/속도/비용 트레이드오프 고려
  • 실전 평가 체크리스트로 모델 검증

학습 후 다음 단계

  1. 간접 추론으로 논리적 기법 학습
  2. 물리적 추론으로 상식 능력 평가
  3. 인도형 연쇄 추론으로 실전 적용
  4. LLM 추론 연구로 최신 이론 이해