LLM 설정¶
생성형 AI 모델의 결과를 더 효과적으로 제어하기 위해 여러 설정값들을 조정할 수 있습니다. 이 섹션에서는 주요 설정들을 설명합니다.
주요 설정값 개요¶
| 설정값 | 범위 | 기본값 | 역할 |
|---|---|---|---|
| Temperature | 0.0 - 2.0 | 1.0 | 창의성과 무작위성 제어 |
| Top P | 0.0 - 1.0 | 1.0 | 다양성 제어 (누클레우스 샘플링) |
| Max Tokens | 1 - ∞ | 모델마다 다름 | 출력의 최대 길이 |
| Frequency Penalty | -2.0 - 2.0 | 0.0 | 반복 단어 제어 |
| Presence Penalty | -2.0 - 2.0 | 0.0 | 새로운 토픽 장려 |
1. Temperature (온도)¶
역할: 모델의 창의성과 무작위성을 제어합니다.
개념¶
Temperature는 모델이 다음 단어를 선택할 때의 확률 분포를 조정합니다.
Temperature 높음 (1.5-2.0)
┌─────────────────────────────┐
│ 확률이 평탄함 (여러 단어가 선택될 가능성)
│ 결과: 창의적, 다양, 예측 불가능
└─────────────────────────────┘
Temperature 중간 (0.7-1.0)
┌─────────────────────────────┐
│ 균형잡힌 확률 분포
│ 결과: 자연스럽고 다양함
└─────────────────────────────┘
Temperature 낮음 (0.0-0.3)
┌─────────────────────────────┐
│ 확률이 가파름 (높은 확률의 단어만 선택)
│ 결과: 결정적, 반복적, 예측 가능
└─────────────────────────────┘
사용 예시¶
Temperature 0.0-0.3 (낮음) - 일관성이 중요할 때
Temperature 0.7-1.0 (중간) - 자연스러운 대화
Temperature 1.5-2.0 (높음) - 창의성이 중요할 때
2. Top P (누클레우스 샘플링)¶
역할: 확률의 누적값이 P에 도달할 때까지만 단어를 고려합니다.
개념¶
Top P는 Temperature와 비슷하지만, 다른 방식으로 작동합니다.
Top P = 0.9
확률이 높은 순서대로 누적하다가
누적 확률이 90%에 도달하면
그 지점까지의 단어들만 고려합니다.
예: "이 문장을 번역하세요."
- "Translate" (확률 50%) - 누적 50%
- "Convert" (확률 30%) - 누적 80%
- "Change" (확률 15%) - 누적 95%
Top P = 0.9이면, "Change"는 고려되지 않음
사용 패턴¶
Top P = 0.9 (높음) - 다양성
Top P = 0.5 (낮음) - 집중
3. Max Tokens (최대 토큰)¶
역할: 한 번의 응답으로 생성할 수 있는 최대 토큰 수를 제한합니다.
토큰 이해하기¶
토큰은 모델이 처리하는 기본 단위입니다.
한국어:
"안녕하세요, 반갑습니다."
→ 약 8-10개 토큰
영어:
"Hello, nice to meet you."
→ 약 5-6개 토큰
일반적인 추정:
- 영어: 1단어 ≈ 1.3 토큰
- 한국어: 1글자 ≈ 0.5-1 토큰
사용 예시¶
Max Tokens = 100 (짧은 응답)
Max Tokens = 500 (중간 응답)
Max Tokens = 2000 (긴 응답)
주의사항¶
⚠️ Max Tokens를 너무 낮게 설정하면:
- 응답이 중간에 끊길 수 있음
- 완전한 문장이 아닐 수 있음
⚠️ 너무 높게 설정하면:
- API 비용이 높아짐
- 불필요한 시간이 소요됨
4. Frequency Penalty (빈도 페널티)¶
역할: 반복되는 단어나 구문을 줄이도록 페널티를 줍니다.
범위와 의미¶
Frequency Penalty = 0.0 (기본값)
- 반복에 페널티 없음
- 자연스러운 반복 허용
Frequency Penalty = 0.5 (중간)
- 반복된 단어의 확률 감소
- 다양한 표현 장려
Frequency Penalty = 2.0 (높음)
- 강하게 반복 방지
- 같은 단어를 거의 반복하지 않음
사용 예시¶
Frequency Penalty = 0.0 (기본값)
Frequency Penalty = 1.0 (높음)
5. Presence Penalty (존재 페널티)¶
역할: 새로운 주제나 개념을 장려합니다.
범위와 의미¶
Presence Penalty = 0.0 (기본값)
- 주제 반복 허용
- 자연스러운 진행
Presence Penalty = 0.5 (중간)
- 새로운 주제 약간 장려
- 다양한 내용 제시
Presence Penalty = 2.0 (높음)
- 새로운 주제를 적극적으로 도입
- 매우 다양한 내용
사용 예시¶
Presence Penalty = 0.0
Presence Penalty = 1.5
설정 조합 예제¶
예제 1: 정보 제공¶
작업: 정확한 정보 제공
목표: 일관성 있고 정확한 답변
설정:
- Temperature: 0.3 (낮음)
- Top P: 0.7 (낮음)
- Max Tokens: 500 (중간)
- Frequency Penalty: 0.0
- Presence Penalty: 0.0
이유: 창의성보다는 정확성이 중요하므로 낮은 온도 설정
예제 2: 창의적 글쓰기¶
작업: 광고 문구 창작
목표: 다양하고 창의적인 아이디어
설정:
- Temperature: 1.2 (높음)
- Top P: 0.9 (높음)
- Max Tokens: 300 (중간)
- Frequency Penalty: 1.0 (반복 방지)
- Presence Penalty: 1.0 (새로운 개념 장려)
이유: 창의성이 중요하므로 높은 온도, 반복과 새로운 개념 장려
예제 3: 대화 생성¶
작업: 고객 서비스 응답
목표: 자연스럽고 따뜻한 대화
설정:
- Temperature: 0.8 (중간)
- Top P: 0.85 (중간)
- Max Tokens: 400 (중간)
- Frequency Penalty: 0.5 (약간의 다양성)
- Presence Penalty: 0.3 (약간의 새로운 주제)
이유: 자연스러우면서도 구조화된 대화
💡 실전 팁¶
설정값 조정 팁
-
기본값부터 시작: 대부분의 작업은 기본 설정으로 충분합니다.
-
Temperature 먼저: 가장 중요한 설정은 Temperature입니다.
-
반복 실험: 같은 프롬프트로 여러 번 시도해서 결과의 안정성을 확인합니다.
-
문서화: 각 작업별로 성공적인 설정을 기록해 두세요.
-
API 비용 고려: Max Tokens를 불필요하게 높게 설정하지 마세요.
-
모델별 차이: Claude 4.6, GPT-5.4, Gemini 2.5 Pro 등 모델마다 설정이 조금씩 다를 수 있습니다.
📝 핵심 정리¶
- Temperature: 창의성 (0=일관성, 2.0=창의적)
- Top P: 다양성을 다르게 제어 (Temperature와 함께 사용)
- Max Tokens: 응답의 최대 길이 제한
- Frequency Penalty: 반복 단어 제어
- Presence Penalty: 새로운 주제 장려
기억할 것: 설정값들은 프롬프트의 품질보다는 덜 중요합니다. 좋은 프롬프트가 먼저입니다!
다음 단계: 프롬프트 설계 팁에서 실제 작업에서 사용할 수 있는 팁들을 배워보세요.