LLM 디코딩 파라미터 비교 — Temperature 0.1~0.9 실전 분석
"Temperature를 얼마로 설정해야 하나요?" — 로컬 LLM을 운영하면 가장 먼저 마주치는 질문입니다. 낮으면 안정적이지만 딱딱하고, 높으면 창의적이지만 환각이 늘어난다고 알려져 있습니다. 그런데 "얼마나" 달라지는지 실측한 데이터는 드뭅니다. Qwen3-14B로 60문항 × 5단계 Temperature = 총 300회 실험을 돌렸습니다. 7개 시나리오에서의 응답 변화, 환각 트랩 반응, GPU별 차이까지 실측합니다.
300회
총 실험 횟수
5단계
Temperature (0.1~0.9)
7개
시나리오
2개
GPU 비교
Temperature란
Temperature는 LLM이 다음 토큰을 선택할 때의 확률 분포를 조절하는 파라미터입니다. 소프트맥스(softmax) 함수의 분모에 들어가는 값으로, 낮을수록 확률이 높은 토큰에 집중하고 높을수록 확률이 낮은 토큰도 선택될 가능성이 높아집니다.
T = 0.1
결정적
확률 1위 토큰을 거의 항상 선택. 같은 질문에 같은 답을 생성. 안정적이지만 단조로움
T = 0.5
균형
상위 토큰 위주로 선택하되 약간의 변동. 프로덕션 기본값으로 많이 사용
T = 0.9
창의적
낮은 확률 토큰도 빈번히 선택. 다양하지만 비논리적 응답 위험 증가
이론은 간단하지만, 실제 서비스에서 "고객 문의 응답에 0.3이 좋은가 0.5가 좋은가"는 실험해봐야 알 수 있습니다. 시나리오별로 최적값이 다르고, 특히 환각 발생률이 Temperature에 따라 극적으로 변하기 때문입니다.
300회 실험 설계
실험 조건을 통제하기 위해 모델, GPU, 서빙 엔진, top_p를 고정하고 Temperature만 변수로 두었습니다.
실험 환경
60문항은 실무 테스트에서 사용한 7개 시나리오를 그대로 활용했습니다: 제조(10문항), SaaS(10문항), 의료(10문항), 쇼핑(10문항), 법률(10문항), 자동화(5문항), 한국어(5문항). 환각 트랩 질문 6문항도 포함되어 있어 Temperature가 환각에 미치는 영향을 직접 관찰할 수 있습니다.
응답 길이 변화
Temperature를 올리면 응답이 길어질까? 결론부터 말하면, T=0.1 → T=0.9에서 평균 응답 길이가 약 18% 증가합니다. 하지만 시나리오별로 양상이 다릅니다.
| Temperature | 평균 토큰 수 | 평균 응답 길이 | tok/s | 총 소요 시간 |
|---|---|---|---|---|
| T = 0.1 | 685 | ~570자 | 136.2 | 302s |
| T = 0.3 | 712 | ~595자 | 135.8 | 315s |
| T = 0.5 | 738 | ~615자 | 135.1 | 328s |
| T = 0.7 | 776 | ~650자 | 134.5 | 346s |
| T = 0.9 | 811 | ~675자 | 133.8 | 364s |
시나리오별 응답 길이 변화 (T=0.1 → T=0.9)
tok/s는 Temperature에 거의 영향을 받지 않습니다 (136.2 → 133.8, -1.8%). 생성 속도가 아닌 생성 "양"이 늘어나면서 총 소요 시간이 증가합니다. Temperature를 올리면 더 오래 걸리는 건 "더 많이 말하기 때문"이지, 느려지는 것이 아닙니다.
환각 트랩 테스트
가장 중요한 실험입니다. 환각 테스트에서 사용한 6개 트랩 질문 — 존재하지 않는 제품, 가짜 판례, 의료 진단 유도 등 —을 Temperature별로 반복 테스트했습니다. 각 질문을 Temperature당 3회씩, 총 90회 실행했습니다.
| Temperature | 올바른 거절 | 환각 생성 | 환각률 | 특이사항 |
|---|---|---|---|---|
| T = 0.1 | 15/18 | 3/18 | 16.7% | 거절 시 일관된 문구 사용 |
| T = 0.3 | 14/18 | 4/18 | 22.2% | 거절하되 추측성 문장 1~2개 추가 |
| T = 0.5 | 12/18 | 6/18 | 33.3% | "~일 수 있습니다" 식 모호한 답변 증가 |
| T = 0.7 | 8/18 | 10/18 | 55.6% | 가짜 제품명·가격을 구체적으로 생성 |
| T = 0.9 | 5/18 | 13/18 | 72.2% | 완전히 날조된 상세 정보를 자신 있게 답변 |
핵심 발견
Temperature 0.5를 기준으로 환각률이 급등합니다. T=0.3까지는 22.2%로 관리 가능하지만, T=0.5에서 33.3%, T=0.7에서 55.6%로 뛰어오릅니다. T=0.9에서는 72.2%로 — 환각 트랩 질문 10개 중 7개에서 거짓 정보를 생성합니다. 프로덕션 환경에서 고객 대면 서비스라면 Temperature 0.3 이하가 안전합니다.
환각의 "질"도 달라집니다. T=0.1에서 환각이 발생할 때는 "~일 수 있습니다"라는 모호한 표현을 쓰지만, T=0.9에서는 구체적인 가격, 모델명, 사양을 자신 있게 날조합니다. 사용자 입장에서 더 위험한 건 T=0.9의 환각입니다. 확신에 찬 거짓말은 팩트로 오해하기 쉽기 때문입니다.
시나리오별 최적값
각 시나리오에서 "정확성과 자연스러움의 균형"이 가장 좋은 Temperature를 선별했습니다. 평가 기준은 한국어 테스트와 동일한 5점 척도(한국어 자연스러움 25%, 지시 따르기 25%, 실무 정확성 25%, 응답 구조화 15%, 거절 능력 10%)입니다.
| 시나리오 | 최적 T | T=0.1 점수 | 최적 점수 | T=0.9 점수 | 이유 |
|---|---|---|---|---|---|
| 제조 | 0.3 | 3.8 | 4.0 | 3.2 | 절차 정확성이 중요. 약간의 변동은 표현력 향상 |
| SaaS | 0.3 | 3.7 | 3.9 | 3.4 | 기능 설명은 정확해야 하되, 예시 다양성 필요 |
| 의료 | 0.3 | 3.6 | 3.9 | 2.8 | 주의사항이 풍부해지지만 0.5부터 잘못된 권고 위험 |
| 쇼핑 | 0.5 | 3.4 | 3.8 | 3.1 | 추천 표현의 다양성이 중요. 감성적 문구 효과적 |
| 법률 | 0.1 | 3.9 | 3.9 | 2.4 | 법조문은 정확해야 함. Temperature 올리면 날조 급증 |
| 자동화 | 0.3 | 3.7 | 3.9 | 3.0 | 코드 정확성 필수. 주석 다양성은 도움 |
| 한국어 | 0.5 | 3.5 | 3.8 | 3.3 | 자연스러운 표현이 핵심. 0.5까지는 품질 향상 |
실전 가이드
사실 정확성이 최우선. 표현의 다양성은 불필요
정확성 유지 + 자연스러운 표현. 대부분의 B2B 시나리오에 적합
다양성이 도움되는 시나리오. 환각률 상승 시작점이므로 모니터링 필수
환각률 55% 이상. 고객 대면 서비스에서는 사용 금지
GPU별 차이
같은 모델, 같은 Temperature에서 GPU를 바꾸면 결과가 달라질까? RTX PRO 6000(96GB)과 RTX 5060 Ti(16GB)에서 동일 실험을 반복했습니다.
| 항목 | RTX PRO 6000 | RTX 5060 Ti | 차이 |
|---|---|---|---|
| 평균 tok/s (T=0.3) | 135.8 | 42.3 | 3.2배 |
| 총 소요 시간 (60문항) | 315s | 1,012s | 3.2배 |
| 평균 응답 길이 (T=0.3) | 712 tok | 708 tok | ≈ 동일 |
| 환각률 (T=0.3) | 22.2% | 22.2% | 동일 |
| 시나리오별 최적 T | 0.3 | 0.3 | 동일 |
결론: 속도만 다르고, 품질은 동일합니다. GPU가 달라도 같은 모델 + 같은 Temperature면 응답 길이, 환각률, 최적 Temperature 모두 동일합니다. tok/s가 3.2배 차이나므로 응답 속도는 크게 다르지만, Temperature 설정 가이드는 GPU에 관계없이 공통으로 적용할 수 있습니다.
결론
300회 실험의 결론을 한 줄로 요약하면: 프로덕션 기본값은 T=0.3, 환각이 치명적인 도메인은 T=0.1, 0.5 이상은 모니터링 필수입니다.
핵심 정리
Temperature를 올리면 응답이 길어진다 (평균 +18%). 속도는 변하지 않는다
환각률은 T=0.5부터 급등한다 (22% → 33% → 56% → 72%)
대부분의 B2B 시나리오에서 T=0.3이 최적. 법률은 0.1, 쇼핑·한국어는 0.5까지 허용
GPU가 달라도 Temperature 최적값은 동일. 설정 가이드를 하드웨어 독립적으로 적용 가능
T≥0.7은 고객 대면 서비스에서 사용 금지. 확신에 찬 환각이 가장 위험
Temperature는 "창의성 vs 정확성"의 단순한 슬라이더가 아닙니다. 0.3까지는 자연스러움이 향상되지만, 0.5를 넘으면 환각이라는 완전히 다른 문제가 시작됩니다. 이 경계를 알고 시나리오별로 설정하는 것이, LLM 프로덕션 운영의 기본입니다.
참고: 이 실험은 Qwen3-14B-AWQ 기준입니다. 모델에 따라 최적 Temperature가 다를 수 있지만, "0.5 이상에서 환각 급증"이라는 경향은 대부분의 LLM에서 공통적으로 관찰됩니다. 모델을 교체할 때마다 환각 트랩 테스트를 반복하는 것을 권장합니다.
댓글
(4개)로그인하면 댓글을 작성할 수 있습니다.
300회 실험이라 통계적으로 신뢰할 수 있습니다. Temperature 0.3이 고객 서비스 시나리오에서 최적이라는 결론이 저희 팀 운영 경험과도 일치합니다.
환각 트랩 결과가 가장 유용했습니다. Temperature 0.7 이상에서 '없는 제품을 있다고 답하는' 비율이 급증한다는 건, 프로덕션에서 절대 0.5 이상으로 올려선 안 된다는 뜻이네요.
GPU별 비교에서 Temperature에 의한 품질 차이가 동일하다는 결과가 중요합니다. 하드웨어 관계없이 Temperature 설정 가이드를 공통으로 쓸 수 있으니까요.
관련 글
© 2026 TreeRU. All rights reserved.
본 콘텐츠의 저작권은 TreeRU에 있으며, 출처를 밝히지 않은 무단 전재 및 재배포를 금합니다. 인용 시 출처(treeru.com)를 반드시 명시해 주세요.