로컬 LLM 한국어 능력 비교 - 6개 모델 실전 테스트
로컬 LLM으로 한국어 서비스를 만들 때 가장 중요한 것은 한국어를 얼마나 자연스럽게 구사하는가입니다. 존댓말, 비즈니스 어투, 언어 오염(중국어/영어 혼입), 자연스러운 표현 등 6개 모델의 한국어 능력을 10개 질문으로 상세히 비교했습니다.
4.28
최고점 (Gemma)
2.33
최저점 (Phi-4)
10개
한국어 질문
6개
테스트 모델
1한국어 점수 비교
시나리오 G(한국어 능력)에서 10개 질문으로 평가한 점수입니다. 한국어 자연스러움, 존댓말 유지, 전문 용어 사용, 언어 오염 여부를 종합 반영했습니다.
| 순위 | 모델 | 한국어 점수 | 비고 |
|---|---|---|---|
| 1 | Gemma-3-12B | 4.28 | 한국어 1위, 자연스러운 표현 |
| 2 | Qwen3-14B | 4.19 | 안정적 비즈니스 한국어 |
| 3 | KORMo-10B | 3.83 | 한국어 특화, 존댓말 우수 |
| 4 | Qwen3-8B | 3.33 | 양호하나 중국어 오염 |
| 5 | Llama-3.1-8B | 2.67 | 다국어 오염 심각 |
| 6 | Phi-4 | 2.33 | 영어 전환 빈번, 최하위 |
1위와 6위의 격차
Gemma-3-12B(4.28)와 Phi-4(2.33)의 격차는 무려 1.95점. 같은 "LLM"이라도 한국어 능력은 하늘과 땅 차이입니다. 한국어 서비스라면 모델 선택이 사업 성패를 좌우합니다.
2존댓말과 비즈니스 어투
한국어 서비스에서 존댓말 유지는 가장 기본적인 요구사항입니다. "~습니다", "~하세요", "~드립니다" 같은 격식체를 일관되게 사용하는지, 비즈니스 상황에 맞는 어투를 구사하는지 평가했습니다.
좋은 존댓말 예시
"해당 사항에 대해 안내드리겠습니다. 먼저 근로기준법 제60조에 따르면, 연차 유급휴가는 1년간 80% 이상 출근한 근로자에게 부여됩니다."
- KORMo-10B 응답 중
나쁜 존댓말 예시
"이 문제는 다음과 같이 해결할 수 있다. 첫째, the employment contract should... 아, 이 부분은 한국어로 설명하면..."
- Phi-4 응답 중 (영어 전환)
| 모델 | 존댓말 유지 | 비즈니스 어투 | 평가 |
|---|---|---|---|
| KORMo-10B | ★★★★★ | ★★★★★ | 완벽에 가까운 격식체 |
| Gemma-3-12B | ★★★★★ | ★★★★☆ | 캐주얼/포멀 톤 전환 자연스러움 |
| Qwen3-14B | ★★★★☆ | ★★★★☆ | 안정적이나 간헐적 번역체 |
| Qwen3-8B | ★★★☆☆ | ★★★☆☆ | 유지는 하나 어투가 딱딱함 |
| Llama-3.1-8B | ★★☆☆☆ | ★★☆☆☆ | 존댓말 유지 불안정 |
| Phi-4 | ★★☆☆☆ | ★☆☆☆☆ | 존댓말에서 반말로 전환됨 |
비즈니스 한국어의 핵심
KORMo-10B는 "~드리겠습니다", "~하시기 바랍니다" 같은 자연스러운 비즈니스 격식체를 가장 잘 구사합니다. Gemma-3-12B는 톤 전환이 자연스럽고, 상황에 맞는 존칭 사용이 뛰어납니다.
3언어 오염 문제
한국어로 질문했는데 중국어, 영어, 러시아어, 일본어가 섞여 나오는 현상을 "언어 오염(Language Contamination)"이라 합니다. 서비스 품질에 치명적인 문제입니다.
| 모델 | 오염 건수 | 오염 언어 | 심각도 |
|---|---|---|---|
| Gemma-3-12B | 0~1건 | 영어 단어 수준 | 경미 |
| Qwen3-14B | 0~1건 | 영어 기술 용어 | 경미 |
| KORMo-10B | 1건 | 영어 전문 용어 | 경미 |
| Qwen3-8B | 3건 | 중국어 (한자, 중국식 표현) | 중간 |
| Phi-4 | 3건 이상 | 영어 (문장 단위 전환) | 심각 |
| Llama-3.1-8B | 5건 이상 | 러시아어, 중국어, 일본어, 영어 | 매우 심각 |
Qwen3-8B: 중국어 오염 사례
"근로기준법에 따르면 劳动者(노동자)의 연차 휴가는..."
학습 데이터에 포함된 중국어가 한국어 응답 중 간헐적으로 등장. 특히 법률/행정 분야에서 빈번.
Llama-3.1-8B: 다국어 오염 사례
"이 문제에 대한 해결책은 следующим образом(다음과 같이)... 또한 具体的には(구체적으로는)..."
러시아어, 일본어, 중국어가 무작위로 혼입. 한국어 응답 도중 갑자기 다른 언어로 전환되는 현상이 빈번.
Phi-4: 영어 전환 사례
"근로계약에 관한 사항을 설명드리면, According to the Labor Standards Act, Article 60 states that..."
단어 수준이 아닌 문장 단위로 영어 전환. 한국어 서비스에서 이 수준의 영어 혼입은 사용자 경험을 심각하게 훼손.
언어 오염은 서비스 킬러
고객 응대 챗봇에서 갑자기 러시아어가 나오면 서비스 신뢰도가 즉시 무너집니다. 한국어 서비스라면 Gemma, Qwen3-14B, KORMo 중에서 선택해야 합니다.
4자연스러운 한국어 표현
"번역체"가 아닌 한국 사람이 쓰는 것 같은 자연스러운 표현을 구사하는지 평가했습니다. 특히 접속사, 조사, 어미 처리에서 큰 차이가 납니다.
자연스러운 표현 (Good)
"이 부분은 좀 더 살펴봐야 할 것 같습니다."
- KORMo-10B
"말씀하신 내용을 토대로 정리해 드리겠습니다."
- Gemma-3-12B
"이 점 참고하시어 업무에 활용하시기 바랍니다."
- Qwen3-14B
부자연스러운 표현 (Bad)
"이것은 매우 중요한 것이다. 왜냐하면 그것이..."
- Phi-4 (번역체)
"당신은 다음의 단계를 따라야 합니다."
- Llama-3.1-8B (번역체)
"하기 사항에 대하여 설명을 진행하도록 하겠습니다."
- Qwen3-8B (딱딱한 관공서체)
자연스러움 평가 요약
5모델별 한국어 종합 평가
한국어 점수, 존댓말, 언어 오염, 자연스러움을 종합한 모델별 평가입니다.
Gemma-3-12B
한국어 4.28점 / 5.0
한국어 1위. 존댓말, 비즈니스 어투, 자연스러운 표현 모두 우수.
- 캐주얼과 포멀 톤 전환이 자연스러움
- 언어 오염 거의 없음 (영어 단어 1건)
- 의료/법률 한국어 전문용어도 정확하게 사용
- 응답 길이가 짧지만 핵심을 잘 짚는 스타일
Qwen3-14B
한국어 4.19점 / 5.0
전반적으로 안정적. 비즈니스 한국어 능숙.
- 높은 수준의 비즈니스 한국어 구사
- 언어 오염 매우 드묾 (1건 미만)
- 긴 응답에서도 한국어 품질 유지
- 간헐적으로 번역체 표현이 등장
KORMo-10B
한국어 3.83점 / 5.0
한국어 특화 모델답게 자연스러운 표현이 강점.
- 가장 자연스러운 비즈니스 한국어
- 존댓말과 격식체 사용이 완벽에 가까움
- 속도가 느려 실시간 서비스에 제약
- 일부 전문 분야에서 한국어 용어 부족
Qwen3-8B
한국어 3.33점 / 5.0
기본적 한국어는 되지만 중국어 오염이 간헐적.
- 기본적인 한국어 구사력은 양호
- 중국어 오염 3건 발생 (한자, 중국식 표현)
- 긴 응답에서 한국어 품질이 떨어지는 경향
- 존댓말은 유지하나 어투가 딱딱함
Llama-3.1-8B
한국어 2.67점 / 5.0
다국어 오염이 심각. 한국어 서비스에 부적합.
- 러시아어, 중국어, 일본어 등 다국어 오염 다수
- 한국어 문장 중간에 갑자기 외국어 등장
- 존댓말 유지가 불안정
- 번역체 표현이 빈번
Phi-4
한국어 2.33점 / 5.0
한국어 최하위. 영어 전환이 잦아 서비스 불가 수준.
- 답변 중 영어로 전환하는 빈도가 매우 높음 (3건 이상)
- 한국어 문법 오류 빈번
- 존댓말을 쓰다가 반말로 전환되는 경우
- 전문 용어를 영어로만 표기하는 경향
이 글의 핵심 정리
- ✓Gemma-3-12B가 한국어 점수 4.28로 1위 — 자연스러운 표현과 톤 전환 우수
- ✓KORMo-10B는 비즈니스 한국어와 존댓말에서 가장 뛰어남
- ✓Phi-4(2.33)와 Llama(2.67)는 한국어 서비스에 부적합
- ✓언어 오염이 가장 심각한 모델은 Llama-3.1-8B (5건 이상, 4개 언어)
- ✓한국어 서비스라면 Gemma, Qwen3-14B, KORMo 중 선택 권장
정리
로컬 LLM의 한국어 능력은 모델에 따라 극단적인 차이를 보입니다. Gemma-3-12B와 Phi-4의 격차는 1.95점으로, 같은 "AI 챗봇"이라고 해도 사용자 경험이 완전히 다릅니다. 한국어 서비스를 구축한다면 Gemma-3-12B(품질) 또는 Qwen3-14B(밸런스)를 추천하며, Qwen3-14B 선택 시 Qwen3-14B 심층 리뷰를 참고하세요. 비즈니스 한국어가 특히 중요하다면 KORMo-10B도 고려할 만합니다. 다른 시나리오의 상세 분석은 시리즈의 다른 글을 참고하세요.
본 테스트는 2026년 2월 21일에 수행되었습니다. 데이터(속도, 토큰 수, 응답 원문 등)는 실제 측정값이지만, 모델별 순위와 점수에는 평가자의 주관적 판단이 포함되어 있으며 테스트 환경이나 프롬프트에 따라 결과가 달라질 수 있습니다. 본 콘텐츠의 비상업적 공유는 자유이나, 상업적 이용 시 문의 페이지를 통해 연락 바랍니다.
댓글
(5개)로그인하면 댓글을 작성할 수 있습니다.
한국어 LLM 비교를 이렇게 체계적으로 해주신 글은 처음 봅니다. 언어 오염 분석이 특히 실용적이에요!
고객 서비스 챗봇을 만드는데 존댓말 분석 부분이 큰 도움이 됐습니다. Gemma로 갈아타야겠어요.
Phi-4가 영어로 전환되는 문제는 저도 겪었는데, 이렇게 정량적으로 비교해주시니 명확하네요.
관련 글
© 2026 TreeRU. All rights reserved.
본 콘텐츠의 저작권은 TreeRU에 있으며, 출처를 밝히지 않은 무단 전재 및 재배포를 금합니다. 인용 시 출처(treeru.com)를 반드시 명시해 주세요.