카테고리

로컬 LLM 한국어 능력 비교 - 6개 모델 실전 테스트

2026-02-22

Treeru

로컬 LLM으로 한국어 서비스를 만들 때 가장 중요한 것은 한국어를 얼마나 자연스럽게 구사하는가입니다. 존댓말, 비즈니스 어투, 언어 오염(중국어/영어 혼입), 자연스러운 표현 등 6개 모델의 한국어 능력을 10개 질문으로 상세히 비교했습니다.

4.28

최고점 (Gemma)

2.33

최저점 (Phi-4)

10개

한국어 질문

6개

테스트 모델

1한국어 점수 비교

시나리오 G(한국어 능력)에서 10개 질문으로 평가한 점수입니다. 한국어 자연스러움, 존댓말 유지, 전문 용어 사용, 언어 오염 여부를 종합 반영했습니다.

순위	모델	한국어 점수	비고
1	Gemma-3-12B	4.28	한국어 1위, 자연스러운 표현
2	Qwen3-14B	4.19	안정적 비즈니스 한국어
3	KORMo-10B	3.83	한국어 특화, 존댓말 우수
4	Qwen3-8B	3.33	양호하나 중국어 오염
5	Llama-3.1-8B	2.67	다국어 오염 심각
6	Phi-4	2.33	영어 전환 빈번, 최하위

Gemma-3-12B

4.28

Qwen3-14B

4.19

KORMo-10B

3.83

Qwen3-8B

3.33

Llama-3.1-8B

2.67

Phi-4

2.33

1위와 6위의 격차

Gemma-3-12B(4.28)와 Phi-4(2.33)의 격차는 무려 1.95점. 같은 "LLM"이라도 한국어 능력은 하늘과 땅 차이입니다. 한국어 서비스라면 모델 선택이 사업 성패를 좌우합니다.

2존댓말과 비즈니스 어투

한국어 서비스에서 존댓말 유지는 가장 기본적인 요구사항입니다. "~습니다", "~하세요", "~드립니다" 같은 격식체를 일관되게 사용하는지, 비즈니스 상황에 맞는 어투를 구사하는지 평가했습니다.

좋은 존댓말 예시

"해당 사항에 대해 안내드리겠습니다. 먼저 근로기준법 제60조에 따르면, 연차 유급휴가는 1년간 80% 이상 출근한 근로자에게 부여됩니다."

- KORMo-10B 응답 중

나쁜 존댓말 예시

"이 문제는 다음과 같이 해결할 수 있다. 첫째, the employment contract should... 아, 이 부분은 한국어로 설명하면..."

- Phi-4 응답 중 (영어 전환)

모델	존댓말 유지	비즈니스 어투	평가
KORMo-10B	★★★★★	★★★★★	완벽에 가까운 격식체
Gemma-3-12B	★★★★★	★★★★☆	캐주얼/포멀 톤 전환 자연스러움
Qwen3-14B	★★★★☆	★★★★☆	안정적이나 간헐적 번역체
Qwen3-8B	★★★☆☆	★★★☆☆	유지는 하나 어투가 딱딱함
Llama-3.1-8B	★★☆☆☆	★★☆☆☆	존댓말 유지 불안정
Phi-4	★★☆☆☆	★☆☆☆☆	존댓말에서 반말로 전환됨

비즈니스 한국어의 핵심

KORMo-10B는 "~드리겠습니다", "~하시기 바랍니다" 같은 자연스러운 비즈니스 격식체를 가장 잘 구사합니다. Gemma-3-12B는 톤 전환이 자연스럽고, 상황에 맞는 존칭 사용이 뛰어납니다.

3언어 오염 문제

한국어로 질문했는데 중국어, 영어, 러시아어, 일본어가 섞여 나오는 현상을 "언어 오염(Language Contamination)"이라 합니다. 서비스 품질에 치명적인 문제입니다.

모델	오염 건수	오염 언어	심각도
Gemma-3-12B	0~1건	영어 단어 수준	경미
Qwen3-14B	0~1건	영어 기술 용어	경미
KORMo-10B	1건	영어 전문 용어	경미
Qwen3-8B	3건	중국어 (한자, 중국식 표현)	중간
Phi-4	3건 이상	영어 (문장 단위 전환)	심각
Llama-3.1-8B	5건 이상	러시아어, 중국어, 일본어, 영어	매우 심각

Qwen3-8B: 중국어 오염 사례

"근로기준법에 따르면 劳动者(노동자)의 연차 휴가는..."

학습 데이터에 포함된 중국어가 한국어 응답 중 간헐적으로 등장. 특히 법률/행정 분야에서 빈번.

Llama-3.1-8B: 다국어 오염 사례

"이 문제에 대한 해결책은 следующим образом(다음과 같이)... 또한 具体的には(구체적으로는)..."

러시아어, 일본어, 중국어가 무작위로 혼입. 한국어 응답 도중 갑자기 다른 언어로 전환되는 현상이 빈번.

Phi-4: 영어 전환 사례

"근로계약에 관한 사항을 설명드리면, According to the Labor Standards Act, Article 60 states that..."

단어 수준이 아닌 문장 단위로 영어 전환. 한국어 서비스에서 이 수준의 영어 혼입은 사용자 경험을 심각하게 훼손.

언어 오염은 서비스 킬러

고객 응대 챗봇에서 갑자기 러시아어가 나오면 서비스 신뢰도가 즉시 무너집니다. 한국어 서비스라면 Gemma, Qwen3-14B, KORMo 중에서 선택해야 합니다.

4자연스러운 한국어 표현

"번역체"가 아닌 한국 사람이 쓰는 것 같은 자연스러운 표현을 구사하는지 평가했습니다. 특히 접속사, 조사, 어미 처리에서 큰 차이가 납니다.

자연스러운 표현 (Good)

"이 부분은 좀 더 살펴봐야 할 것 같습니다."

- KORMo-10B

"말씀하신 내용을 토대로 정리해 드리겠습니다."

- Gemma-3-12B

"이 점 참고하시어 업무에 활용하시기 바랍니다."

- Qwen3-14B

부자연스러운 표현 (Bad)

"이것은 매우 중요한 것이다. 왜냐하면 그것이..."

- Phi-4 (번역체)

"당신은 다음의 단계를 따라야 합니다."

- Llama-3.1-8B (번역체)

"하기 사항에 대하여 설명을 진행하도록 하겠습니다."

- Qwen3-8B (딱딱한 관공서체)

자연스러움 평가 요약

KORMo-10B한국 원어민이 쓴 것 같은 자연스러운 비즈니스 문체. 접속사와 어미 사용이 가장 자연스러움.

Gemma-3-12B간결하면서도 정확한 한국어. 상황별 톤 전환이 유연하고, 불필요한 수식을 줄임.

Qwen3-14B전반적으로 안정적이나, 가끔 '~것입니다', '~되어집니다' 같은 번역체가 등장.

Qwen3-8B기본기는 갖추었으나, 딱딱한 관공서체 경향. 긴 응답에서 품질 하락.

Llama-3.1-8B'당신은', '그것은' 등 영어 직역 표현 빈번. 한국어 화용론 이해 부족.

Phi-4'왜냐하면~이기 때문이다' 등 전형적 번역체. 한국어보다 영어가 편한 모델.

5모델별 한국어 종합 평가

한국어 점수, 존댓말, 언어 오염, 자연스러움을 종합한 모델별 평가입니다.

Gemma-3-12B

한국어 4.28점 / 5.0

한국어 1위. 존댓말, 비즈니스 어투, 자연스러운 표현 모두 우수.

캐주얼과 포멀 톤 전환이 자연스러움
언어 오염 거의 없음 (영어 단어 1건)
의료/법률 한국어 전문용어도 정확하게 사용
응답 길이가 짧지만 핵심을 잘 짚는 스타일

Qwen3-14B

한국어 4.19점 / 5.0

전반적으로 안정적. 비즈니스 한국어 능숙.

높은 수준의 비즈니스 한국어 구사
언어 오염 매우 드묾 (1건 미만)
긴 응답에서도 한국어 품질 유지
간헐적으로 번역체 표현이 등장

KORMo-10B

한국어 3.83점 / 5.0

한국어 특화 모델답게 자연스러운 표현이 강점.

가장 자연스러운 비즈니스 한국어
존댓말과 격식체 사용이 완벽에 가까움
속도가 느려 실시간 서비스에 제약
일부 전문 분야에서 한국어 용어 부족

Qwen3-8B

한국어 3.33점 / 5.0

기본적 한국어는 되지만 중국어 오염이 간헐적.

기본적인 한국어 구사력은 양호
중국어 오염 3건 발생 (한자, 중국식 표현)
긴 응답에서 한국어 품질이 떨어지는 경향
존댓말은 유지하나 어투가 딱딱함

Llama-3.1-8B

한국어 2.67점 / 5.0

다국어 오염이 심각. 한국어 서비스에 부적합.

러시아어, 중국어, 일본어 등 다국어 오염 다수
한국어 문장 중간에 갑자기 외국어 등장
존댓말 유지가 불안정
번역체 표현이 빈번

Phi-4

한국어 2.33점 / 5.0

한국어 최하위. 영어 전환이 잦아 서비스 불가 수준.

답변 중 영어로 전환하는 빈도가 매우 높음 (3건 이상)
한국어 문법 오류 빈번
존댓말을 쓰다가 반말로 전환되는 경우
전문 용어를 영어로만 표기하는 경향

이 글의 핵심 정리

✓Gemma-3-12B가 한국어 점수 4.28로 1위 — 자연스러운 표현과 톤 전환 우수
✓KORMo-10B는 비즈니스 한국어와 존댓말에서 가장 뛰어남
✓Phi-4(2.33)와 Llama(2.67)는 한국어 서비스에 부적합
✓언어 오염이 가장 심각한 모델은 Llama-3.1-8B (5건 이상, 4개 언어)
✓한국어 서비스라면 Gemma, Qwen3-14B, KORMo 중 선택 권장

정리

로컬 LLM의 한국어 능력은 모델에 따라 극단적인 차이를 보입니다. Gemma-3-12B와 Phi-4의 격차는 1.95점으로, 같은 "AI 챗봇"이라고 해도 사용자 경험이 완전히 다릅니다. 한국어 서비스를 구축한다면 Gemma-3-12B(품질) 또는 Qwen3-14B(밸런스)를 추천하며, Qwen3-14B 선택 시 Qwen3-14B 심층 리뷰를 참고하세요. 비즈니스 한국어가 특히 중요하다면 KORMo-10B도 고려할 만합니다. 다른 시나리오의 상세 분석은 시리즈의 다른 글을 참고하세요.

본 테스트는 2026년 2월 21일에 수행되었습니다. 데이터(속도, 토큰 수, 응답 원문 등)는 실제 측정값이지만, 모델별 순위와 점수에는 평가자의 주관적 판단이 포함되어 있으며 테스트 환경이나 프롬프트에 따라 결과가 달라질 수 있습니다. 본 콘텐츠의 비상업적 공유는 자유이나, 상업적 이용 시 문의 페이지를 통해 연락 바랍니다.

한국어 AI 서비스가 필요하신가요?

Treeru가 한국어에 최적화된 로컬 LLM 기반 서비스를 구축해 드립니다.

무료 상담 신청하기

Treeru

웹 개발, IT 인프라, AI 솔루션 분야의 실무 인사이트를 공유합니다. 기업의 디지털 전환을 돕는 IT 파트너, Treeru입니다.

LLM 한국어 로컬AI Qwen3 KORMo Gemma

로컬 LLM 한국어 능력 비교 - 6개 모델 실전 테스트

1한국어 점수 비교

2존댓말과 비즈니스 어투

좋은 존댓말 예시

나쁜 존댓말 예시

3언어 오염 문제

4자연스러운 한국어 표현

자연스러운 표현 (Good)

부자연스러운 표현 (Bad)

자연스러움 평가 요약

5모델별 한국어 종합 평가

Gemma-3-12B

Qwen3-14B

KORMo-10B

Qwen3-8B

Llama-3.1-8B

Phi-4

이 글의 핵심 정리

정리

한국어 AI 서비스가 필요하신가요?

관련 글

종합 비교

환각 테스트

실무 테스트 (상)