카테고리

로컬 LLM 6종 종합 벤치마크 — 60문항 한국어 실무 점수표

2026-03-04

Treeru

로컬 LLM을 도입할 때 가장 어려운 건 "어떤 모델을 쓸 것인가"입니다. 개별 모델의 한국어 테스트, 실무 테스트, 환각 테스트를 따로따로 진행해왔지만, 6개 모델을 동일 조건에서 한 번에 비교하는 종합 점수표가 없었습니다. 60문항 × 7개 시나리오 × 6개 모델 = 총 360회 평가의 결과를 정리합니다.

6개

비교 모델

60문항

× 7개 시나리오

3.86점

1위 Qwen3-14B

4/6

환각 트랩 최고 통과율

테스트 설계

6개 모델을 동일 GPU, 동일 서빙 엔진, 동일 Temperature(0.3)로 고정하고 60문항을 순차 실행했습니다. 채점은 5점 만점, 5개 기준을 가중 평균합니다.

테스트 모델

모델	파라미터	양자화	VRAM
Qwen3-14B-AWQ	14B	INT4 (AWQ)	9.4GB
Gemma-3-12B-AWQ	12B	INT4 (AWQ)	8.1GB
KORMo-10B-sft	10B	BF16	20.0GB
Qwen3-8B-AWQ	8B	INT4 (AWQ)	5.2GB
Phi-4-AWQ	14B	INT4 (AWQ)	8.8GB
Llama-3.1-8B-AWQ	8B	INT4 (AWQ)	5.0GB

채점 기준 (5점 만점)

25%한국어 자연스러움존댓말, 어순, 조사 사용의 자연스러움

25%지시 따르기질문 의도에 맞는 형식과 내용으로 응답하는 능력

25%실무 정확성도메인 지식, 수치, 절차의 정확도

15%응답 구조화목록, 단계별 설명 등 체계적 구조화 능력

10%거절/한계 인지모르는 것을 모른다고 답하는 능력

7개 시나리오는 실제 기업 AI 챗봇에서 자주 등장하는 도메인입니다: 제조(공정 문의), SaaS(기능 안내), 의료(증상 상담), 쇼핑(상품 추천), 법률(계약/규정), 자동화(스크립트 생성), 한국어(존댓말/사자성어). 각 시나리오 10문항씩, 한국어와 자동화는 5문항씩 배정했습니다.

종합 순위

순위	모델	종합	제조	SaaS	의료	쇼핑	법률	자동화	한국어
🥇	Qwen3-14B	3.86	4.1	3.9	3.8	3.7	3.5	4.2	4.0
🥈	Gemma-3-12B	3.70	3.8	3.7	3.9	3.6	3.2	3.8	3.9
🥈	KORMo-10B	3.70	3.6	3.5	3.7	3.8	3.4	3.5	4.2
4	Qwen3-8B	3.38	3.5	3.4	3.3	3.3	3.0	3.6	3.5
5	Phi-4	2.64	2.8	2.9	2.5	2.4	2.2	3.2	2.3
6	Llama-3.1-8B	2.58	2.7	2.8	2.5	2.3	2.1	3.0	2.2

Qwen3-14B가 3.86점으로 단독 1위입니다. 7개 시나리오 중 5개에서 최고점을 기록했고, 특히 자동화(4.2)와 제조(4.1)에서 두각을 나타냅니다. Qwen3-14B 심층 리뷰에서 분석한 것처럼, 코드 생성과 구조화된 응답에 강점이 있습니다.

Gemma-3-12B와 KORMo-10B가 3.70점으로 공동 2위입니다. Gemma는 의료(3.9)에서 강하고, KORMo는 한국어(4.2)와 쇼핑(3.8)에서 강합니다. KORMo가 10B 크기임에도 12B Gemma와 동점인 것은 한국어 특화 학습의 효과입니다.

Phi-4와 Llama-3.1-8B는 한국어 실무에 부적합합니다. 종합 2.64점, 2.58점으로 3점 이하입니다. 영어 중심 학습으로 인해 한국어 자연스러움이 크게 떨어지고, 법률·쇼핑 시나리오에서는 사실상 사용 불가 수준입니다. 한국어 서비스라면 선택지에서 제외해야 합니다.

환각 방어력

60문항 중 6문항은 환각 트랩입니다. 존재하지 않는 제품, 가짜 판례, 허위 의료 정보 등을 물어보고 "모르겠다"거나 "해당 정보가 없다"고 올바르게 거절하는지 평가합니다.

Qwen3-14B4/6 통과

가짜 판례·가짜 제품에서 탈락. 나머지 4개 올바르게 거절

KORMo-10B4/6 통과

한국어 특화로 '존재하지 않습니다' 거절 문구가 자연스러움

Llama-3.1-8B3/6 통과

영어로 거절하는 경우 있음. 한국어 거절 능력 부족

Gemma-3-12B2/6 통과

의료 트랩에서 위험한 진단 제공. 쇼핑 트랩에서 가짜 가격 생성

Qwen3-8B2/6 통과

14B 대비 거절 능력 크게 하락. 크기 축소의 대가

Phi-41/6 통과

5/6 환각 생성. 자신 있게 거짓 정보 제공. 가장 위험

환각 방어력 상위 2개 모델은 Qwen3-14B와 KORMo-10B로, 둘 다 4/6을 통과했습니다. 하지만 6/6을 통과한 모델은 없습니다. 모든 로컬 LLM은 특정 트랩에서 환각을 생성합니다. 프로덕션에서는 RAG나 하이브리드 검색으로 팩트 검증을 반드시 보강해야 합니다.

치명적 결함 분석

점수와 별개로, 실서비스에 배포하면 사고가 나는 "치명적 결함"이 있습니다. 모든 모델에서 공통적으로 발견되거나, 특정 모델에서만 나타나는 결함을 정리합니다.

법조문 날조치명

전 모델 (6/6)

존재하지 않는 법률, 판례, 조문 번호를 자신 있게 인용. "근로기준법 제157조"같은 가짜 조문을 생성. 법률 시나리오에서 전 모델이 1회 이상 날조

대응: 법률 도메인은 반드시 RAG + 원문 DB 연동 필수. LLM 단독 사용 금지

중국어 오염중간

Qwen 계열 (Qwen3-14B, Qwen3-8B)

한국어 응답 중간에 중국어 문장이 삽입되거나, 중국어로 생각(think) 후 번역하는 패턴. 주로 의료·법률 전문 용어에서 발생

대응: 시스템 프롬프트에 "반드시 한국어로만 응답" 명시. 후처리 필터로 중국어 문자 감지

반복 루프중간

Phi-4, Llama-3.1-8B

동일한 문장을 끝없이 반복하며 max_tokens까지 채움. 주로 목록 형식 응답에서 발생. "1. ... 2. ... 3. ... 3. ... 3. ..." 패턴

대응: repetition_penalty 1.1~1.2 설정. 또는 서빙 엔진의 반복 감지 + 조기 종료 기능 활용

영어 응답 전환경미

Phi-4, Llama-3.1-8B

한국어로 질문해도 영어로 답하거나, 한국어-영어를 혼용. 특히 기술 용어가 많은 자동화 시나리오에서 빈번

대응: 시스템 프롬프트 강화 + 한국어 특화 모델(KORMo, Qwen3) 사용 권장

속도 vs 품질 트레이드오프

품질이 높은 모델이 느리다면, 실서비스에서 어떤 선택을 해야 할까요? 모델 크기별 생성 속도와 종합 점수를 함께 비교합니다. GPU는 RTX PRO 6000, SGLang 서빙 기준입니다.

모델	크기	단일 tok/s	20명 동시 tok/s	종합 점수	점수/tok/s
Qwen3-14B-AWQ	14B	135	850	3.86	0.029
Gemma-3-12B-AWQ	12B	148	920	3.70	0.025
KORMo-10B-sft	10B	112	680	3.70	0.033
Qwen3-8B-AWQ	8B	208	1,582	3.38	0.016
Phi-4-AWQ	14B	130	810	2.64	0.020
Llama-3.1-8B-AWQ	8B	215	1,640	2.58	0.012

분석 포인트

🏆

Qwen3-14B는 속도는 중간이지만, 품질 대비 가장 효율적입니다. 135tok/s에 3.86점으로 점수/속도 비율이 최고

⚡

8B 모델(Qwen3-8B, Llama-8B)은 속도가 1.5배 빠르지만, 품질이 1점 이상 낮습니다. 동시 접속 수용은 좋지만 응답 품질을 희생

🇰🇷

KORMo-10B는 BF16이라 VRAM(20GB)과 속도(112tok/s)에서 불리하지만, 한국어 품질은 14B급. AWQ 양자화가 나오면 게임 체인저

📉

Phi-4와 Llama-8B는 속도가 빨라도 품질이 3점 미만이므로, 한국어 서비스에서는 선택의 이유가 없음

동시 접속 관점에서 보면, 8B vs 14B vs 32B 비교에서 확인한 것처럼 8B 모델이 20명 동시 접속에서 1,582tok/s로 2배 가까이 빠릅니다. 하지만 품질이 3.38점 이하인 모델을 빠르게 서빙하는 건 의미가 없습니다. Qwen3-14B의 850tok/s면 20명 동시 접속에서도 사용자당 42tok/s 이상을 유지하므로, 대부분의 B2B 시나리오에서 충분합니다.

결론 — 시나리오별 추천 모델

시나리오	1순위	2순위	이유
범용 (기본)	Qwen3-14B	Gemma-3-12B	종합 점수 1위. 대부분의 시나리오에서 안정적
한국어 중심	KORMo-10B	Qwen3-14B	한국어 4.2점 최고. 자연스러운 존댓말과 표현력
의료 상담	Gemma-3-12B	Qwen3-14B	의료 3.9점 최고. 주의사항 언급이 세심
코드/자동화	Qwen3-14B	Qwen3-8B	자동화 4.2점 최고. 코드 구조화 능력 우수
고처리량 필요	Qwen3-8B	Qwen3-14B	3.38점에 208tok/s. 품질 최저선 이상에서 최고 속도
VRAM 제한	Qwen3-8B	Llama-3.1-8B	5.2GB VRAM. 16GB GPU에서 여유있게 운영

한 줄 요약: 한국어 실무 서비스라면 Qwen3-14B-AWQ가 기본 선택입니다. 14B 크기에 AWQ 양자화(9.4GB VRAM)로 가성비가 가장 좋고, 7개 시나리오 중 5개에서 최고점을 기록합니다. 한국어 자연스러움이 최우선이면 KORMo-10B, 의료 도메인이면 Gemma-3-12B를 고려합니다.

단, 어떤 모델을 선택하든 법조문 날조는 피할 수 없습니다. 법률·의료·금융처럼 팩트 정확성이 생명인 도메인에서는 반드시 DB+RAG 하이브리드 검색이나 Text2SQL을 연동해야 합니다. 그리고 Temperature는 0.3 이하로 설정하세요.

참고: 이 벤치마크는 2026년 3월 기준입니다. 모델 업데이트나 새로운 한국어 특화 모델이 출시되면 순위가 변동될 수 있습니다. 각 모델의 상세 분석은 한국어 테스트, 실무 테스트 (상), 실무 테스트 (하)에서 확인할 수 있습니다.

Treeru

웹 개발, IT 인프라, AI 솔루션 분야의 실무 인사이트를 공유합니다. 기업의 디지털 전환을 돕는 IT 파트너, Treeru입니다.

로컬LLM 한국어벤치마크 모델비교 Qwen3 Gemma KORMo AI챗봇 환각테스트

(4)

4.85/ 5

로그인 하면 댓글을 작성할 수 있습니다.

AI엔지니어

2026-03-04

5.0

드디어 6개 모델을 한 눈에 비교할 수 있는 종합표가 나왔네요. 시나리오별 점수 히트맵이 특히 유용합니다. 기존 개별 글을 오가며 비교하느라 불편했는데 이 글 하나로 해결됩니다.

스타트업CTO

2026-03-04

4.9

속도 vs 품질 트레이드오프 분석이 현실적입니다. 14B가 품질 1위인 건 알겠는데, 동시 접속 20명 기준 처리량까지 보여주니 운영 관점에서 판단하기 좋습니다.

MLOps담당자

2026-03-04

4.8

치명적 결함 분석이 솔직합니다. 전 모델이 법조문을 날조한다는 사실은 로컬 LLM의 한계를 명확히 보여줍니다. 법률 도메인에서는 반드시 RAG를 붙여야겠네요.

로컬 LLM 6종 종합 벤치마크 — 60문항 한국어 실무 점수표

테스트 설계

테스트 모델

채점 기준 (5점 만점)

종합 순위

환각 방어력

치명적 결함 분석

속도 vs 품질 트레이드오프

분석 포인트

결론 — 시나리오별 추천 모델

댓글

관련 글

Qwen3-14B 심층 리뷰 — 왜 1순위 추천 모델인가

LLM 환각 테스트 — 거짓 정보를 만드는 모델은?

로컬 LLM 한국어 능력 비교 — 6개 모델 실전 테스트

8B vs 14B vs 32B 동시 접속 비교