treeru.com
AI

로컬 LLM 6종 종합 벤치마크 — 60문항 한국어 실무 점수표

2026-03-04
Treeru

로컬 LLM을 도입할 때 가장 어려운 건 "어떤 모델을 쓸 것인가"입니다. 개별 모델의 한국어 테스트, 실무 테스트, 환각 테스트를 따로따로 진행해왔지만, 6개 모델을 동일 조건에서 한 번에 비교하는 종합 점수표가 없었습니다. 60문항 × 7개 시나리오 × 6개 모델 = 총 360회 평가의 결과를 정리합니다.

6개

비교 모델

60문항

× 7개 시나리오

3.86점

1위 Qwen3-14B

4/6

환각 트랩 최고 통과율

테스트 설계

6개 모델을 동일 GPU, 동일 서빙 엔진, 동일 Temperature(0.3)로 고정하고 60문항을 순차 실행했습니다. 채점은 5점 만점, 5개 기준을 가중 평균합니다.

테스트 모델

모델파라미터양자화VRAM
Qwen3-14B-AWQ14BINT4 (AWQ)9.4GB
Gemma-3-12B-AWQ12BINT4 (AWQ)8.1GB
KORMo-10B-sft10BBF1620.0GB
Qwen3-8B-AWQ8BINT4 (AWQ)5.2GB
Phi-4-AWQ14BINT4 (AWQ)8.8GB
Llama-3.1-8B-AWQ8BINT4 (AWQ)5.0GB

채점 기준 (5점 만점)

25%한국어 자연스러움존댓말, 어순, 조사 사용의 자연스러움
25%지시 따르기질문 의도에 맞는 형식과 내용으로 응답하는 능력
25%실무 정확성도메인 지식, 수치, 절차의 정확도
15%응답 구조화목록, 단계별 설명 등 체계적 구조화 능력
10%거절/한계 인지모르는 것을 모른다고 답하는 능력

7개 시나리오는 실제 기업 AI 챗봇에서 자주 등장하는 도메인입니다: 제조(공정 문의), SaaS(기능 안내), 의료(증상 상담), 쇼핑(상품 추천), 법률(계약/규정), 자동화(스크립트 생성), 한국어(존댓말/사자성어). 각 시나리오 10문항씩, 한국어와 자동화는 5문항씩 배정했습니다.

종합 순위

순위모델종합제조SaaS의료쇼핑법률자동화한국어
🥇Qwen3-14B3.864.13.93.83.73.54.24.0
🥈Gemma-3-12B3.703.83.73.93.63.23.83.9
🥈KORMo-10B3.703.63.53.73.83.43.54.2
4Qwen3-8B3.383.53.43.33.33.03.63.5
5Phi-42.642.82.92.52.42.23.22.3
6Llama-3.1-8B2.582.72.82.52.32.13.02.2

Qwen3-14B가 3.86점으로 단독 1위입니다. 7개 시나리오 중 5개에서 최고점을 기록했고, 특히 자동화(4.2)와 제조(4.1)에서 두각을 나타냅니다. Qwen3-14B 심층 리뷰에서 분석한 것처럼, 코드 생성과 구조화된 응답에 강점이 있습니다.

Gemma-3-12B와 KORMo-10B가 3.70점으로 공동 2위입니다. Gemma는 의료(3.9)에서 강하고, KORMo는 한국어(4.2)와 쇼핑(3.8)에서 강합니다. KORMo가 10B 크기임에도 12B Gemma와 동점인 것은 한국어 특화 학습의 효과입니다.

Phi-4와 Llama-3.1-8B는 한국어 실무에 부적합합니다. 종합 2.64점, 2.58점으로 3점 이하입니다. 영어 중심 학습으로 인해 한국어 자연스러움이 크게 떨어지고, 법률·쇼핑 시나리오에서는 사실상 사용 불가 수준입니다. 한국어 서비스라면 선택지에서 제외해야 합니다.

환각 방어력

60문항 중 6문항은 환각 트랩입니다. 존재하지 않는 제품, 가짜 판례, 허위 의료 정보 등을 물어보고 "모르겠다"거나 "해당 정보가 없다"고 올바르게 거절하는지 평가합니다.

Qwen3-14B4/6 통과

가짜 판례·가짜 제품에서 탈락. 나머지 4개 올바르게 거절

KORMo-10B4/6 통과

한국어 특화로 '존재하지 않습니다' 거절 문구가 자연스러움

Llama-3.1-8B3/6 통과

영어로 거절하는 경우 있음. 한국어 거절 능력 부족

Gemma-3-12B2/6 통과

의료 트랩에서 위험한 진단 제공. 쇼핑 트랩에서 가짜 가격 생성

Qwen3-8B2/6 통과

14B 대비 거절 능력 크게 하락. 크기 축소의 대가

Phi-41/6 통과

5/6 환각 생성. 자신 있게 거짓 정보 제공. 가장 위험

환각 방어력 상위 2개 모델은 Qwen3-14B와 KORMo-10B로, 둘 다 4/6을 통과했습니다. 하지만 6/6을 통과한 모델은 없습니다. 모든 로컬 LLM은 특정 트랩에서 환각을 생성합니다. 프로덕션에서는 RAG 하이브리드 검색으로 팩트 검증을 반드시 보강해야 합니다.

치명적 결함 분석

점수와 별개로, 실서비스에 배포하면 사고가 나는 "치명적 결함"이 있습니다. 모든 모델에서 공통적으로 발견되거나, 특정 모델에서만 나타나는 결함을 정리합니다.

법조문 날조치명
전 모델 (6/6)

존재하지 않는 법률, 판례, 조문 번호를 자신 있게 인용. "근로기준법 제157조"같은 가짜 조문을 생성. 법률 시나리오에서 전 모델이 1회 이상 날조

대응: 법률 도메인은 반드시 RAG + 원문 DB 연동 필수. LLM 단독 사용 금지

중국어 오염중간
Qwen 계열 (Qwen3-14B, Qwen3-8B)

한국어 응답 중간에 중국어 문장이 삽입되거나, 중국어로 생각(think) 후 번역하는 패턴. 주로 의료·법률 전문 용어에서 발생

대응: 시스템 프롬프트에 "반드시 한국어로만 응답" 명시. 후처리 필터로 중국어 문자 감지

반복 루프중간
Phi-4, Llama-3.1-8B

동일한 문장을 끝없이 반복하며 max_tokens까지 채움. 주로 목록 형식 응답에서 발생. "1. ... 2. ... 3. ... 3. ... 3. ..." 패턴

대응: repetition_penalty 1.1~1.2 설정. 또는 서빙 엔진의 반복 감지 + 조기 종료 기능 활용

영어 응답 전환경미
Phi-4, Llama-3.1-8B

한국어로 질문해도 영어로 답하거나, 한국어-영어를 혼용. 특히 기술 용어가 많은 자동화 시나리오에서 빈번

대응: 시스템 프롬프트 강화 + 한국어 특화 모델(KORMo, Qwen3) 사용 권장

속도 vs 품질 트레이드오프

품질이 높은 모델이 느리다면, 실서비스에서 어떤 선택을 해야 할까요? 모델 크기별 생성 속도와 종합 점수를 함께 비교합니다. GPU는 RTX PRO 6000, SGLang 서빙 기준입니다.

모델크기단일 tok/s20명 동시 tok/s종합 점수점수/tok/s
Qwen3-14B-AWQ14B1358503.860.029
Gemma-3-12B-AWQ12B1489203.700.025
KORMo-10B-sft10B1126803.700.033
Qwen3-8B-AWQ8B2081,5823.380.016
Phi-4-AWQ14B1308102.640.020
Llama-3.1-8B-AWQ8B2151,6402.580.012

분석 포인트

🏆

Qwen3-14B는 속도는 중간이지만, 품질 대비 가장 효율적입니다. 135tok/s에 3.86점으로 점수/속도 비율이 최고

8B 모델(Qwen3-8B, Llama-8B)은 속도가 1.5배 빠르지만, 품질이 1점 이상 낮습니다. 동시 접속 수용은 좋지만 응답 품질을 희생

🇰🇷

KORMo-10B는 BF16이라 VRAM(20GB)과 속도(112tok/s)에서 불리하지만, 한국어 품질은 14B급. AWQ 양자화가 나오면 게임 체인저

📉

Phi-4와 Llama-8B는 속도가 빨라도 품질이 3점 미만이므로, 한국어 서비스에서는 선택의 이유가 없음

동시 접속 관점에서 보면, 8B vs 14B vs 32B 비교에서 확인한 것처럼 8B 모델이 20명 동시 접속에서 1,582tok/s로 2배 가까이 빠릅니다. 하지만 품질이 3.38점 이하인 모델을 빠르게 서빙하는 건 의미가 없습니다. Qwen3-14B의 850tok/s면 20명 동시 접속에서도 사용자당 42tok/s 이상을 유지하므로, 대부분의 B2B 시나리오에서 충분합니다.

결론 — 시나리오별 추천 모델

시나리오1순위2순위이유
범용 (기본)Qwen3-14BGemma-3-12B종합 점수 1위. 대부분의 시나리오에서 안정적
한국어 중심KORMo-10BQwen3-14B한국어 4.2점 최고. 자연스러운 존댓말과 표현력
의료 상담Gemma-3-12BQwen3-14B의료 3.9점 최고. 주의사항 언급이 세심
코드/자동화Qwen3-14BQwen3-8B자동화 4.2점 최고. 코드 구조화 능력 우수
고처리량 필요Qwen3-8BQwen3-14B3.38점에 208tok/s. 품질 최저선 이상에서 최고 속도
VRAM 제한Qwen3-8BLlama-3.1-8B5.2GB VRAM. 16GB GPU에서 여유있게 운영

한 줄 요약: 한국어 실무 서비스라면 Qwen3-14B-AWQ가 기본 선택입니다. 14B 크기에 AWQ 양자화(9.4GB VRAM)로 가성비가 가장 좋고, 7개 시나리오 중 5개에서 최고점을 기록합니다. 한국어 자연스러움이 최우선이면 KORMo-10B, 의료 도메인이면 Gemma-3-12B를 고려합니다.

단, 어떤 모델을 선택하든 법조문 날조는 피할 수 없습니다. 법률·의료·금융처럼 팩트 정확성이 생명인 도메인에서는 반드시 DB+RAG 하이브리드 검색이나 Text2SQL을 연동해야 합니다. 그리고 Temperature는 0.3 이하로 설정하세요.

참고: 이 벤치마크는 2026년 3월 기준입니다. 모델 업데이트나 새로운 한국어 특화 모델이 출시되면 순위가 변동될 수 있습니다. 각 모델의 상세 분석은 한국어 테스트, 실무 테스트 (상), 실무 테스트 (하)에서 확인할 수 있습니다.

T

Treeru

웹 개발, IT 인프라, AI 솔루션 분야의 실무 인사이트를 공유합니다. 기업의 디지털 전환을 돕는 IT 파트너, Treeru입니다.

공유

댓글

(4개)
4.85/ 5

로그인하면 댓글을 작성할 수 있습니다.

2026-03-04
555.0

드디어 6개 모델을 한 눈에 비교할 수 있는 종합표가 나왔네요. 시나리오별 점수 히트맵이 특히 유용합니다. 기존 개별 글을 오가며 비교하느라 불편했는데 이 글 하나로 해결됩니다.

2026-03-04
4.954.9

속도 vs 품질 트레이드오프 분석이 현실적입니다. 14B가 품질 1위인 건 알겠는데, 동시 접속 20명 기준 처리량까지 보여주니 운영 관점에서 판단하기 좋습니다.

2026-03-04
4.854.8

치명적 결함 분석이 솔직합니다. 전 모델이 법조문을 날조한다는 사실은 로컬 LLM의 한계를 명확히 보여줍니다. 법률 도메인에서는 반드시 RAG를 붙여야겠네요.

관련 글

© 2026 TreeRU. All rights reserved.

본 콘텐츠의 저작권은 TreeRU에 있으며, 출처를 밝히지 않은 무단 전재 및 재배포를 금합니다. 인용 시 출처(treeru.com)를 반드시 명시해 주세요.