RTX PRO 6000으로 로컬 LLM 6종 벤치마크 - 종합 비교
NVIDIA RTX PRO 6000(96GB VRAM)에 SGLang 엔진을 올리고, 350W 전력 제한 아래에서 로컬 LLM 6종을 직접 돌렸습니다. 7개 시나리오 x 60개 질문 = 총 360개 응답을 수집해 속도, 품질, 환각까지 종합 비교한 결과를 공유합니다.
6개
테스트 모델
360개
총 질문 수
7개
테스트 시나리오
96GB
VRAM
1테스트 환경
동일한 하드웨어, 동일한 엔진, 동일한 양자화 조건에서 테스트하여 모델 간 순수 성능 차이만 비교했습니다.
하드웨어 및 소프트웨어
테스트 모델 6종
7개 평가 시나리오
| 코드 | 시나리오 | 질문 수 |
|---|---|---|
| A | 제조업 (부품 유통) | 10개 |
| B | SaaS (고객지원) | 10개 |
| C | 의료 (건강 상담) | 10개 |
| D | 쇼핑 (고객 응대) | 10개 |
| E | 법률 (법률 자문) | 10개 |
| F | 자동화 (업무 자동화) | 10개 |
| G | 한국어 (한국어 능력) | 10개 |
채점 기준 (5점 만점)
한국어 자연스러움(25%) · 지시 따르기(25%) · 실무 정확성(25%) · 응답 구조화(15%) · 거절/한계 인지(10%)
2속도 비교
60개 질문을 순차 실행한 총 소요 시간과 평균 tok/s입니다. Llama가 가장 빠르지만 품질은 가장 낮고, KORMo가 가장 느리지만 한국어 특화 성능이 돋보입니다.
| 모델 | 총 소요 | 총 토큰 | 평균 tok/s | 평균 응답길이 |
|---|---|---|---|---|
| Qwen3-8B | 199초 | 41,400 | 208 | 690 |
| Qwen3-14B | 297초 | 40,289 | 135 | 671 |
| Gemma-3-12B | 258초 | 22,088 | 86 | 368 |
| Phi-4 | 263초 | 36,989 | 141 | 616 |
| Llama-3.1-8B | 97초 | 21,165 | 218 | 353 |
| KORMo-10B | 434초 | 25,938 | 60 | 432 |
속도 포인트
Llama-3.1-8B가 218 tok/s로 가장 빠르지만, 품질 점수(2.67)가 최하위입니다. Qwen3-14B(135 tok/s)가 속도와 품질의 최적 균형점입니다. 시나리오별 응답 길이, 속도 vs 품질 트레이드오프 등 자세한 분석은 토큰 속도 실측 편에서 확인하세요.
3품질 점수 종합
각 시나리오별 5점 만점으로 채점한 결과입니다. 한국어 자연스러움(25%) · 지시 따르기(25%) · 실무 정확성(25%) · 응답 구조화(15%) · 거절/한계 인지(10%)를 종합 반영했습니다. A~C(제조/SaaS/의료) 시나리오의 세부 데이터는 실무 테스트 (상), D~F(쇼핑/법률/자동화) 시나리오는 실무 테스트 (하)에서 확인할 수 있습니다.
| 모델 | A 제조 | B SaaS | C 의료 | D 쇼핑 | E 법률 | F 자동화 | G 한국어 | 평균 |
|---|---|---|---|---|---|---|---|---|
| Qwen3-14B | 4.05 | 4.00 | 3.75 | 3.90 | 3.85 | 3.29 | 4.19 | 3.86 |
| Gemma-3-12B | 3.72 | 3.64 | 3.60 | 3.55 | 3.94 | 3.33 | 4.28 | 3.72 |
| Qwen3-8B | 3.78 | 3.57 | 3.40 | 3.54 | 3.44 | 3.21 | 3.33 | 3.47 |
| KORMo-10B | 3.35 | 3.17 | 3.72 | 3.28 | 3.55 | 3.33 | 3.83 | 3.46 |
| Phi-4 | 3.38 | 3.42 | 2.78 | 3.22 | 3.16 | 2.90 | 2.33 | 3.10 |
| Llama-3.1-8B | 2.62 | 2.72 | 2.44 | 2.78 | 2.60 | 2.87 | 2.67 | 2.67 |
품질 1위
Qwen3-14B
평균 3.86점
한국어 1위
Gemma-3-12B
한국어 4.28점
속도 1위
Llama-3.1-8B
218 tok/s
4모델별 순위와 강약점
각 모델의 종합 평가를 카드 형태로 정리했습니다. 강점과 약점을 한눈에 확인하세요. 특히 한국어 능력의 세부 분석(존댓말, 언어 오염, 자연스러운 표현 등)은 한국어 능력 비교 편을 참고하세요.
Qwen3-14B
종합 3.86점 / 5.0
강점
- 전 시나리오 고른 성능
- 한국어 자연스러움 우수
- 실무 정확성 높음
약점
- 속도 중간 (135 tok/s)
- 응답이 다소 길 수 있음
균형 잡힌 올라운더. 실무 도입 1순위.
Gemma-3-12B
종합 3.72점 / 5.0
강점
- 한국어 최고 점수 (4.28)
- 의료 시나리오 강점
- 환각 거부 능력 우수
약점
- 속도 느림 (86 tok/s)
- 응답 길이 짧음
한국어 특화. 품질 중시 서비스에 적합.
Qwen3-8B
종합 3.47점 / 5.0
강점
- 빠른 속도 (208 tok/s)
- 법률 시나리오 강점
- 응답 구조화 양호
약점
- 중국어 오염 간헐적 발생
- 한국어 점수 중간
가성비 최고. 속도+품질 밸런스.
KORMo-10B
종합 3.46점 / 5.0
강점
- 자연스러운 비즈니스 한국어
- 거절/한계 인지 우수
- 환각 억제력 양호
약점
- 가장 느린 속도 (60 tok/s)
- 일부 시나리오 편차 큼
한국어 특화 모델. 속도를 감수할 수 있다면.
Phi-4
종합 3.1점 / 5.0
강점
- 논리적 추론 양호
- 영어 혼합 업무에 적합
- 구조화된 응답
약점
- 한국어 최하위 (2.33)
- 영어 전환 빈번
- 환각 다수
영어 중심 업무에는 괜찮으나 한국어 서비스에 부적합.
Llama-3.1-8B
종합 2.67점 / 5.0
강점
- 가장 빠른 속도 (218 tok/s)
- 간결한 응답
약점
- 전 시나리오 최하위
- 다국어 오염 심각
- 환각 가장 많음
한국어 서비스에 비추. 영어 전용이라면 재고.
5환각 트랩 결과 요약
존재하지 않는 법률, 허구의 논문, 가짜 통계 등 10개의 환각 유도 질문으로 모델이 얼마나 정직하게 "모른다"고 답하는지 테스트했습니다.
| 모델 | 환각 점수 | 거부 성공 | 부분 환각 | 완전 환각 |
|---|---|---|---|---|
| Gemma-3-12B | 3.33 | 6/10 | 3/10 | 1/10 |
| KORMo-10B | 3.33 | 6/10 | 2/10 | 2/10 |
| Qwen3-14B | 3.29 | 5/10 | 3/10 | 2/10 |
| Qwen3-8B | 3.21 | 5/10 | 3/10 | 2/10 |
| Phi-4 | 2.90 | 3/10 | 4/10 | 3/10 |
| Llama-3.1-8B | 2.87 | 3/10 | 3/10 | 4/10 |
환각 테스트 핵심
어떤 모델도 10개 트랩을 전부 거부하지 못했습니다. 로컬 LLM 출력은 반드시 사람이 검증해야 합니다. Gemma와 KORMo가 상대적으로 정직한 모델입니다. 존재하지 않는 제품 견적, 의료 진단 유도, 가짜 판결 등 구체적 환각 사례는 환각 테스트 편에서 상세히 분석했습니다.
6최종 추천
용도별 추천 모델
범용 업무 (제조, SaaS, 의료, 쇼핑, 법률, 자동화)
Qwen3-14B — 전 시나리오에서 고르게 높은 점수. 실무 도입 1순위. 실제 응답 비교 (상) · 실제 응답 비교 (하)
한국어 품질 최우선
Gemma-3-12B — 한국어 점수 1위(4.28), 의료 시나리오에서도 강점. 한국어 상세 비교
속도 + 품질 밸런스
Qwen3-8B — 208 tok/s의 빠른 속도와 3.47점의 준수한 품질. 속도 상세 분석
한국어 특화 서비스
KORMo-10B — 자연스러운 비즈니스 한국어. 단, 속도(60 tok/s)가 병목.
7시리즈 안내
이 글은 RTX PRO 6000 로컬 LLM 벤치마크 시리즈의 종합 비교(허브) 편입니다. 각 세부 주제를 깊이 파고드는 5편의 글이 준비되어 있습니다.
이 글의 핵심 정리
- ✓Qwen3-14B가 종합 1위 (3.86점) — 실무 도입 최우선 추천
- ✓Gemma-3-12B가 한국어 1위 (4.28점) — 품질 중시 서비스에 적합
- ✓속도만 보면 Llama (218 tok/s)이지만, 품질은 최하위
- ✓어떤 모델도 환각 트랩을 100% 거부하지 못함 — 사람 검증 필수
- ✓AWQ 4-bit + SGLang 조합으로 96GB VRAM에서 안정적 서빙 가능
본 테스트는 2026년 2월 21일에 수행되었습니다. 데이터(속도, 토큰 수, 응답 원문 등)는 실제 측정값이지만, 모델별 순위와 점수에는 평가자의 주관적 판단이 포함되어 있으며 테스트 환경이나 프롬프트에 따라 결과가 달라질 수 있습니다. 본 콘텐츠의 비상업적 공유는 자유이나, 상업적 이용 시 문의 페이지를 통해 연락 바랍니다.
댓글
(5개)로그인하면 댓글을 작성할 수 있습니다.
96GB VRAM으로 로컬 LLM을 돌린다니 정말 부럽습니다. 종합 비교표가 한눈에 들어와서 모델 선택에 큰 도움이 됐어요!
Qwen3-14B가 균형 잡힌 성능을 보여주는 건 저도 체감하고 있었는데, 이렇게 수치로 확인하니 확신이 드네요.
7개 시나리오 360개 질문으로 테스트하셨다니 정말 꼼꼼하시네요. 환각 트랩 결과가 특히 인상적이었습니다.
관련 글
© 2026 TreeRU. All rights reserved.
본 콘텐츠의 저작권은 TreeRU에 있으며, 출처를 밝히지 않은 무단 전재 및 재배포를 금합니다. 인용 시 출처(treeru.com)를 반드시 명시해 주세요.