카테고리

RTX PRO 6000으로 로컬 LLM 6종 벤치마크 - 종합 비교

2026-02-22

Treeru

NVIDIA RTX PRO 6000(96GB VRAM)에 SGLang 엔진을 올리고, 350W 전력 제한 아래에서 로컬 LLM 6종을 직접 돌렸습니다. 7개 시나리오 x 60개 질문 = 총 360개 응답을 수집해 속도, 품질, 환각까지 종합 비교한 결과를 공유합니다.

6개

테스트 모델

360개

총 질문 수

7개

테스트 시나리오

96GB

VRAM

1테스트 환경

동일한 하드웨어, 동일한 엔진, 동일한 양자화 조건에서 테스트하여 모델 간 순수 성능 차이만 비교했습니다.

하드웨어 및 소프트웨어

GPU: NVIDIA RTX PRO 6000 (96GB VRAM)

전력 제한: 350W

엔진: SGLang (OpenAI-compatible API)

양자화: AWQ 4-bit

Temperature: 0.3

OS: Ubuntu 24.04 LTS

테스트 모델 6종

Qwen3-8B-AWQ

Qwen3-14B-AWQ

Gemma-3-12B-it-QAT-int4

Phi-4-AWQ

Llama-3.1-8B-it-AWQ

KORMo-sLLM-10B-AWQ

7개 평가 시나리오

코드	시나리오	질문 수
A	제조업 (부품 유통)	10개
B	SaaS (고객지원)	10개
C	의료 (건강 상담)	10개
D	쇼핑 (고객 응대)	10개
E	법률 (법률 자문)	10개
F	자동화 (업무 자동화)	10개
G	한국어 (한국어 능력)	10개

채점 기준 (5점 만점)

한국어 자연스러움(25%) · 지시 따르기(25%) · 실무 정확성(25%) · 응답 구조화(15%) · 거절/한계 인지(10%)

2속도 비교

60개 질문을 순차 실행한 총 소요 시간과 평균 tok/s입니다. Llama가 가장 빠르지만 품질은 가장 낮고, KORMo가 가장 느리지만 한국어 특화 성능이 돋보입니다.

모델	총 소요	총 토큰	평균 tok/s	평균 응답길이
Qwen3-8B	199초	41,400	208	690
Qwen3-14B	297초	40,289	135	671
Gemma-3-12B	258초	22,088	86	368
Phi-4	263초	36,989	141	616
Llama-3.1-8B	97초	21,165	218	353
KORMo-10B	434초	25,938	60	432

속도 포인트

Llama-3.1-8B가 218 tok/s로 가장 빠르지만, 품질 점수(2.67)가 최하위입니다. Qwen3-14B(135 tok/s)가 속도와 품질의 최적 균형점입니다. 시나리오별 응답 길이, 속도 vs 품질 트레이드오프 등 자세한 분석은 토큰 속도 실측 편에서 확인하세요.

3품질 점수 종합

각 시나리오별 5점 만점으로 채점한 결과입니다. 한국어 자연스러움(25%) · 지시 따르기(25%) · 실무 정확성(25%) · 응답 구조화(15%) · 거절/한계 인지(10%)를 종합 반영했습니다. A~C(제조/SaaS/의료) 시나리오의 세부 데이터는 실무 테스트 (상), D~F(쇼핑/법률/자동화) 시나리오는 실무 테스트 (하)에서 확인할 수 있습니다.

모델	A 제조	B SaaS	C 의료	D 쇼핑	E 법률	F 자동화	G 한국어	평균
Qwen3-14B	4.05	4.00	3.75	3.90	3.85	3.29	4.19	3.86
Gemma-3-12B	3.72	3.64	3.60	3.55	3.94	3.33	4.28	3.72
Qwen3-8B	3.78	3.57	3.40	3.54	3.44	3.21	3.33	3.47
KORMo-10B	3.35	3.17	3.72	3.28	3.55	3.33	3.83	3.46
Phi-4	3.38	3.42	2.78	3.22	3.16	2.90	2.33	3.10
Llama-3.1-8B	2.62	2.72	2.44	2.78	2.60	2.87	2.67	2.67

품질 1위

Qwen3-14B

평균 3.86점

한국어 1위

Gemma-3-12B

한국어 4.28점

속도 1위

Llama-3.1-8B

218 tok/s

4모델별 순위와 강약점

각 모델의 종합 평가를 카드 형태로 정리했습니다. 강점과 약점을 한눈에 확인하세요. 특히 한국어 능력의 세부 분석(존댓말, 언어 오염, 자연스러운 표현 등)은 한국어 능력 비교 편을 참고하세요.

Qwen3-14B

종합 3.86점 / 5.0

강점

전 시나리오 고른 성능
한국어 자연스러움 우수
실무 정확성 높음

약점

속도 중간 (135 tok/s)
응답이 다소 길 수 있음

균형 잡힌 올라운더. 실무 도입 1순위.

Gemma-3-12B

종합 3.72점 / 5.0

강점

한국어 최고 점수 (4.28)
의료 시나리오 강점
환각 거부 능력 우수

약점

속도 느림 (86 tok/s)
응답 길이 짧음

한국어 특화. 품질 중시 서비스에 적합.

Qwen3-8B

종합 3.47점 / 5.0

강점

빠른 속도 (208 tok/s)
법률 시나리오 강점
응답 구조화 양호

약점

중국어 오염 간헐적 발생
한국어 점수 중간

가성비 최고. 속도+품질 밸런스.

KORMo-10B

종합 3.46점 / 5.0

강점

자연스러운 비즈니스 한국어
거절/한계 인지 우수
환각 억제력 양호

약점

가장 느린 속도 (60 tok/s)
일부 시나리오 편차 큼

한국어 특화 모델. 속도를 감수할 수 있다면.

Phi-4

종합 3.1점 / 5.0

강점

논리적 추론 양호
영어 혼합 업무에 적합
구조화된 응답

약점

한국어 최하위 (2.33)
영어 전환 빈번
환각 다수

영어 중심 업무에는 괜찮으나 한국어 서비스에 부적합.

Llama-3.1-8B

종합 2.67점 / 5.0

강점

가장 빠른 속도 (218 tok/s)
간결한 응답

약점

전 시나리오 최하위
다국어 오염 심각
환각 가장 많음

한국어 서비스에 비추. 영어 전용이라면 재고.

5환각 트랩 결과 요약

존재하지 않는 법률, 허구의 논문, 가짜 통계 등 10개의 환각 유도 질문으로 모델이 얼마나 정직하게 "모른다"고 답하는지 테스트했습니다.

모델	환각 점수	거부 성공	부분 환각	완전 환각
Gemma-3-12B	3.33	6/10	3/10	1/10
KORMo-10B	3.33	6/10	2/10	2/10
Qwen3-14B	3.29	5/10	3/10	2/10
Qwen3-8B	3.21	5/10	3/10	2/10
Phi-4	2.90	3/10	4/10	3/10
Llama-3.1-8B	2.87	3/10	3/10	4/10

환각 테스트 핵심

어떤 모델도 10개 트랩을 전부 거부하지 못했습니다. 로컬 LLM 출력은 반드시 사람이 검증해야 합니다. Gemma와 KORMo가 상대적으로 정직한 모델입니다. 존재하지 않는 제품 견적, 의료 진단 유도, 가짜 판결 등 구체적 환각 사례는 환각 테스트 편에서 상세히 분석했습니다.

6최종 추천

용도별 추천 모델

범용 업무 (제조, SaaS, 의료, 쇼핑, 법률, 자동화)

Qwen3-14B — 전 시나리오에서 고르게 높은 점수. 실무 도입 1순위. 실제 응답 비교 (상) · 실제 응답 비교 (하)

한국어 품질 최우선

Gemma-3-12B — 한국어 점수 1위(4.28), 의료 시나리오에서도 강점. 한국어 상세 비교

속도 + 품질 밸런스

Qwen3-8B — 208 tok/s의 빠른 속도와 3.47점의 준수한 품질. 속도 상세 분석

한국어 특화 서비스

KORMo-10B — 자연스러운 비즈니스 한국어. 단, 속도(60 tok/s)가 병목.

비추천

Phi-4와 Llama-3.1-8B는 한국어 서비스에 적합하지 않습니다. Phi-4는 영어 전환이 잦고, Llama는 다국어 오염과 환각이 심각합니다. 구체적인 환각 사례와 언어 오염 문제는 환각 테스트와 한국어 능력 비교에서 확인하세요.

7시리즈 안내

이 글은 RTX PRO 6000 로컬 LLM 벤치마크 시리즈의 종합 비교(허브) 편입니다. 각 세부 주제를 깊이 파고드는 5편의 글이 준비되어 있습니다.

2편

토큰 속도 실측

350W에서 모델별 tok/s, 응답 길이, 속도 vs 품질 트레이드오프

3편

한국어 능력 비교

존댓말, 언어 오염, 자연스러운 한국어 표현 상세 분석

4편

실무 테스트 (상)

제조업 부품 유통, SaaS 고객지원, 의료 상담 시나리오 심층 비교

5편

실무 테스트 (하)

쇼핑몰 고객 응대, 법률 자문, 업무 자동화 시나리오 심층 비교

6편

환각 테스트

가짜 법률·논문·통계로 유도한 환각 반응 상세 분석

이 글의 핵심 정리

✓Qwen3-14B가 종합 1위 (3.86점) — 실무 도입 최우선 추천
✓Gemma-3-12B가 한국어 1위 (4.28점) — 품질 중시 서비스에 적합
✓속도만 보면 Llama (218 tok/s)이지만, 품질은 최하위
✓어떤 모델도 환각 트랩을 100% 거부하지 못함 — 사람 검증 필수
✓AWQ 4-bit + SGLang 조합으로 96GB VRAM에서 안정적 서빙 가능

본 테스트는 2026년 2월 21일에 수행되었습니다. 데이터(속도, 토큰 수, 응답 원문 등)는 실제 측정값이지만, 모델별 순위와 점수에는 평가자의 주관적 판단이 포함되어 있으며 테스트 환경이나 프롬프트에 따라 결과가 달라질 수 있습니다. 본 콘텐츠의 비상업적 공유는 자유이나, 상업적 이용 시 문의 페이지를 통해 연락 바랍니다.

AI 서비스 구축이 필요하신가요?

Treeru가 로컬 LLM 기반의 맞춤형 AI 솔루션을 구축해 드립니다.

무료 상담 신청하기

Treeru

웹 개발, IT 인프라, AI 솔루션 분야의 실무 인사이트를 공유합니다. 기업의 디지털 전환을 돕는 IT 파트너, Treeru입니다.

LLM 벤치마크 RTX PRO 6000 로컬AI Qwen3 Gemma

(5)

4.86/ 5

로그인 하면 댓글을 작성할 수 있습니다.

김엔지니어

2026-02-22

5.0

96GB VRAM으로 로컬 LLM을 돌린다니 정말 부럽습니다. 종합 비교표가 한눈에 들어와서 모델 선택에 큰 도움이 됐어요!

AI연구원박

2026-02-22

4.9

Qwen3-14B가 균형 잡힌 성능을 보여주는 건 저도 체감하고 있었는데, 이렇게 수치로 확인하니 확신이 드네요.

데이터사이언티스트

2026-02-22

4.8

7개 시나리오 360개 질문으로 테스트하셨다니 정말 꼼꼼하시네요. 환각 트랩 결과가 특히 인상적이었습니다.

RTX PRO 6000으로 로컬 LLM 6종 벤치마크 - 종합 비교

1테스트 환경

하드웨어 및 소프트웨어

테스트 모델 6종

7개 평가 시나리오

2속도 비교

3품질 점수 종합

4모델별 순위와 강약점

Qwen3-14B

Gemma-3-12B

Qwen3-8B

KORMo-10B

Phi-4

Llama-3.1-8B

5환각 트랩 결과 요약

6최종 추천

용도별 추천 모델

7시리즈 안내

이 글의 핵심 정리

AI 서비스 구축이 필요하신가요?

댓글

관련 글

RTX PRO 6000 토큰 속도 실측

로컬 LLM 한국어 능력 비교

로컬 LLM 실무 테스트 (상)

로컬 LLM 실무 테스트 (하)

LLM 환각 테스트