treeru.com
AI

RTX PRO 6000으로 로컬 LLM 6종 벤치마크 - 종합 비교

2026-02-22
Treeru

NVIDIA RTX PRO 6000(96GB VRAM)에 SGLang 엔진을 올리고, 350W 전력 제한 아래에서 로컬 LLM 6종을 직접 돌렸습니다. 7개 시나리오 x 60개 질문 = 총 360개 응답을 수집해 속도, 품질, 환각까지 종합 비교한 결과를 공유합니다.

6개

테스트 모델

360개

총 질문 수

7개

테스트 시나리오

96GB

VRAM

1테스트 환경

동일한 하드웨어, 동일한 엔진, 동일한 양자화 조건에서 테스트하여 모델 간 순수 성능 차이만 비교했습니다.

하드웨어 및 소프트웨어

GPU: NVIDIA RTX PRO 6000 (96GB VRAM)
전력 제한: 350W
엔진: SGLang (OpenAI-compatible API)
양자화: AWQ 4-bit
Temperature: 0.3
OS: Ubuntu 24.04 LTS

테스트 모델 6종

Qwen3-8B-AWQ
Qwen3-14B-AWQ
Gemma-3-12B-it-QAT-int4
Phi-4-AWQ
Llama-3.1-8B-it-AWQ
KORMo-sLLM-10B-AWQ

7개 평가 시나리오

코드시나리오질문 수
A제조업 (부품 유통)10
BSaaS (고객지원)10
C의료 (건강 상담)10
D쇼핑 (고객 응대)10
E법률 (법률 자문)10
F자동화 (업무 자동화)10
G한국어 (한국어 능력)10

채점 기준 (5점 만점)

한국어 자연스러움(25%) · 지시 따르기(25%) · 실무 정확성(25%) · 응답 구조화(15%) · 거절/한계 인지(10%)

2속도 비교

60개 질문을 순차 실행한 총 소요 시간평균 tok/s입니다. Llama가 가장 빠르지만 품질은 가장 낮고, KORMo가 가장 느리지만 한국어 특화 성능이 돋보입니다.

모델총 소요총 토큰평균 tok/s평균 응답길이
Qwen3-8B199초41,400208690
Qwen3-14B297초40,289135671
Gemma-3-12B258초22,08886368
Phi-4263초36,989141616
Llama-3.1-8B97초21,165218353
KORMo-10B434초25,93860432

속도 포인트

Llama-3.1-8B가 218 tok/s로 가장 빠르지만, 품질 점수(2.67)가 최하위입니다. Qwen3-14B(135 tok/s)가 속도와 품질의 최적 균형점입니다. 시나리오별 응답 길이, 속도 vs 품질 트레이드오프 등 자세한 분석은 토큰 속도 실측 편에서 확인하세요.

3품질 점수 종합

각 시나리오별 5점 만점으로 채점한 결과입니다. 한국어 자연스러움(25%) · 지시 따르기(25%) · 실무 정확성(25%) · 응답 구조화(15%) · 거절/한계 인지(10%)를 종합 반영했습니다. A~C(제조/SaaS/의료) 시나리오의 세부 데이터는 실무 테스트 (상), D~F(쇼핑/법률/자동화) 시나리오는 실무 테스트 (하)에서 확인할 수 있습니다.

모델A 제조B SaaSC 의료D 쇼핑E 법률F 자동화G 한국어평균
Qwen3-14B4.054.003.753.903.853.294.193.86
Gemma-3-12B3.723.643.603.553.943.334.283.72
Qwen3-8B3.783.573.403.543.443.213.333.47
KORMo-10B3.353.173.723.283.553.333.833.46
Phi-43.383.422.783.223.162.902.333.10
Llama-3.1-8B2.622.722.442.782.602.872.672.67

품질 1위

Qwen3-14B

평균 3.86점

한국어 1위

Gemma-3-12B

한국어 4.28점

속도 1위

Llama-3.1-8B

218 tok/s

4모델별 순위와 강약점

각 모델의 종합 평가를 카드 형태로 정리했습니다. 강점과 약점을 한눈에 확인하세요. 특히 한국어 능력의 세부 분석(존댓말, 언어 오염, 자연스러운 표현 등)은 한국어 능력 비교 편을 참고하세요.

#1

Qwen3-14B

종합 3.86점 / 5.0

강점

  • 전 시나리오 고른 성능
  • 한국어 자연스러움 우수
  • 실무 정확성 높음

약점

  • 속도 중간 (135 tok/s)
  • 응답이 다소 길 수 있음

균형 잡힌 올라운더. 실무 도입 1순위.

#2

Gemma-3-12B

종합 3.72점 / 5.0

강점

  • 한국어 최고 점수 (4.28)
  • 의료 시나리오 강점
  • 환각 거부 능력 우수

약점

  • 속도 느림 (86 tok/s)
  • 응답 길이 짧음

한국어 특화. 품질 중시 서비스에 적합.

#3

Qwen3-8B

종합 3.47점 / 5.0

강점

  • 빠른 속도 (208 tok/s)
  • 법률 시나리오 강점
  • 응답 구조화 양호

약점

  • 중국어 오염 간헐적 발생
  • 한국어 점수 중간

가성비 최고. 속도+품질 밸런스.

#4

KORMo-10B

종합 3.46점 / 5.0

강점

  • 자연스러운 비즈니스 한국어
  • 거절/한계 인지 우수
  • 환각 억제력 양호

약점

  • 가장 느린 속도 (60 tok/s)
  • 일부 시나리오 편차 큼

한국어 특화 모델. 속도를 감수할 수 있다면.

#5

Phi-4

종합 3.1점 / 5.0

강점

  • 논리적 추론 양호
  • 영어 혼합 업무에 적합
  • 구조화된 응답

약점

  • 한국어 최하위 (2.33)
  • 영어 전환 빈번
  • 환각 다수

영어 중심 업무에는 괜찮으나 한국어 서비스에 부적합.

#6

Llama-3.1-8B

종합 2.67점 / 5.0

강점

  • 가장 빠른 속도 (218 tok/s)
  • 간결한 응답

약점

  • 전 시나리오 최하위
  • 다국어 오염 심각
  • 환각 가장 많음

한국어 서비스에 비추. 영어 전용이라면 재고.

5환각 트랩 결과 요약

존재하지 않는 법률, 허구의 논문, 가짜 통계 등 10개의 환각 유도 질문으로 모델이 얼마나 정직하게 "모른다"고 답하는지 테스트했습니다.

모델환각 점수거부 성공부분 환각완전 환각
Gemma-3-12B3.336/103/101/10
KORMo-10B3.336/102/102/10
Qwen3-14B3.295/103/102/10
Qwen3-8B3.215/103/102/10
Phi-42.903/104/103/10
Llama-3.1-8B2.873/103/104/10

환각 테스트 핵심

어떤 모델도 10개 트랩을 전부 거부하지 못했습니다. 로컬 LLM 출력은 반드시 사람이 검증해야 합니다. Gemma와 KORMo가 상대적으로 정직한 모델입니다. 존재하지 않는 제품 견적, 의료 진단 유도, 가짜 판결 등 구체적 환각 사례는 환각 테스트 편에서 상세히 분석했습니다.

6최종 추천

용도별 추천 모델

1

범용 업무 (제조, SaaS, 의료, 쇼핑, 법률, 자동화)

Qwen3-14B — 전 시나리오에서 고르게 높은 점수. 실무 도입 1순위. 실제 응답 비교 (상) · 실제 응답 비교 (하)

2

한국어 품질 최우선

Gemma-3-12B — 한국어 점수 1위(4.28), 의료 시나리오에서도 강점. 한국어 상세 비교

3

속도 + 품질 밸런스

Qwen3-8B — 208 tok/s의 빠른 속도와 3.47점의 준수한 품질. 속도 상세 분석

4

한국어 특화 서비스

KORMo-10B — 자연스러운 비즈니스 한국어. 단, 속도(60 tok/s)가 병목.

비추천

Phi-4Llama-3.1-8B는 한국어 서비스에 적합하지 않습니다. Phi-4는 영어 전환이 잦고, Llama는 다국어 오염과 환각이 심각합니다. 구체적인 환각 사례와 언어 오염 문제는 환각 테스트 한국어 능력 비교에서 확인하세요.

7시리즈 안내

이 글은 RTX PRO 6000 로컬 LLM 벤치마크 시리즈의 종합 비교(허브) 편입니다. 각 세부 주제를 깊이 파고드는 5편의 글이 준비되어 있습니다.

이 글의 핵심 정리

  • Qwen3-14B가 종합 1위 (3.86점) — 실무 도입 최우선 추천
  • Gemma-3-12B가 한국어 1위 (4.28점) — 품질 중시 서비스에 적합
  • 속도만 보면 Llama (218 tok/s)이지만, 품질은 최하위
  • 어떤 모델도 환각 트랩을 100% 거부하지 못함 — 사람 검증 필수
  • AWQ 4-bit + SGLang 조합으로 96GB VRAM에서 안정적 서빙 가능

본 테스트는 2026년 2월 21일에 수행되었습니다. 데이터(속도, 토큰 수, 응답 원문 등)는 실제 측정값이지만, 모델별 순위와 점수에는 평가자의 주관적 판단이 포함되어 있으며 테스트 환경이나 프롬프트에 따라 결과가 달라질 수 있습니다. 본 콘텐츠의 비상업적 공유는 자유이나, 상업적 이용 시 문의 페이지를 통해 연락 바랍니다.

AI 서비스 구축이 필요하신가요?

Treeru가 로컬 LLM 기반의 맞춤형 AI 솔루션을 구축해 드립니다.

무료 상담 신청하기
T

Treeru

웹 개발, IT 인프라, AI 솔루션 분야의 실무 인사이트를 공유합니다. 기업의 디지털 전환을 돕는 IT 파트너, Treeru입니다.

공유

댓글

(5개)
4.86/ 5

로그인하면 댓글을 작성할 수 있습니다.

2026-02-22
555.0

96GB VRAM으로 로컬 LLM을 돌린다니 정말 부럽습니다. 종합 비교표가 한눈에 들어와서 모델 선택에 큰 도움이 됐어요!

2026-02-22
4.954.9

Qwen3-14B가 균형 잡힌 성능을 보여주는 건 저도 체감하고 있었는데, 이렇게 수치로 확인하니 확신이 드네요.

2026-02-22
4.854.8

7개 시나리오 360개 질문으로 테스트하셨다니 정말 꼼꼼하시네요. 환각 트랩 결과가 특히 인상적이었습니다.

관련 글

© 2026 TreeRU. All rights reserved.

본 콘텐츠의 저작권은 TreeRU에 있으며, 출처를 밝히지 않은 무단 전재 및 재배포를 금합니다. 인용 시 출처(treeru.com)를 반드시 명시해 주세요.