treeru.com
AI

RTX PRO 6000 토큰 속도 실측 - 350W에서 모델별 몇 tok/s?

2026-02-22
Treeru

로컬 LLM을 서비스에 투입할 때 가장 먼저 확인해야 할 지표는 토큰 생성 속도(tok/s)입니다. NVIDIA RTX PRO 6000(96GB, 350W 전력 제한) 위에서 SGLang 엔진으로 6개 모델의 실제 토큰 속도를 측정했습니다.

218

최고 tok/s

60

최저 tok/s

350W

전력 제한

96GB

VRAM

1테스트 구성

모든 모델을 동일한 조건에서 테스트하여 순수 속도 차이만 비교했습니다.SGLang vs vLLM 비교에서 확인할 수 있듯 SGLang 엔진은 OpenAI-compatible API를 제공하므로, 기존 코드를 그대로 사용할 수 있는 장점이 있습니다. 다중 모델 서빙 설정은 SGLang 23모델 서빙 가이드를 참고하세요.

테스트 조건

GPU: RTX PRO 6000 (96GB VRAM)
전력 제한: 350W (nvidia-smi -pl 350)
서빙 엔진: SGLang
양자화: AWQ 4-bit quantization
Temperature: 0.3 (고정)
테스트: 60개 질문 순차 실행

AWQ 양자화란? (AWQ 양자화 속도 비교)

Activation-aware Weight Quantization의 약자로, 모델 가중치를 4비트로 압축하여 VRAM 사용량을 약 75% 줄이면서도 품질 손실을 최소화하는 기법입니다. 96GB VRAM이면 14B 모델도 여유 있게 서빙할 수 있습니다.

2속도 측정 결과

60개 질문에 대한 총 소요 시간, 총 생성 토큰 수, 평균 tok/s를 측정했습니다.

모델총 소요총 토큰평균 tok/s평균 응답길이
Llama-3.1-8B97초21,165218 tok/s353 토큰
Qwen3-8B199초41,400208 tok/s690 토큰
Phi-4263초36,989141 tok/s616 토큰
Qwen3-14B297초40,289135 tok/s671 토큰
Gemma-3-12B258초22,08886 tok/s368 토큰
KORMo-10B434초25,93860 tok/s432 토큰

Llama-3.1-8B — 최고 속도 218 tok/s

8B 파라미터의 가벼운 모델 + 짧은 응답(평균 353 토큰) 덕에 가장 빠릅니다. 하지만 총 토큰 수가 적은 것은 답변이 빈약하다는 의미이기도 합니다. 품질 점수 2.67로 최하위.

Qwen3-8B — 준최고 속도 208 tok/s

Llama와 비슷한 8B급이지만 응답이 훨씬 풍부합니다(평균 690 토큰). 총 토큰 41,400개로 전체 1위. 같은 시간에 더 많은 내용을 생성합니다. 품질 3.47로 상위권.

Qwen3-14B — 밸런스형 135 tok/s

14B 파라미터로 8B 대비 속도는 떨어지지만, 품질 점수 3.86으로 종합 1위. 응답도 풍부(평균 671 토큰)하여 실무에서 가장 만족스러운 결과를 냅니다.

KORMo-10B — 최저 속도 60 tok/s

한국어 특화 모델로서의 강점이 있지만, 속도가 다른 모델의 1/3 수준. 총 소요 434초로 가장 오래 걸립니다. 실시간 서비스보다는 배치 처리에 적합합니다.

3시나리오별 응답 길이

같은 모델이라도 시나리오에 따라 응답 길이가 크게 달라집니다. 법률 시나리오에서 가장 긴 응답이, 의료 시나리오에서 가장 짧은 응답이 나오는 패턴이 보입니다.

모델A 제조B SaaSC 의료D 쇼핑E 법률F 자동화G 한국어
Qwen3-8B892745628710548720587
Qwen3-14B865712605685540698592
Gemma-3-12B445398320375285362392
Phi-4780668548635478610593
Llama-3.1-8B432385298362265348381
KORMo-10B548465392445348418408

* 단위: 토큰 수 (질문 10개 평균)

가장 긴 응답: 법률 시나리오 (A)

법률 문서 요약은 근거 조항, 해석, 주의사항 등 구조적으로 긴 응답을 요구합니다. Qwen3-8B가 평균 892 토큰으로 가장 길게 답변.

가장 짧은 응답: 의료 시나리오 (E)

의료 상담 보조는 "의사와 상담하세요"라는 거절 반응이 많아 응답이 짧습니다. 적절한 한계 인지라 볼 수도 있습니다.

응답 길이 ≠ 품질

Qwen3-8B가 가장 많은 토큰을 생성하지만, 품질 점수는 Qwen3-14B가 높습니다. Gemma는 짧지만 핵심을 잘 짚는 스타일이고, Llama는 짧으면서도 부정확합니다.

4속도 vs 품질 트레이드오프

"빠른 모델이 좋은 모델인가?" 속도와 품질을 함께 놓고 보면 최적의 균형점이 보입니다.

모델속도 (tok/s)품질 (5점)평가
Llama-3.1-8B2182.67속도 최고, 품질 최저
Qwen3-8B2083.47빠르면서 품질도 준수
Phi-41413.10중간 속도, 한국어 약점
Qwen3-14B1353.86최적 밸런스 (추천)
Gemma-3-12B863.72느리지만 한국어 최강
KORMo-10B603.46가장 느림, 한국어 특화

속도 비교 (tok/s)

Llama-3.1-8B
218
Qwen3-8B
208
Phi-4
141
Qwen3-14B
135
Gemma-3-12B
86
KORMo-10B
60

품질 비교 (5점 만점)

Qwen3-14B
3.86
Gemma-3-12B
3.72
Qwen3-8B
3.47
KORMo-10B
3.46
Phi-4
3.10
Llama-3.1-8B
2.67

트레이드오프 결론

실시간 서비스 = Qwen3-14B

135 tok/s면 체감 지연 없이 스트리밍 가능. 품질도 최고.

대량 배치 처리 = Qwen3-8B

208 tok/s + 준수한 품질. 대량 문서를 빠르게 처리할 때 유리.

한국어 품질 최우선 = Gemma-3-12B

86 tok/s로 느리지만, 한국어 점수 4.28로 압도적. 품질이 곧 경쟁력인 서비스에.

이 글의 핵심 정리

  • Llama-3.1-8B가 218 tok/s로 최고 속도이나, 품질은 최하위
  • Qwen3-14B(135 tok/s)가 속도와 품질의 최적 균형점
  • AWQ 4-bit 양자화로 96GB VRAM에서 14B 모델도 여유 있게 서빙
  • 법률 시나리오에서 가장 긴 응답, 의료 시나리오에서 가장 짧은 응답 패턴
  • 단순 토큰 속도보다 '속도 x 품질' 효율을 기준으로 모델 선택

정리

RTX PRO 6000의 96GB VRAM과 350W 전력은 로컬 LLM 서빙에 충분한 성능을 제공합니다. 하지만 빠르다고 좋은 것이 아닙니다. 서비스 목적에 맞는 속도-품질 밸런스를 찾는 것이 핵심이며, 종합적으로 Qwen3-14B가 가장 균형 잡힌 선택입니다. 더 자세한 품질 분석은 시리즈의 다른 글에서 확인하세요.

본 테스트는 2026년 2월 21일에 수행되었습니다. 데이터(속도, 토큰 수, 응답 원문 등)는 실제 측정값이지만, 모델별 순위와 점수에는 평가자의 주관적 판단이 포함되어 있으며 테스트 환경이나 프롬프트에 따라 결과가 달라질 수 있습니다. 본 콘텐츠의 비상업적 공유는 자유이나, 상업적 이용 시 문의 페이지를 통해 연락 바랍니다.

AI 인프라 구축이 필요하신가요?

Treeru가 RTX PRO 6000 기반의 로컬 LLM 인프라를 설계해 드립니다.

무료 상담 신청하기
T

Treeru

웹 개발, IT 인프라, AI 솔루션 분야의 실무 인사이트를 공유합니다. 기업의 디지털 전환을 돕는 IT 파트너, Treeru입니다.

공유

댓글

(4개)
4.85/ 5

로그인하면 댓글을 작성할 수 있습니다.

2026-02-22
4.954.9

RTX PRO 6000에서 실측 토큰 속도를 공개해주시다니! 218 tok/s면 실시간 채팅 서비스도 충분하겠네요.

2026-02-22
4.854.8

350W 전력 제한에서 이 정도 속도면 데이터센터 전력 비용 계산할 때 참고하기 좋겠습니다.

2026-02-22
555.0

속도 vs 품질 트레이드오프 분석이 정말 실용적이에요. Qwen3-14B로 결정하게 된 계기가 됐습니다.

관련 글

© 2026 TreeRU. All rights reserved.

본 콘텐츠의 저작권은 TreeRU에 있으며, 출처를 밝히지 않은 무단 전재 및 재배포를 금합니다. 인용 시 출처(treeru.com)를 반드시 명시해 주세요.