RTX PRO 6000 토큰 속도 실측 - 350W에서 모델별 몇 tok/s?
로컬 LLM을 서비스에 투입할 때 가장 먼저 확인해야 할 지표는 토큰 생성 속도(tok/s)입니다. NVIDIA RTX PRO 6000(96GB, 350W 전력 제한) 위에서 SGLang 엔진으로 6개 모델의 실제 토큰 속도를 측정했습니다.
218
최고 tok/s
60
최저 tok/s
350W
전력 제한
96GB
VRAM
1테스트 구성
모든 모델을 동일한 조건에서 테스트하여 순수 속도 차이만 비교했습니다.SGLang vs vLLM 비교에서 확인할 수 있듯 SGLang 엔진은 OpenAI-compatible API를 제공하므로, 기존 코드를 그대로 사용할 수 있는 장점이 있습니다. 다중 모델 서빙 설정은 SGLang 23모델 서빙 가이드를 참고하세요.
테스트 조건
AWQ 양자화란? (AWQ 양자화 속도 비교)
Activation-aware Weight Quantization의 약자로, 모델 가중치를 4비트로 압축하여 VRAM 사용량을 약 75% 줄이면서도 품질 손실을 최소화하는 기법입니다. 96GB VRAM이면 14B 모델도 여유 있게 서빙할 수 있습니다.
2속도 측정 결과
60개 질문에 대한 총 소요 시간, 총 생성 토큰 수, 평균 tok/s를 측정했습니다.
| 모델 | 총 소요 | 총 토큰 | 평균 tok/s | 평균 응답길이 |
|---|---|---|---|---|
| Llama-3.1-8B | 97초 | 21,165 | 218 tok/s | 353 토큰 |
| Qwen3-8B | 199초 | 41,400 | 208 tok/s | 690 토큰 |
| Phi-4 | 263초 | 36,989 | 141 tok/s | 616 토큰 |
| Qwen3-14B | 297초 | 40,289 | 135 tok/s | 671 토큰 |
| Gemma-3-12B | 258초 | 22,088 | 86 tok/s | 368 토큰 |
| KORMo-10B | 434초 | 25,938 | 60 tok/s | 432 토큰 |
Llama-3.1-8B — 최고 속도 218 tok/s
8B 파라미터의 가벼운 모델 + 짧은 응답(평균 353 토큰) 덕에 가장 빠릅니다. 하지만 총 토큰 수가 적은 것은 답변이 빈약하다는 의미이기도 합니다. 품질 점수 2.67로 최하위.
Qwen3-8B — 준최고 속도 208 tok/s
Llama와 비슷한 8B급이지만 응답이 훨씬 풍부합니다(평균 690 토큰). 총 토큰 41,400개로 전체 1위. 같은 시간에 더 많은 내용을 생성합니다. 품질 3.47로 상위권.
Qwen3-14B — 밸런스형 135 tok/s
14B 파라미터로 8B 대비 속도는 떨어지지만, 품질 점수 3.86으로 종합 1위. 응답도 풍부(평균 671 토큰)하여 실무에서 가장 만족스러운 결과를 냅니다.
KORMo-10B — 최저 속도 60 tok/s
한국어 특화 모델로서의 강점이 있지만, 속도가 다른 모델의 1/3 수준. 총 소요 434초로 가장 오래 걸립니다. 실시간 서비스보다는 배치 처리에 적합합니다.
3시나리오별 응답 길이
같은 모델이라도 시나리오에 따라 응답 길이가 크게 달라집니다. 법률 시나리오에서 가장 긴 응답이, 의료 시나리오에서 가장 짧은 응답이 나오는 패턴이 보입니다.
| 모델 | A 제조 | B SaaS | C 의료 | D 쇼핑 | E 법률 | F 자동화 | G 한국어 |
|---|---|---|---|---|---|---|---|
| Qwen3-8B | 892 | 745 | 628 | 710 | 548 | 720 | 587 |
| Qwen3-14B | 865 | 712 | 605 | 685 | 540 | 698 | 592 |
| Gemma-3-12B | 445 | 398 | 320 | 375 | 285 | 362 | 392 |
| Phi-4 | 780 | 668 | 548 | 635 | 478 | 610 | 593 |
| Llama-3.1-8B | 432 | 385 | 298 | 362 | 265 | 348 | 381 |
| KORMo-10B | 548 | 465 | 392 | 445 | 348 | 418 | 408 |
* 단위: 토큰 수 (질문 10개 평균)
가장 긴 응답: 법률 시나리오 (A)
법률 문서 요약은 근거 조항, 해석, 주의사항 등 구조적으로 긴 응답을 요구합니다. Qwen3-8B가 평균 892 토큰으로 가장 길게 답변.
가장 짧은 응답: 의료 시나리오 (E)
의료 상담 보조는 "의사와 상담하세요"라는 거절 반응이 많아 응답이 짧습니다. 적절한 한계 인지라 볼 수도 있습니다.
응답 길이 ≠ 품질
Qwen3-8B가 가장 많은 토큰을 생성하지만, 품질 점수는 Qwen3-14B가 높습니다. Gemma는 짧지만 핵심을 잘 짚는 스타일이고, Llama는 짧으면서도 부정확합니다.
4속도 vs 품질 트레이드오프
"빠른 모델이 좋은 모델인가?" 속도와 품질을 함께 놓고 보면 최적의 균형점이 보입니다.
| 모델 | 속도 (tok/s) | 품질 (5점) | 평가 |
|---|---|---|---|
| Llama-3.1-8B | 218 | 2.67 | 속도 최고, 품질 최저 |
| Qwen3-8B | 208 | 3.47 | 빠르면서 품질도 준수 |
| Phi-4 | 141 | 3.10 | 중간 속도, 한국어 약점 |
| Qwen3-14B | 135 | 3.86 | 최적 밸런스 (추천) |
| Gemma-3-12B | 86 | 3.72 | 느리지만 한국어 최강 |
| KORMo-10B | 60 | 3.46 | 가장 느림, 한국어 특화 |
속도 비교 (tok/s)
품질 비교 (5점 만점)
트레이드오프 결론
실시간 서비스 = Qwen3-14B
135 tok/s면 체감 지연 없이 스트리밍 가능. 품질도 최고.
대량 배치 처리 = Qwen3-8B
208 tok/s + 준수한 품질. 대량 문서를 빠르게 처리할 때 유리.
한국어 품질 최우선 = Gemma-3-12B
86 tok/s로 느리지만, 한국어 점수 4.28로 압도적. 품질이 곧 경쟁력인 서비스에.
이 글의 핵심 정리
- ✓Llama-3.1-8B가 218 tok/s로 최고 속도이나, 품질은 최하위
- ✓Qwen3-14B(135 tok/s)가 속도와 품질의 최적 균형점
- ✓AWQ 4-bit 양자화로 96GB VRAM에서 14B 모델도 여유 있게 서빙
- ✓법률 시나리오에서 가장 긴 응답, 의료 시나리오에서 가장 짧은 응답 패턴
- ✓단순 토큰 속도보다 '속도 x 품질' 효율을 기준으로 모델 선택
정리
RTX PRO 6000의 96GB VRAM과 350W 전력은 로컬 LLM 서빙에 충분한 성능을 제공합니다. 하지만 빠르다고 좋은 것이 아닙니다. 서비스 목적에 맞는 속도-품질 밸런스를 찾는 것이 핵심이며, 종합적으로 Qwen3-14B가 가장 균형 잡힌 선택입니다. 더 자세한 품질 분석은 시리즈의 다른 글에서 확인하세요.
본 테스트는 2026년 2월 21일에 수행되었습니다. 데이터(속도, 토큰 수, 응답 원문 등)는 실제 측정값이지만, 모델별 순위와 점수에는 평가자의 주관적 판단이 포함되어 있으며 테스트 환경이나 프롬프트에 따라 결과가 달라질 수 있습니다. 본 콘텐츠의 비상업적 공유는 자유이나, 상업적 이용 시 문의 페이지를 통해 연락 바랍니다.
댓글
(4개)로그인하면 댓글을 작성할 수 있습니다.
RTX PRO 6000에서 실측 토큰 속도를 공개해주시다니! 218 tok/s면 실시간 채팅 서비스도 충분하겠네요.
350W 전력 제한에서 이 정도 속도면 데이터센터 전력 비용 계산할 때 참고하기 좋겠습니다.
속도 vs 품질 트레이드오프 분석이 정말 실용적이에요. Qwen3-14B로 결정하게 된 계기가 됐습니다.
관련 글
© 2026 TreeRU. All rights reserved.
본 콘텐츠의 저작권은 TreeRU에 있으며, 출처를 밝히지 않은 무단 전재 및 재배포를 금합니다. 인용 시 출처(treeru.com)를 반드시 명시해 주세요.