카테고리

RTX PRO 6000 토큰 속도 실측 - 350W에서 모델별 몇 tok/s?

2026-02-22

Treeru

로컬 LLM을 서비스에 투입할 때 가장 먼저 확인해야 할 지표는 토큰 생성 속도(tok/s)입니다. NVIDIA RTX PRO 6000(96GB, 350W 전력 제한) 위에서 SGLang 엔진으로 6개 모델의 실제 토큰 속도를 측정했습니다.

218

최고 tok/s

최저 tok/s

350W

전력 제한

96GB

VRAM

1테스트 구성

모든 모델을 동일한 조건에서 테스트하여 순수 속도 차이만 비교했습니다.SGLang vs vLLM 비교에서 확인할 수 있듯 SGLang 엔진은 OpenAI-compatible API를 제공하므로, 기존 코드를 그대로 사용할 수 있는 장점이 있습니다. 다중 모델 서빙 설정은 SGLang 23모델 서빙 가이드를 참고하세요.

테스트 조건

GPU: RTX PRO 6000 (96GB VRAM)

전력 제한: 350W (nvidia-smi -pl 350)

서빙 엔진: SGLang

양자화: AWQ 4-bit quantization

Temperature: 0.3 (고정)

테스트: 60개 질문 순차 실행

AWQ 양자화란? (AWQ 양자화 속도 비교)

Activation-aware Weight Quantization의 약자로, 모델 가중치를 4비트로 압축하여 VRAM 사용량을 약 75% 줄이면서도 품질 손실을 최소화하는 기법입니다. 96GB VRAM이면 14B 모델도 여유 있게 서빙할 수 있습니다.

2속도 측정 결과

60개 질문에 대한 총 소요 시간, 총 생성 토큰 수, 평균 tok/s를 측정했습니다.

모델	총 소요	총 토큰	평균 tok/s	평균 응답길이
Llama-3.1-8B	97초	21,165	218 tok/s	353 토큰
Qwen3-8B	199초	41,400	208 tok/s	690 토큰
Phi-4	263초	36,989	141 tok/s	616 토큰
Qwen3-14B	297초	40,289	135 tok/s	671 토큰
Gemma-3-12B	258초	22,088	86 tok/s	368 토큰
KORMo-10B	434초	25,938	60 tok/s	432 토큰

Llama-3.1-8B — 최고 속도 218 tok/s

8B 파라미터의 가벼운 모델 + 짧은 응답(평균 353 토큰) 덕에 가장 빠릅니다. 하지만 총 토큰 수가 적은 것은 답변이 빈약하다는 의미이기도 합니다. 품질 점수 2.67로 최하위.

Qwen3-8B — 준최고 속도 208 tok/s

Llama와 비슷한 8B급이지만 응답이 훨씬 풍부합니다(평균 690 토큰). 총 토큰 41,400개로 전체 1위. 같은 시간에 더 많은 내용을 생성합니다. 품질 3.47로 상위권.

Qwen3-14B — 밸런스형 135 tok/s

14B 파라미터로 8B 대비 속도는 떨어지지만, 품질 점수 3.86으로 종합 1위. 응답도 풍부(평균 671 토큰)하여 실무에서 가장 만족스러운 결과를 냅니다.

KORMo-10B — 최저 속도 60 tok/s

한국어 특화 모델로서의 강점이 있지만, 속도가 다른 모델의 1/3 수준. 총 소요 434초로 가장 오래 걸립니다. 실시간 서비스보다는 배치 처리에 적합합니다.

3시나리오별 응답 길이

같은 모델이라도 시나리오에 따라 응답 길이가 크게 달라집니다. 법률 시나리오에서 가장 긴 응답이, 의료 시나리오에서 가장 짧은 응답이 나오는 패턴이 보입니다.

모델	A 제조	B SaaS	C 의료	D 쇼핑	E 법률	F 자동화	G 한국어
Qwen3-8B	892	745	628	710	548	720	587
Qwen3-14B	865	712	605	685	540	698	592
Gemma-3-12B	445	398	320	375	285	362	392
Phi-4	780	668	548	635	478	610	593
Llama-3.1-8B	432	385	298	362	265	348	381
KORMo-10B	548	465	392	445	348	418	408

* 단위: 토큰 수 (질문 10개 평균)

가장 긴 응답: 법률 시나리오 (A)

법률 문서 요약은 근거 조항, 해석, 주의사항 등 구조적으로 긴 응답을 요구합니다. Qwen3-8B가 평균 892 토큰으로 가장 길게 답변.

가장 짧은 응답: 의료 시나리오 (E)

의료 상담 보조는 "의사와 상담하세요"라는 거절 반응이 많아 응답이 짧습니다. 적절한 한계 인지라 볼 수도 있습니다.

응답 길이 ≠ 품질

Qwen3-8B가 가장 많은 토큰을 생성하지만, 품질 점수는 Qwen3-14B가 높습니다. Gemma는 짧지만 핵심을 잘 짚는 스타일이고, Llama는 짧으면서도 부정확합니다.

4속도 vs 품질 트레이드오프

"빠른 모델이 좋은 모델인가?" 속도와 품질을 함께 놓고 보면 최적의 균형점이 보입니다.

모델	속도 (tok/s)	품질 (5점)	평가
Llama-3.1-8B	218	2.67	속도 최고, 품질 최저
Qwen3-8B	208	3.47	빠르면서 품질도 준수
Phi-4	141	3.10	중간 속도, 한국어 약점
Qwen3-14B	135	3.86	최적 밸런스 (추천)
Gemma-3-12B	86	3.72	느리지만 한국어 최강
KORMo-10B	60	3.46	가장 느림, 한국어 특화

속도 비교 (tok/s)

Llama-3.1-8B

218

Qwen3-8B

208

Phi-4

141

Qwen3-14B

135

Gemma-3-12B

KORMo-10B

품질 비교 (5점 만점)

Qwen3-14B

3.86

Gemma-3-12B

3.72

Qwen3-8B

3.47

KORMo-10B

3.46

Phi-4

3.10

Llama-3.1-8B

2.67

트레이드오프 결론

실시간 서비스 = Qwen3-14B

135 tok/s면 체감 지연 없이 스트리밍 가능. 품질도 최고.

대량 배치 처리 = Qwen3-8B

208 tok/s + 준수한 품질. 대량 문서를 빠르게 처리할 때 유리.

한국어 품질 최우선 = Gemma-3-12B

86 tok/s로 느리지만, 한국어 점수 4.28로 압도적. 품질이 곧 경쟁력인 서비스에.

이 글의 핵심 정리

✓Llama-3.1-8B가 218 tok/s로 최고 속도이나, 품질은 최하위
✓Qwen3-14B(135 tok/s)가 속도와 품질의 최적 균형점
✓AWQ 4-bit 양자화로 96GB VRAM에서 14B 모델도 여유 있게 서빙
✓법률 시나리오에서 가장 긴 응답, 의료 시나리오에서 가장 짧은 응답 패턴
✓단순 토큰 속도보다 '속도 x 품질' 효율을 기준으로 모델 선택

정리

RTX PRO 6000의 96GB VRAM과 350W 전력은 로컬 LLM 서빙에 충분한 성능을 제공합니다. 하지만 빠르다고 좋은 것이 아닙니다. 서비스 목적에 맞는 속도-품질 밸런스를 찾는 것이 핵심이며, 종합적으로 Qwen3-14B가 가장 균형 잡힌 선택입니다. 더 자세한 품질 분석은 시리즈의 다른 글에서 확인하세요.

본 테스트는 2026년 2월 21일에 수행되었습니다. 데이터(속도, 토큰 수, 응답 원문 등)는 실제 측정값이지만, 모델별 순위와 점수에는 평가자의 주관적 판단이 포함되어 있으며 테스트 환경이나 프롬프트에 따라 결과가 달라질 수 있습니다. 본 콘텐츠의 비상업적 공유는 자유이나, 상업적 이용 시 문의 페이지를 통해 연락 바랍니다.

AI 인프라 구축이 필요하신가요?

Treeru가 RTX PRO 6000 기반의 로컬 LLM 인프라를 설계해 드립니다.

무료 상담 신청하기

Treeru

웹 개발, IT 인프라, AI 솔루션 분야의 실무 인사이트를 공유합니다. 기업의 디지털 전환을 돕는 IT 파트너, Treeru입니다.

LLM 토큰속도 RTX PRO 6000 벤치마크 SGLang AWQ

(4)

4.85/ 5

로그인 하면 댓글을 작성할 수 있습니다.

GPU매니아

2026-02-22

4.9

RTX PRO 6000에서 실측 토큰 속도를 공개해주시다니! 218 tok/s면 실시간 채팅 서비스도 충분하겠네요.

인프라엔지니어

2026-02-22

4.8

350W 전력 제한에서 이 정도 속도면 데이터센터 전력 비용 계산할 때 참고하기 좋겠습니다.

AI스타트업대표

2026-02-22

5.0

속도 vs 품질 트레이드오프 분석이 정말 실용적이에요. Qwen3-14B로 결정하게 된 계기가 됐습니다.

RTX PRO 6000 토큰 속도 실측 - 350W에서 모델별 몇 tok/s?

1테스트 구성

테스트 조건

2속도 측정 결과

3시나리오별 응답 길이

가장 긴 응답: 법률 시나리오 (A)

가장 짧은 응답: 의료 시나리오 (E)

4속도 vs 품질 트레이드오프

트레이드오프 결론

이 글의 핵심 정리

정리

AI 인프라 구축이 필요하신가요?

댓글

관련 글

종합 비교

한국어 능력 비교

환각 테스트