AWQ 양자화 속도 비교 — 모델 크기별 INT4 vs BF16, 그리고 MoE의 반전
"양자화하면 얼마나 빨라질까?" AWQ(INT4) 양자화는 모델 가중치를 16비트에서 4비트로 줄여 메모리 사용량과 추론 속도를 개선합니다. 하지만 실제로 얼마나 빨라지는지, 모든 모델에서 동일한 효과가 나는지는 직접 돌려봐야 알 수 있습니다. RTX PRO 6000(96GB)에서 16개 모델을 SGLang으로 서빙하고 실측한 토큰 속도를 공개합니다. 그리고 MoE(Mixture of Experts) 모델이 만들어내는 예상 밖의 반전도 확인합니다.
2.94x
32B AWQ 속도 향상
168.9
30B MoE tok/s
16개
실측 모델 수
391.2
최고 tok/s (4B AWQ)

16모델 속도 실측 총정리
동일 환경(RTX PRO 6000, SGLang 0.5.8, 단일 요청)에서 16개 모델의 토큰 생성 속도를 측정했습니다. Dense 모델의 AWQ/BF16 비교, MoE 모델의 특이한 위치, 그리고 아키텍처별 효율 차이를 한눈에 확인할 수 있습니다.
| # | 모델 | 파라미터 | 타입 | tok/s |
|---|---|---|---|---|
| 1 | Qwen3-4B-AWQ | 4B | Dense AWQ | 391.2 |
| 2 | Qwen3-4B | 4B | Dense BF16 | 208.1 |
| 3 | Qwen3-8B-AWQ | 8B | Dense AWQ | 208.0 |
| 4 | Qwen3-30B-A3BMoE | 30B (3B) | MoE | 168.9 |
| 5 | Qwen3-14B-AWQ | 14B | Dense AWQ | 136.1 |
| 6 | Gemma-3-12B-it-AWQ | 12B | Dense AWQ | 128.5 |
| 7 | GLM-4-9B-Chat-1MMoE | 9B (1.2B) | MoE | 107.2 |
| 8 | EXAONE-3.5-7.8B | 7.8B | Dense BF16 | 95.2 |
| 9 | Qwen3-8B | 8B | Dense BF16 | 90.8 |
| 10 | Qwen3-32B-AWQ | 32B | Dense AWQ | 70.2 |
| 11 | Qwen3-14B | 14B | Dense BF16 | 53.2 |
| 12 | Phi-4-AWQ | 14B | Dense AWQ | 51.8 |
| 13 | EXAONE-3.5-32B-AWQ | 32B | Dense AWQ | 24.2 |
| 14 | DeepSeek-R1-Distill-Qwen-32B | 32B | Dense BF16 | 24.0 |
| 15 | Qwen3-32B | 32B | Dense BF16 | 23.9 |
| 16 | EXAONE-3.5-32B | 32B | Dense BF16 | 19.3 |
테이블에서 읽어야 할 3가지
- 1. AWQ는 항상 같은 크기 BF16보다 빠릅니다 — 4B부터 32B까지 예외 없음
- 2. MoE 모델이 예상 외 위치에 있습니다 — 30B 모델이 14B AWQ보다 빠름
- 3. 같은 크기라도 아키텍처가 다르면 속도가 다릅니다 — Phi-4 AWQ(14B)가 Qwen3-14B BF16과 비슷한 수준
상위 8개 모델 속도 비교
AWQ 양자화 효과 분석 — 모델이 클수록 극대화
Qwen3 시리즈의 4B, 8B, 14B, 32B를 각각 AWQ(INT4)와 BF16으로 서빙하여 동일 모델의 양자화 전후 속도를 직접 비교했습니다. 결론부터 말하면, 모델이 클수록 양자화 효과가 극대화됩니다.

| 모델 크기 | AWQ (tok/s) | BF16 (tok/s) | 속도 향상 |
|---|---|---|---|
| 4B | 391.2 | 208.1 | 1.88x |
| 8B | 208.0 | 90.8 | 2.29x |
| 14B | 136.1 | 53.2 | 2.56x |
| 32B | 70.2 | 23.9 | 2.94x |
모델 크기별 양자화 속도 향상 비율
왜 큰 모델에서 효과가 더 큰가
LLM 추론은 메모리 대역폭(Memory Bandwidth) 바운드입니다. 모델이 클수록 가중치 읽기가 병목이 되는데, AWQ는 가중치 크기를 1/4로 줄여 대역폭 부담을 직접 경감합니다. 32B 모델에서 2.94배 향상이 나오는 이유입니다.
4B에서 효과가 작은 이유
4B는 원래 모델 자체가 작아서 연산(Compute) 비중이 상대적으로 높습니다. 메모리 읽기 시간을 줄여도 연산 시간이 남아있어 전체 속도 향상폭이 제한됩니다. 1.88배도 의미 있지만, 32B의 2.94배와는 차이가 있습니다.
품질은 괜찮은가?
AWQ(INT4)는 GPTQ 대비 활성화 기반 중요도 가중 양자화를 사용하여 품질 손실을 최소화합니다. 저희 60문항 한국어 테스트에서 Qwen3-14B-AWQ는 종합 3.86점(1위)으로, BF16 대비 체감할 수 있는 품질 차이를 보이지 않았습니다. 속도는 2.56배 빠르고 품질은 유지 — AWQ를 쓰지 않을 이유가 없습니다.
MoE의 반전: 30B가 14B보다 빠르다
일반적으로 모델이 크면 느립니다. 32B는 14B보다, 14B는 8B보다 느립니다. 하지만 MoE(Mixture of Experts) 모델은 이 상식을 뒤집습니다. Qwen3-30B-A3B는 30B 모델이지만 168.9 tok/s로 Qwen3-14B-AWQ(136.1 tok/s)보다 빠릅니다.

| 모델 | 전체 파라미터 | 활성 파라미터 | tok/s | 특징 |
|---|---|---|---|---|
| Qwen3-30B-A3B | 30B | 3B | 168.9 | 8B AWQ급 속도, 14B급 품질 |
| Qwen3-14B-AWQ | 14B | 14B | 136.1 | Dense — 전체 파라미터 사용 |
| GLM-4-9B-Chat-1M | 9B | ~1.2B | 107.2 | 7B Dense급 속도, 롱 컨텍스트 |
| Qwen3-8B-AWQ | 8B | 8B | 208.0 | 가장 빠른 실용 Dense 모델 |
MoE가 빠른 원리
희소 활성화
30B 파라미터 중 토큰당 3B만 활성화합니다. 나머지 27B는 그 토큰에 대해 연산하지 않습니다.
연산량 감소
실제 연산은 3B Dense 모델 수준입니다. 그래서 8B Dense보다도 빠르면서 14B급 품질을 냅니다.
품질 유지
각 "전문가"가 특정 영역을 담당하여 30B 전체의 지식을 활용합니다. 파라미터 수가 곧 지식 용량입니다.
MoE의 트레이드오프
MoE는 만능이 아닙니다. VRAM 사용량은 전체 파라미터 기준입니다. Qwen3-30B-A3B는 속도는 3B급이지만 VRAM은 30B만큼 사용합니다. 16GB GPU(RTX 5060 Ti)에서는 AWQ 양자화 없이 서빙할 수 없고, AWQ 적용 시에도 VRAM 한계에 가깝습니다. MoE의 속도 이점은 VRAM이 충분한 환경에서만 발휘됩니다.
GLM-4-9B-Chat-1M: 숨은 강자
107.2 tok/s는 Dense 7~8B 모델급 속도입니다. 9B 전체 파라미터에서 토큰당 약 1.2B만 활성화하는 MoE 구조 덕분입니다. "1M"은 100만 토큰 컨텍스트를 지원한다는 의미 — 롱 도큐먼트 처리에서 7B Dense 속도에 30B급 품질을 기대할 수 있는 독특한 포지션입니다.
VRAM과 속도의 상관관계
AWQ와 MoE의 속도 차이를 이해하려면 메모리 대역폭을 알아야 합니다. LLM 추론에서 토큰 생성 속도를 결정하는 핵심 요소입니다.
| 모델 | 가중치 크기 | tok/s | 병목 |
|---|---|---|---|
| Qwen3-4B-AWQ | ~2.5 GB | 391.2 | 연산(Compute) 한계 접근 |
| Qwen3-8B-AWQ | ~5 GB | 208.0 | 대역폭/연산 균형 |
| Qwen3-14B-AWQ | ~8 GB | 136.1 | 대역폭 바운드 시작 |
| Qwen3-32B-AWQ | ~18 GB | 70.2 | 대역폭 바운드 (대역폭 ÷ 가중치 ≈ 속도) |
| Qwen3-32B (BF16) | ~64 GB | 23.9 | 심각한 대역폭 바운드 |
RTX PRO 6000의 메모리 대역폭
1,536
GB/s 대역폭
96
GB GDDR7 VRAM
600W
TDP (350W 제한 사용)
토큰 생성 속도 이론값 = 대역폭 ÷ 가중치 크기. 32B AWQ(~18GB)의 이론값: 1,536 ÷ 18 ≈ 85 tok/s → 실측 70.2 tok/s (오버헤드 포함). 32B BF16(~64GB)의 이론값: 1,536 ÷ 64 ≈ 24 tok/s → 실측 23.9 tok/s (거의 이론값).
핵심 공식
예상 tok/s ≈ 메모리 대역폭(GB/s) ÷ 모델 가중치 크기(GB)
이 공식은 대형 모델에서 매우 정확합니다. AWQ 양자화가 빠른 이유는 결국 분모를 1/4로 줄이는 것이기 때문입니다. 32B의 경우: BF16 64GB → AWQ 18GB, 분모가 3.6배 줄어서 속도가 2.94배 향상됩니다.
실전 모델 선택 가이드
16개 모델 벤치마크 결과를 바탕으로, VRAM과 용도에 따른 최적 모델을 정리합니다.
VRAM 충분 (48GB+): 품질 중심
| 최우선 | Qwen3-30B-A3B | 168.9 tok/s | 14B급 품질 + 8B급 속도 |
| 고품질 필요 | Qwen3-32B-AWQ | 70.2 tok/s | 최고 품질, 스트리밍 필수 |
VRAM 보통 (16~24GB): 균형
| 최우선 | Qwen3-14B-AWQ | 136.1 tok/s | 한국어 1위 + 빠른 속도 |
| 경량 대안 | Qwen3-8B-AWQ | 208.0 tok/s | FAQ/분류용 최적 |
VRAM 제한 (8~12GB): 속도 중심
| 최우선 | Qwen3-8B-AWQ | 208.0 tok/s | 5GB VRAM으로 서빙 가능 |
| 초경량 | Qwen3-4B-AWQ | 391.2 tok/s | 2.5GB VRAM, 분류/라우팅 전용 |
피해야 할 선택
VRAM이 충분한데 BF16을 고집하는 것 — 32B BF16은 23.9 tok/s로 AWQ(70.2) 대비 3배 느립니다. 품질 차이는 거의 없으면서 속도만 희생합니다. 또한 Phi-4-AWQ(51.8 tok/s)는 같은 14B급인 Qwen3-14B-AWQ(136.1)보다 2.6배 느립니다. SGLang 최적화가 Qwen3 아키텍처에 특히 잘 맞기 때문이며, 엔진-모델 궁합도 고려해야 합니다.
결론: 양자화 + MoE = 게임 체인저
16개 모델 벤치마크를 통해 확인한 핵심은 명확합니다. AWQ 양자화와 MoE 아키텍처는 로컬 LLM 서빙의 두 가지 핵심 무기입니다.
3줄 요약
AWQ 양자화는 필수입니다. 모델이 클수록 효과가 커져, 32B에서 2.94배 속도 향상을 확인했습니다. 품질 손실은 체감할 수 없는 수준입니다.
MoE는 속도-품질 동시 달성의 열쇠입니다. Qwen3-30B-A3B는 168.9 tok/s로 14B AWQ보다 24% 빠르면서 30B 지식을 활용합니다.
아키텍처와 엔진 궁합이 중요합니다. 같은 14B라도 Qwen3-14B-AWQ(136.1)와 Phi-4-AWQ(51.8)는 2.6배 차이가 납니다. SGLang + Qwen3 조합이 현재 최적입니다.
이 글의 핵심 정리
- ✓AWQ(INT4) 양자화 속도 향상: 4B 1.88배 → 8B 2.29배 → 14B 2.56배 → 32B 2.94배
- ✓MoE 반전: Qwen3-30B-A3B(168.9 tok/s) > Qwen3-14B-AWQ(136.1 tok/s)
- ✓GLM-4-9B-Chat-1M: 9B MoE로 107.2 tok/s — Dense 7B급 속도에 롱 컨텍스트
- ✓Phi-4-AWQ(51.8 tok/s) vs Qwen3-14B-AWQ(136.1 tok/s) — 같은 14B, 2.6배 차이
- ✓핵심 공식: tok/s ≈ 메모리 대역폭(GB/s) ÷ 모델 가중치(GB)
- ✓VRAM 충분하면 MoE(Qwen3-30B-A3B), 제한적이면 AWQ(Qwen3-14B-AWQ) 선택
함께 읽으면 좋은 글
본 벤치마크는 2026년 2월에 수행되었습니다. RTX PRO 6000(96GB GDDR7, 350W 전력 제한), SGLang 0.5.8.post1, 단일 요청 기준이며, 동시 요청 환경에서는 처리량(throughput)과 지연(latency) 특성이 달라질 수 있습니다. AWQ 양자화는 awq_marlin 백엔드, MoE 모델은 flashinfer 어텐션 백엔드를 사용했습니다. 모델 버전, 서빙 엔진, GPU에 따라 결과가 달라질 수 있습니다. 본 콘텐츠의 비상업적 공유는 자유이나, 상업적 이용 시 문의 페이지를 통해 연락 바랍니다.
댓글
(4개)로그인하면 댓글을 작성할 수 있습니다.
32B에서 AWQ가 2.94배 빨라진다는 실측 데이터가 핵심이네요. VRAM이 여유로운 환경에서도 AWQ를 쓸 이유가 분명해졌습니다. MoE 분석도 훌륭합니다.
Qwen3-30B-A3B가 14B AWQ보다 빠르다는 건 서빙 전략을 완전히 바꾸는 데이터입니다. 활성 파라미터 3B라는 게 이렇게 큰 차이를 만들다니.
16모델 전수 벤치마크는 처음 봅니다. Phi-4가 같은 14B인데 Qwen3 대비 2.6배 느린 이유가 궁금하네요. 아키텍처 차이겠지만 충격적인 격차입니다.
관련 글
© 2026 TreeRU. All rights reserved.
본 콘텐츠의 저작권은 TreeRU에 있으며, 출처를 밝히지 않은 무단 전재 및 재배포를 금합니다. 인용 시 출처(treeru.com)를 반드시 명시해 주세요.