카테고리

AWQ 양자화 속도 비교 — 모델 크기별 INT4 vs BF16, 그리고 MoE의 반전

2026-02-26

Treeru

"양자화하면 얼마나 빨라질까?" AWQ(INT4) 양자화는 모델 가중치를 16비트에서 4비트로 줄여 메모리 사용량과 추론 속도를 개선합니다. 하지만 실제로 얼마나 빨라지는지, 모든 모델에서 동일한 효과가 나는지는 직접 돌려봐야 알 수 있습니다. RTX PRO 6000(96GB)에서 16개 모델을 SGLang으로 서빙하고 실측한 토큰 속도를 공개합니다. 그리고 MoE(Mixture of Experts) 모델이 만들어내는 예상 밖의 반전도 확인합니다.

2.94x

32B AWQ 속도 향상

168.9

30B MoE tok/s

16개

실측 모델 수

391.2

최고 tok/s (4B AWQ)

GPU 서버 하드웨어의 LED 표시등과 히트싱크 클로즈업 — AWQ 양자화 벤치마크 테스트 환경 — RTX PRO 6000(96GB GDDR7)에서 16개 모델의 토큰 생성 속도를 실측했습니다

16모델 속도 실측 총정리

동일 환경(RTX PRO 6000, SGLang 0.5.8, 단일 요청)에서 16개 모델의 토큰 생성 속도를 측정했습니다. Dense 모델의 AWQ/BF16 비교, MoE 모델의 특이한 위치, 그리고 아키텍처별 효율 차이를 한눈에 확인할 수 있습니다.

#	모델	파라미터	타입	tok/s
1	Qwen3-4B-AWQ	4B	Dense AWQ	391.2
2	Qwen3-4B	4B	Dense BF16	208.1
3	Qwen3-8B-AWQ	8B	Dense AWQ	208.0
4	Qwen3-30B-A3BMoE	30B (3B)	MoE	168.9
5	Qwen3-14B-AWQ	14B	Dense AWQ	136.1
6	Gemma-3-12B-it-AWQ	12B	Dense AWQ	128.5
7	GLM-4-9B-Chat-1MMoE	9B (1.2B)	MoE	107.2
8	EXAONE-3.5-7.8B	7.8B	Dense BF16	95.2
9	Qwen3-8B	8B	Dense BF16	90.8
10	Qwen3-32B-AWQ	32B	Dense AWQ	70.2
11	Qwen3-14B	14B	Dense BF16	53.2
12	Phi-4-AWQ	14B	Dense AWQ	51.8
13	EXAONE-3.5-32B-AWQ	32B	Dense AWQ	24.2
14	DeepSeek-R1-Distill-Qwen-32B	32B	Dense BF16	24.0
15	Qwen3-32B	32B	Dense BF16	23.9
16	EXAONE-3.5-32B	32B	Dense BF16	19.3

테이블에서 읽어야 할 3가지

1. AWQ는 항상 같은 크기 BF16보다 빠릅니다 — 4B부터 32B까지 예외 없음
2. MoE 모델이 예상 외 위치에 있습니다 — 30B 모델이 14B AWQ보다 빠름
3. 같은 크기라도 아키텍처가 다르면 속도가 다릅니다 — Phi-4 AWQ(14B)가 Qwen3-14B BF16과 비슷한 수준

상위 8개 모델 속도 비교

Qwen3-4B-AWQ

391

Qwen3-4B

208

Qwen3-8B-AWQ

208

Qwen3-30B-A3B

169

Qwen3-14B-AWQ

136

Gemma-3-12B-it-AWQ

129

GLM-4-9B-Chat-1M

107

EXAONE-3.5-7.8B

Dense AWQ Dense BF16 MoE

AWQ 양자화 효과 분석 — 모델이 클수록 극대화

Qwen3 시리즈의 4B, 8B, 14B, 32B를 각각 AWQ(INT4)와 BF16으로 서빙하여 동일 모델의 양자화 전후 속도를 직접 비교했습니다. 결론부터 말하면, 모델이 클수록 양자화 효과가 극대화됩니다.

BF16에서 AWQ INT4로의 양자화 과정을 보여주는 추상적 시각화 — 큰 블록이 작고 밀집된 블록으로 변환 — AWQ 양자화: 16비트 가중치를 4비트로 압축하여 메모리와 연산을 동시에 절약합니다

모델 크기	AWQ (tok/s)	BF16 (tok/s)	속도 향상
4B	391.2	208.1	1.88x
8B	208.0	90.8	2.29x
14B	136.1	53.2	2.56x
32B	70.2	23.9	2.94x

모델 크기별 양자화 속도 향상 비율

4B1.88x 빠름

391

208

8B2.29x 빠름

208

14B2.56x 빠름

136

32B2.94x 빠름

AWQ (INT4) BF16 (16bit)

왜 큰 모델에서 효과가 더 큰가

LLM 추론은 메모리 대역폭(Memory Bandwidth) 바운드입니다. 모델이 클수록 가중치 읽기가 병목이 되는데, AWQ는 가중치 크기를 1/4로 줄여 대역폭 부담을 직접 경감합니다. 32B 모델에서 2.94배 향상이 나오는 이유입니다.

4B에서 효과가 작은 이유

4B는 원래 모델 자체가 작아서 연산(Compute) 비중이 상대적으로 높습니다. 메모리 읽기 시간을 줄여도 연산 시간이 남아있어 전체 속도 향상폭이 제한됩니다. 1.88배도 의미 있지만, 32B의 2.94배와는 차이가 있습니다.

품질은 괜찮은가?

AWQ(INT4)는 GPTQ 대비 활성화 기반 중요도 가중 양자화를 사용하여 품질 손실을 최소화합니다. 저희 60문항 한국어 테스트에서 Qwen3-14B-AWQ는 종합 3.86점(1위)으로, BF16 대비 체감할 수 있는 품질 차이를 보이지 않았습니다. 속도는 2.56배 빠르고 품질은 유지 — AWQ를 쓰지 않을 이유가 없습니다.

MoE의 반전: 30B가 14B보다 빠르다

일반적으로 모델이 크면 느립니다. 32B는 14B보다, 14B는 8B보다 느립니다. 하지만 MoE(Mixture of Experts) 모델은 이 상식을 뒤집습니다. Qwen3-30B-A3B는 30B 모델이지만 168.9 tok/s로 Qwen3-14B-AWQ(136.1 tok/s)보다 빠릅니다.

MoE 아키텍처의 희소 활성화 패턴을 보여주는 추상 시각화 — 전체 노드 중 일부만 밝게 활성화됨 — MoE 모델은 전체 파라미터 중 일부 전문가(Expert)만 활성화하여 추론합니다

모델	전체 파라미터	활성 파라미터	tok/s	특징
Qwen3-30B-A3B	30B	3B	168.9	8B AWQ급 속도, 14B급 품질
Qwen3-14B-AWQ	14B	14B	136.1	Dense — 전체 파라미터 사용
GLM-4-9B-Chat-1M	9B	~1.2B	107.2	7B Dense급 속도, 롱 컨텍스트
Qwen3-8B-AWQ	8B	8B	208.0	가장 빠른 실용 Dense 모델

MoE가 빠른 원리

희소 활성화

30B 파라미터 중 토큰당 3B만 활성화합니다. 나머지 27B는 그 토큰에 대해 연산하지 않습니다.

연산량 감소

실제 연산은 3B Dense 모델 수준입니다. 그래서 8B Dense보다도 빠르면서 14B급 품질을 냅니다.

품질 유지

각 "전문가"가 특정 영역을 담당하여 30B 전체의 지식을 활용합니다. 파라미터 수가 곧 지식 용량입니다.

MoE의 트레이드오프

MoE는 만능이 아닙니다. VRAM 사용량은 전체 파라미터 기준입니다. Qwen3-30B-A3B는 속도는 3B급이지만 VRAM은 30B만큼 사용합니다. 16GB GPU(RTX 5060 Ti)에서는 AWQ 양자화 없이 서빙할 수 없고, AWQ 적용 시에도 VRAM 한계에 가깝습니다. MoE의 속도 이점은 VRAM이 충분한 환경에서만 발휘됩니다.

GLM-4-9B-Chat-1M: 숨은 강자

107.2 tok/s는 Dense 7~8B 모델급 속도입니다. 9B 전체 파라미터에서 토큰당 약 1.2B만 활성화하는 MoE 구조 덕분입니다. "1M"은 100만 토큰 컨텍스트를 지원한다는 의미 — 롱 도큐먼트 처리에서 7B Dense 속도에 30B급 품질을 기대할 수 있는 독특한 포지션입니다.

VRAM과 속도의 상관관계

AWQ와 MoE의 속도 차이를 이해하려면 메모리 대역폭을 알아야 합니다. LLM 추론에서 토큰 생성 속도를 결정하는 핵심 요소입니다.

모델	가중치 크기	tok/s	병목
Qwen3-4B-AWQ	~2.5 GB	391.2	연산(Compute) 한계 접근
Qwen3-8B-AWQ	~5 GB	208.0	대역폭/연산 균형
Qwen3-14B-AWQ	~8 GB	136.1	대역폭 바운드 시작
Qwen3-32B-AWQ	~18 GB	70.2	대역폭 바운드 (대역폭 ÷ 가중치 ≈ 속도)
Qwen3-32B (BF16)	~64 GB	23.9	심각한 대역폭 바운드

RTX PRO 6000의 메모리 대역폭

1,536

GB/s 대역폭

GB GDDR7 VRAM

600W

TDP (350W 제한 사용)

토큰 생성 속도 이론값 = 대역폭 ÷ 가중치 크기. 32B AWQ(~18GB)의 이론값: 1,536 ÷ 18 ≈ 85 tok/s → 실측 70.2 tok/s (오버헤드 포함). 32B BF16(~64GB)의 이론값: 1,536 ÷ 64 ≈ 24 tok/s → 실측 23.9 tok/s (거의 이론값).

핵심 공식

예상 tok/s ≈ 메모리 대역폭(GB/s) ÷ 모델 가중치 크기(GB)
이 공식은 대형 모델에서 매우 정확합니다. AWQ 양자화가 빠른 이유는 결국 분모를 1/4로 줄이는 것이기 때문입니다. 32B의 경우: BF16 64GB → AWQ 18GB, 분모가 3.6배 줄어서 속도가 2.94배 향상됩니다.

실전 모델 선택 가이드

16개 모델 벤치마크 결과를 바탕으로, VRAM과 용도에 따른 최적 모델을 정리합니다.

VRAM 충분 (48GB+): 품질 중심

최우선	Qwen3-30B-A3B	168.9 tok/s	14B급 품질 + 8B급 속도
고품질 필요	Qwen3-32B-AWQ	70.2 tok/s	최고 품질, 스트리밍 필수

VRAM 보통 (16~24GB): 균형

최우선	Qwen3-14B-AWQ	136.1 tok/s	한국어 1위 + 빠른 속도
경량 대안	Qwen3-8B-AWQ	208.0 tok/s	FAQ/분류용 최적

VRAM 제한 (8~12GB): 속도 중심

최우선	Qwen3-8B-AWQ	208.0 tok/s	5GB VRAM으로 서빙 가능
초경량	Qwen3-4B-AWQ	391.2 tok/s	2.5GB VRAM, 분류/라우팅 전용

피해야 할 선택

VRAM이 충분한데 BF16을 고집하는 것 — 32B BF16은 23.9 tok/s로 AWQ(70.2) 대비 3배 느립니다. 품질 차이는 거의 없으면서 속도만 희생합니다. 또한 Phi-4-AWQ(51.8 tok/s)는 같은 14B급인 Qwen3-14B-AWQ(136.1)보다 2.6배 느립니다. SGLang 최적화가 Qwen3 아키텍처에 특히 잘 맞기 때문이며, 엔진-모델 궁합도 고려해야 합니다.

결론: 양자화 + MoE = 게임 체인저

16개 모델 벤치마크를 통해 확인한 핵심은 명확합니다. AWQ 양자화와 MoE 아키텍처는 로컬 LLM 서빙의 두 가지 핵심 무기입니다.

3줄 요약

AWQ 양자화는 필수입니다. 모델이 클수록 효과가 커져, 32B에서 2.94배 속도 향상을 확인했습니다. 품질 손실은 체감할 수 없는 수준입니다.

MoE는 속도-품질 동시 달성의 열쇠입니다. Qwen3-30B-A3B는 168.9 tok/s로 14B AWQ보다 24% 빠르면서 30B 지식을 활용합니다.

아키텍처와 엔진 궁합이 중요합니다. 같은 14B라도 Qwen3-14B-AWQ(136.1)와 Phi-4-AWQ(51.8)는 2.6배 차이가 납니다. SGLang + Qwen3 조합이 현재 최적입니다.

이 글의 핵심 정리

✓AWQ(INT4) 양자화 속도 향상: 4B 1.88배 → 8B 2.29배 → 14B 2.56배 → 32B 2.94배
✓MoE 반전: Qwen3-30B-A3B(168.9 tok/s) > Qwen3-14B-AWQ(136.1 tok/s)
✓GLM-4-9B-Chat-1M: 9B MoE로 107.2 tok/s — Dense 7B급 속도에 롱 컨텍스트
✓Phi-4-AWQ(51.8 tok/s) vs Qwen3-14B-AWQ(136.1 tok/s) — 같은 14B, 2.6배 차이
✓핵심 공식: tok/s ≈ 메모리 대역폭(GB/s) ÷ 모델 가중치(GB)
✓VRAM 충분하면 MoE(Qwen3-30B-A3B), 제한적이면 AWQ(Qwen3-14B-AWQ) 선택

함께 읽으면 좋은 글

RTX PRO 6000 로컬 LLM 6종 벤치마크

6개 모델의 품질·속도·환각까지 종합 비교

RTX PRO 6000 토큰 속도 실측

350W에서 모델별 몇 tok/s가 나오는지 실측

SGLang vs vLLM 실전 비교

처리량 3배 차이의 비밀 — 서빙 엔진 선택

8B vs 14B vs 32B 동시 접속 비교

모델 크기별 동시 사용자 처리량 비교

본 벤치마크는 2026년 2월에 수행되었습니다. RTX PRO 6000(96GB GDDR7, 350W 전력 제한), SGLang 0.5.8.post1, 단일 요청 기준이며, 동시 요청 환경에서는 처리량(throughput)과 지연(latency) 특성이 달라질 수 있습니다. AWQ 양자화는 awq_marlin 백엔드, MoE 모델은 flashinfer 어텐션 백엔드를 사용했습니다. 모델 버전, 서빙 엔진, GPU에 따라 결과가 달라질 수 있습니다. 본 콘텐츠의 비상업적 공유는 자유이나, 상업적 이용 시 문의 페이지를 통해 연락 바랍니다.

AI 서빙 최적화가 필요하신가요?

Treeru가 AWQ 양자화, MoE 모델 선택, SGLang 서빙 최적화까지 맞춤 컨설팅을 제공합니다.

무료 상담 신청하기

Treeru

웹 개발, IT 인프라, AI 솔루션 분야의 실무 인사이트를 공유합니다. 기업의 디지털 전환을 돕는 IT 파트너, Treeru입니다.

AWQ 양자화 INT4 BF16 MoE 벤치마크 SGLang 토큰속도 LLM최적화

(4)

4.85/ 5

로그인 하면 댓글을 작성할 수 있습니다.

AI인프라엔지니어

2026-02-26

5.0

32B에서 AWQ가 2.94배 빨라진다는 실측 데이터가 핵심이네요. VRAM이 여유로운 환경에서도 AWQ를 쓸 이유가 분명해졌습니다. MoE 분석도 훌륭합니다.

MLOps리드

2026-02-26

4.9

Qwen3-30B-A3B가 14B AWQ보다 빠르다는 건 서빙 전략을 완전히 바꾸는 데이터입니다. 활성 파라미터 3B라는 게 이렇게 큰 차이를 만들다니.

서버관리자K

2026-02-26

4.8

16모델 전수 벤치마크는 처음 봅니다. Phi-4가 같은 14B인데 Qwen3 대비 2.6배 느린 이유가 궁금하네요. 아키텍처 차이겠지만 충격적인 격차입니다.

16모델 속도 실측 총정리

상위 8개 모델 속도 비교

AWQ 양자화 효과 분석 — 모델이 클수록 극대화

모델 크기별 양자화 속도 향상 비율

MoE의 반전: 30B가 14B보다 빠르다

MoE가 빠른 원리

희소 활성화

연산량 감소

품질 유지

GLM-4-9B-Chat-1M: 숨은 강자

VRAM과 속도의 상관관계

RTX PRO 6000의 메모리 대역폭

실전 모델 선택 가이드

VRAM 충분 (48GB+): 품질 중심

VRAM 보통 (16~24GB): 균형

VRAM 제한 (8~12GB): 속도 중심

결론: 양자화 + MoE = 게임 체인저

3줄 요약

이 글의 핵심 정리

함께 읽으면 좋은 글

AI 서빙 최적화가 필요하신가요?

댓글

관련 글

RTX PRO 6000 로컬 LLM 6종 벤치마크

RTX PRO 6000 토큰 속도 실측

SGLang vs vLLM 실전 비교

8B vs 14B vs 32B 동시 접속 비교