로컬 LLM 동시 접속 부하 테스트 - RTX PRO 6000으로 몇 명까지 처리할까?
로컬 LLM 하나로 동시에 몇 명까지 서비스할 수 있을까?RTX PRO 6000(96GB) 단일 GPU에 8B 모델과 32B 모델을 올리고, 동시 1명부터 200명까지 실제 멀티턴 대화 패턴으로 부하 테스트한 결과를 공개합니다.
200명
최대 동시 접속
0%
에러율 (전 구간)
3.1x
8B vs 32B 속도 차
82GB
VRAM 안정 사용
1테스트 환경
실제 프로덕션 환경을 시뮬레이션하기 위해 멀티턴 대화 + LoRA 어댑터 핫스왑 조건에서 테스트했습니다.
하드웨어 및 소프트웨어
테스트 모델
Qwen3-8B-AWQ
VRAM ~82GB (모델 + LoRA 5종 + KV캐시)
Qwen3-32B-AWQ
VRAM ~84.5GB (모델 + LoRA 5종 + KV캐시)
SGLang 설정 및 다중 모델 서빙은 SGLang 서빙 가이드를 참고하세요.
테스트 방법
각 사용자는 2~4턴 멀티턴 대화를 수행하며, max_tokens=500, 컨텍스트를 유지합니다. 사용자 간 읽기 시간(0.3~1초)을 포함해 실제 사용 패턴을 최대한 재현했습니다. 모든 측정은 non-streaming(전체 응답 완료 후 전달) 기준으로, 최악 케이스를 반영합니다.
28B 모델 부하 테스트 (Qwen3-8B-AWQ)
단순 동시 요청 (짧은 응답)
max_tokens=200의 짧은 응답으로 동시 요청 처리 능력을 먼저 확인합니다.
| 동시 접속 | 총 요청 | 중앙값 | P95 | GPU 온도 |
|---|---|---|---|---|
| 1명 | 5건 | 428ms | 1,006ms | 30°C |
| 5명 | 25건 | 694ms | 1,116ms | 31°C |
| 10명 | 50건 | 803ms | 1,214ms | 33°C |
| 20명 | 60건 | 901ms | 1,596ms | 35°C |
| 50명 | 100건 | 1,172ms | 2,063ms | 36°C |
| 100명 | 100건 | 1,285ms | 1,967ms | 39°C |
짧은 응답은 100명도 거뜬
에러율 전 구간 0%. 100명 동시 요청에서도 최대 2초 — 짧은 응답(FAQ, 분류 등)은 GPU 1장으로 충분합니다.
실제 채팅 패턴 시뮬레이션 (본격 부하)
| 시나리오 | 동시 사용자 | 중앙값 | P95 | GPU 온도 | 처리량 |
|---|---|---|---|---|---|
| 평상시 오후 | 20명 | 3.5초 | 4.2초 | 43°C | 1,582 tok/s |
| 점심 피크 | 50명 | 5.4초 | 6.5초 | 48°C | 2,590 tok/s |
| 이벤트 몰림 | 100명 | 8.6초 | 10.9초 | 62°C | 3,469 tok/s |
| 극한 스트레스 | 200명 | 16.9초 | 24.1초 | 70°C | 3,890 tok/s |
20명
3.5초
쾌적
50명
5.4초
약간 느림
100명
8.6초
답답함
200명
16.9초
사용 어려움
8B 사용자 체감 판정 (non-streaming 기준)
동시 20명까지 쾌적(3.5초), 50명이 한계선(5.4초). 스트리밍(SSE) 사용 시 첫 토큰이 1초 이내로 나오므로 체감 대기 시간은 실측보다 훨씬 짧습니다. 에러율은 200명 극한에서도 0%.
332B 모델 부하 테스트 (Qwen3-32B-AWQ)
더 높은 응답 품질을 위해 32B 모델을 사용하면 동시 처리 능력은 어떻게 달라질까요?
| 시나리오 | 동시 사용자 | 중앙값 | P95 | GPU 온도 | GPU 전력 | 처리량 |
|---|---|---|---|---|---|---|
| 평상시 오후 | 20명 | 10.4초 | 11.5초 | 61°C | 566W | 650 tok/s |
| 점심 피크 | 50명 | 16.8초 | 18.5초 | 74°C | 600W | 1,122 tok/s |
| 이벤트 몰림 | 100명 | 26.6초 | 34.8초 | 80°C | 606W | 1,385 tok/s |
| 극한 스트레스 | 200명 | 52.2초 | 72.8초 | 83°C | 606W | 1,429 tok/s |
32B 모델 주의사항
- • 200명 극한에서 GPU 온도 83°C — 안전 한계(85°C)에 근접
- • 전력도 TDP(600W)에 도달 → 장시간 운영 시 쓰로틀링 가능성
- • non-streaming 기준 20명도 10.4초로 답답함 → 스트리밍(SSE) 필수
GPU 안정성 (32B)
| 항목 | 평상시 (20명) | 극한 (200명) | 안전 한계 |
|---|---|---|---|
| 온도 | 61°C | 83°C | 85°C |
| 전력 | 566W | 606W | ~600W TDP |
| VRAM | 84.5GB | 84.5GB | 95.6GB |
| 에러율 | 0% | 0% | — |
48B vs 32B 비교
동일한 GPU, 동일한 테스트 조건에서 모델 크기에 따른 차이를 직접 비교합니다.
| 항목 | Qwen3-8B | Qwen3-32B | 배수 |
|---|---|---|---|
| VRAM 사용량 | 82.3GB | 84.5GB | 1.03x |
| 20명 중앙값 | 3.5초 | 10.4초 | 3.0x 느림 |
| 50명 중앙값 | 5.4초 | 16.8초 | 3.1x 느림 |
| 100명 중앙값 | 8.6초 | 26.6초 | 3.1x 느림 |
| 200명 중앙값 | 16.9초 | 52.2초 | 3.1x 느림 |
| 20명 처리량 | 1,582 tok/s | 650 tok/s | 0.41x |
| 200명 처리량 | 3,890 tok/s | 1,429 tok/s | 0.37x |
| 200명 GPU 온도 | 70°C | 83°C | +13°C |
| 200명 전력 | 532W | 606W | +74W |
| 에러율 | 0% | 0% | 동일 |
핵심: 일관된 3.1배 속도 차이
동시 접속자 수와 관계없이 32B는 8B 대비 일관적으로 약 3.1배 느립니다. VRAM 사용량은 거의 동일(2GB 차이)하지만, GPU 온도와 전력은 32B가 크게 높습니다. 동시 접속이 많은 서비스라면 8B가 압도적으로 유리합니다.
8B vs 32B 선택 가이드
| 기준 | 8B 추천 | 32B 추천 |
|---|---|---|
| 동시 사용자 | 50명+ | 20명 이하 (스트리밍 필수) |
| 응답 품질 | 간단한 안내 / FAQ | 복잡한 상담 / 분석 |
| GPU 수 | 1장이면 충분 | 2장 이상 권장 (TP=2) |
| 비용 효율 | 높음 | 3배 더 많은 리소스 필요 |
5프로덕션 아키텍처 권장
실전 권장 아키텍처
기본 트래픽: 8B 모델
대부분의 트래픽은 Qwen3-8B-AWQ로 빠르게 처리. FAQ, 간단한 안내, 분류 등에 최적. 동시 50명까지 쾌적하게 서비스 가능.
프리미엄: 32B 모델 (라우팅)
복잡한 상담, 분석이 필요한 질문만 32B로 라우팅. 동시 접속을 20명 이내로 관리. 반드시 SSE 스트리밍 적용.
스트리밍 필수
32B 사용 시 반드시 SSE 스트리밍 적용. 첫 토큰이 1~2초 이내로 나오므로 non-streaming 대비 체감 대기 시간이 대폭 개선됩니다.
GPU 1장 기준 서비스 용량
8B 모델
- • 동시 20명: 쾌적 (3.5초)
- • 동시 50명: 한계선 (SSE로 개선 가능)
- • 동시 100명+: GPU 추가 또는 크로스서버 AI 추론으로 확장
32B 모델
- • 동시 20명: SSE 필수 (10.4초)
- • 동시 50명+: GPU 추가 또는 8B 전환
- • 안정성: 온도 83°C로 한계 근접
운영 팁
이 글의 핵심 정리
- ✓8B 모델: 동시 20명 쾌적(3.5초), 50명 한계선, 200명에서도 에러 0%
- ✓32B 모델: 동시 20명도 10.4초 — 스트리밍(SSE) 필수, 50명+ 시 GPU 추가 권장
- ✓8B vs 32B: 일관된 3.1배 속도 차이, VRAM은 거의 동일(2GB 차)
- ✓LoRA 5종 핫스왑 무손실 — 멀티테넌트 서비스에 최적
- ✓프로덕션: 8B로 대부분 처리 + 복잡한 질문만 32B 라우팅
함께 읽으면 좋은 글
본 테스트는 2026년 2월에 수행되었습니다. SGLang 엔진 + AWQ 양자화 기준이며, 엔진 종류, 양자화 방식, 컨텍스트 길이 설정에 따라 결과가 달라질 수 있습니다. 모든 응답 시간은 non-streaming(전체 응답 완료 후 전달) 기준의 최악 케이스이며, SSE 스트리밍 사용 시 사용자 체감은 크게 개선됩니다. 본 콘텐츠의 비상업적 공유는 자유이나, 상업적 이용 시 문의 페이지를 통해 연락 바랍니다.
관련 글
© 2026 TreeRU. All rights reserved.
본 콘텐츠의 저작권은 TreeRU에 있으며, 출처를 밝히지 않은 무단 전재 및 재배포를 금합니다. 인용 시 출처(treeru.com)를 반드시 명시해 주세요.