로컬 LLM 동시 접속 부하 테스트 - RTX PRO 6000으로 몇 명까지 처리할까?
로컬 LLM 하나로 동시에 몇 명까지 서비스할 수 있을까?RTX PRO 6000(96GB) 단일 GPU에 8B 모델과 32B 모델을 올리고, 동시 1명부터 200명까지 실제 멀티턴 대화 패턴으로 부하 테스트한 결과를 공개합니다.
200명
최대 동시 접속
0%
에러율 (전 구간)
3.1x
8B vs 32B 속도 차
82GB
VRAM 안정 사용
1테스트 환경
실제 프로덕션 환경을 시뮬레이션하기 위해 멀티턴 대화 + LoRA 어댑터 핫스왑 조건에서 테스트했습니다.
하드웨어 및 소프트웨어
테스트 모델
Qwen3-8B-AWQ
VRAM ~82GB (모델 + LoRA 5종 + KV캐시)
Qwen3-32B-AWQ
VRAM ~84.5GB (모델 + LoRA 5종 + KV캐시)
SGLang 설정 및 다중 모델 서빙은 SGLang 서빙 가이드를 참고하세요.
테스트 방법
각 사용자는 2~4턴 멀티턴 대화를 수행하며, max_tokens=500, 컨텍스트를 유지합니다. 사용자 간 읽기 시간(0.3~1초)을 포함해 실제 사용 패턴을 최대한 재현했습니다. 모든 측정은 non-streaming(전체 응답 완료 후 전달) 기준으로, 최악 케이스를 반영합니다.
28B 모델 부하 테스트 (Qwen3-8B-AWQ)
단순 동시 요청 (짧은 응답)
max_tokens=200의 짧은 응답으로 동시 요청 처리 능력을 먼저 확인합니다.
| 동시 접속 | 총 요청 | 중앙값 | P95 | GPU 온도 |
|---|---|---|---|---|
| 1명 | 5건 | 428ms | 1,006ms | 30°C |
| 5명 | 25건 | 694ms | 1,116ms | 31°C |
| 10명 | 50건 | 803ms | 1,214ms | 33°C |
| 20명 | 60건 | 901ms | 1,596ms | 35°C |
| 50명 | 100건 | 1,172ms | 2,063ms | 36°C |
| 100명 | 100건 | 1,285ms | 1,967ms | 39°C |
짧은 응답은 100명도 거뜬
에러율 전 구간 0%. 100명 동시 요청에서도 최대 2초 — 짧은 응답(FAQ, 분류 등)은 GPU 1장으로 충분합니다.
실제 채팅 패턴 시뮬레이션 (본격 부하)
| 시나리오 | 동시 사용자 | 중앙값 | P95 | GPU 온도 | 처리량 |
|---|---|---|---|---|---|
| 평상시 오후 | 20명 | 3.5초 | 4.2초 | 43°C | 1,582 tok/s |
| 점심 피크 | 50명 | 5.4초 | 6.5초 | 48°C | 2,590 tok/s |
| 이벤트 몰림 | 100명 | 8.6초 | 10.9초 | 62°C | 3,469 tok/s |
| 극한 스트레스 | 200명 | 16.9초 | 24.1초 | 70°C | 3,890 tok/s |
20명
3.5초
쾌적
50명
5.4초
약간 느림
100명
8.6초
답답함
200명
16.9초
사용 어려움
8B 사용자 체감 판정 (non-streaming 기준)
동시 20명까지 쾌적(3.5초), 50명이 한계선(5.4초). 스트리밍(SSE) 사용 시 첫 토큰이 1초 이내로 나오므로 체감 대기 시간은 실측보다 훨씬 짧습니다. 에러율은 200명 극한에서도 0%.
332B 모델 부하 테스트 (Qwen3-32B-AWQ)
더 높은 응답 품질을 위해 32B 모델을 사용하면 동시 처리 능력은 어떻게 달라질까요?
| 시나리오 | 동시 사용자 | 중앙값 | P95 | GPU 온도 | GPU 전력 | 처리량 |
|---|---|---|---|---|---|---|
| 평상시 오후 | 20명 | 10.4초 | 11.5초 | 61°C | 566W | 650 tok/s |
| 점심 피크 | 50명 | 16.8초 | 18.5초 | 74°C | 600W | 1,122 tok/s |
| 이벤트 몰림 | 100명 | 26.6초 | 34.8초 | 80°C | 606W | 1,385 tok/s |
| 극한 스트레스 | 200명 | 52.2초 | 72.8초 | 83°C | 606W | 1,429 tok/s |
32B 모델 주의사항
- • 200명 극한에서 GPU 온도 83°C — 안전 한계(85°C)에 근접
- • 전력도 TDP(600W)에 도달 → 장시간 운영 시 쓰로틀링 가능성
- • non-streaming 기준 20명도 10.4초로 답답함 → 스트리밍(SSE) 필수
GPU 안정성 (32B)
| 항목 | 평상시 (20명) | 극한 (200명) | 안전 한계 |
|---|---|---|---|
| 온도 | 61°C | 83°C | 85°C |
| 전력 | 566W | 606W | ~600W TDP |
| VRAM | 84.5GB | 84.5GB | 95.6GB |
| 에러율 | 0% | 0% | — |
48B vs 32B 비교
동일한 GPU, 동일한 테스트 조건에서 모델 크기에 따른 차이를 직접 비교합니다.
| 항목 | Qwen3-8B | Qwen3-32B | 배수 |
|---|---|---|---|
| VRAM 사용량 | 82.3GB | 84.5GB | 1.03x |
| 20명 중앙값 | 3.5초 | 10.4초 | 3.0x 느림 |
| 50명 중앙값 | 5.4초 | 16.8초 | 3.1x 느림 |
| 100명 중앙값 | 8.6초 | 26.6초 | 3.1x 느림 |
| 200명 중앙값 | 16.9초 | 52.2초 | 3.1x 느림 |
| 20명 처리량 | 1,582 tok/s | 650 tok/s | 0.41x |
| 200명 처리량 | 3,890 tok/s | 1,429 tok/s | 0.37x |
| 200명 GPU 온도 | 70°C | 83°C | +13°C |
| 200명 전력 | 532W | 606W | +74W |
| 에러율 | 0% | 0% | 동일 |
핵심: 일관된 3.1배 속도 차이
동시 접속자 수와 관계없이 32B는 8B 대비 일관적으로 약 3.1배 느립니다. VRAM 사용량은 거의 동일(2GB 차이)하지만, GPU 온도와 전력은 32B가 크게 높습니다. 동시 접속이 많은 서비스라면 8B가 압도적으로 유리합니다.
8B vs 32B 선택 가이드
| 기준 | 8B 추천 | 32B 추천 |
|---|---|---|
| 동시 사용자 | 50명+ | 20명 이하 (스트리밍 필수) |
| 응답 품질 | 간단한 안내 / FAQ | 복잡한 상담 / 분석 |
| GPU 수 | 1장이면 충분 | 2장 이상 권장 (TP=2) |
| 비용 효율 | 높음 | 3배 더 많은 리소스 필요 |
5프로덕션 아키텍처 권장
실전 권장 아키텍처
기본 트래픽: 8B 모델
대부분의 트래픽은 Qwen3-8B-AWQ로 빠르게 처리. FAQ, 간단한 안내, 분류 등에 최적. 동시 50명까지 쾌적하게 서비스 가능.
프리미엄: 32B 모델 (라우팅)
복잡한 상담, 분석이 필요한 질문만 32B로 라우팅. 동시 접속을 20명 이내로 관리. 반드시 SSE 스트리밍 적용.
스트리밍 필수
32B 사용 시 반드시 SSE 스트리밍 적용. 첫 토큰이 1~2초 이내로 나오므로 non-streaming 대비 체감 대기 시간이 대폭 개선됩니다.
GPU 1장 기준 서비스 용량
8B 모델
- • 동시 20명: 쾌적 (3.5초)
- • 동시 50명: 한계선 (SSE로 개선 가능)
- • 동시 100명+: GPU 추가 또는 크로스서버 AI 추론으로 확장
32B 모델
- • 동시 20명: SSE 필수 (10.4초)
- • 동시 50명+: GPU 추가 또는 8B 전환
- • 안정성: 온도 83°C로 한계 근접
운영 팁
이 글의 핵심 정리
- ✓8B 모델: 동시 20명 쾌적(3.5초), 50명 한계선, 200명에서도 에러 0%
- ✓32B 모델: 동시 20명도 10.4초 — 스트리밍(SSE) 필수, 50명+ 시 GPU 추가 권장
- ✓8B vs 32B: 일관된 3.1배 속도 차이, VRAM은 거의 동일(2GB 차)
- ✓LoRA 5종 핫스왑 무손실 — 멀티테넌트 서비스에 최적
- ✓프로덕션: 8B로 대부분 처리 + 복잡한 질문만 32B 라우팅
함께 읽으면 좋은 글
본 테스트는 2026년 2월에 수행되었습니다. SGLang 엔진 + AWQ 양자화 기준이며, 엔진 종류, 양자화 방식, 컨텍스트 길이 설정에 따라 결과가 달라질 수 있습니다. 모든 응답 시간은 non-streaming(전체 응답 완료 후 전달) 기준의 최악 케이스이며, SSE 스트리밍 사용 시 사용자 체감은 크게 개선됩니다. 본 콘텐츠의 비상업적 공유는 자유이나, 상업적 이용 시 문의 페이지를 통해 연락 바랍니다.
댓글
(5개)로그인하면 댓글을 작성할 수 있습니다.
200명 동시 접속 데이터는 정말 귀하네요. 8B로 50명까지는 충분하다는 판단이 들었습니다. 바로 PoC 참고하겠습니다.
8B vs 32B 비교표가 핵심이네요. 3.1배 속도 차이면 대부분의 경우 8B가 맞겠습니다. 품질은 라우팅으로 해결하고.
LoRA 5개 핫스왑 무손실 확인이 인상적입니다. 멀티테넌트 서비스 설계에 큰 참고가 됐어요.
관련 글
© 2026 TreeRU. All rights reserved.
본 콘텐츠의 저작권은 TreeRU에 있으며, 출처를 밝히지 않은 무단 전재 및 재배포를 금합니다. 인용 시 출처(treeru.com)를 반드시 명시해 주세요.