카테고리

로컬 LLM 동시 접속 부하 테스트 - RTX PRO 6000으로 몇 명까지 처리할까?

2026-02-22

Treeru

로컬 LLM 하나로 동시에 몇 명까지 서비스할 수 있을까?RTX PRO 6000(96GB) 단일 GPU에 8B 모델과 32B 모델을 올리고, 동시 1명부터 200명까지 실제 멀티턴 대화 패턴으로 부하 테스트한 결과를 공개합니다.

200명

최대 동시 접속

에러율 (전 구간)

3.1x

8B vs 32B 속도 차

82GB

VRAM 안정 사용

1테스트 환경

실제 프로덕션 환경을 시뮬레이션하기 위해 멀티턴 대화 + LoRA 어댑터 핫스왑 조건에서 테스트했습니다.

하드웨어 및 소프트웨어

GPU: NVIDIA RTX PRO 6000 (96GB VRAM)

서빙 엔진: SGLang (OpenAI-compatible API)

양자화: AWQ 4-bit

LoRA: 업무별 어댑터 5종 (핫스왑)

컨텍스트: 4096 토큰

메모리 할당: 85% (mem-fraction-static)

테스트 모델

Qwen3-8B-AWQ

VRAM ~82GB (모델 + LoRA 5종 + KV캐시)

Qwen3-32B-AWQ

VRAM ~84.5GB (모델 + LoRA 5종 + KV캐시)

SGLang 설정 및 다중 모델 서빙은 SGLang 서빙 가이드를 참고하세요.

테스트 방법

각 사용자는 2~4턴 멀티턴 대화를 수행하며, max_tokens=500, 컨텍스트를 유지합니다. 사용자 간 읽기 시간(0.3~1초)을 포함해 실제 사용 패턴을 최대한 재현했습니다. 모든 측정은 non-streaming(전체 응답 완료 후 전달) 기준으로, 최악 케이스를 반영합니다.

28B 모델 부하 테스트 (Qwen3-8B-AWQ)

단순 동시 요청 (짧은 응답)

max_tokens=200의 짧은 응답으로 동시 요청 처리 능력을 먼저 확인합니다.

동시 접속	총 요청	중앙값	P95	GPU 온도
1명	5건	428ms	1,006ms	30°C
5명	25건	694ms	1,116ms	31°C
10명	50건	803ms	1,214ms	33°C
20명	60건	901ms	1,596ms	35°C
50명	100건	1,172ms	2,063ms	36°C
100명	100건	1,285ms	1,967ms	39°C

짧은 응답은 100명도 거뜬

에러율 전 구간 0%. 100명 동시 요청에서도 최대 2초 — 짧은 응답(FAQ, 분류 등)은 GPU 1장으로 충분합니다.

실제 채팅 패턴 시뮬레이션 (본격 부하)

시나리오	동시 사용자	중앙값	P95	GPU 온도	처리량
평상시 오후	20명	3.5초	4.2초	43°C	1,582 tok/s
점심 피크	50명	5.4초	6.5초	48°C	2,590 tok/s
이벤트 몰림	100명	8.6초	10.9초	62°C	3,469 tok/s
극한 스트레스	200명	16.9초	24.1초	70°C	3,890 tok/s

20명

3.5초

쾌적

50명

5.4초

약간 느림

100명

8.6초

답답함

200명

16.9초

사용 어려움

8B 사용자 체감 판정 (non-streaming 기준)

동시 20명까지 쾌적(3.5초), 50명이 한계선(5.4초). 스트리밍(SSE) 사용 시 첫 토큰이 1초 이내로 나오므로 체감 대기 시간은 실측보다 훨씬 짧습니다. 에러율은 200명 극한에서도 0%.

332B 모델 부하 테스트 (Qwen3-32B-AWQ)

더 높은 응답 품질을 위해 32B 모델을 사용하면 동시 처리 능력은 어떻게 달라질까요?

시나리오	동시 사용자	중앙값	P95	GPU 온도	GPU 전력	처리량
평상시 오후	20명	10.4초	11.5초	61°C	566W	650 tok/s
점심 피크	50명	16.8초	18.5초	74°C	600W	1,122 tok/s
이벤트 몰림	100명	26.6초	34.8초	80°C	606W	1,385 tok/s
극한 스트레스	200명	52.2초	72.8초	83°C	606W	1,429 tok/s

32B 모델 주의사항

• 200명 극한에서 GPU 온도 83°C — 안전 한계(85°C)에 근접
• 전력도 TDP(600W)에 도달 → 장시간 운영 시 쓰로틀링 가능성
• non-streaming 기준 20명도 10.4초로 답답함 → 스트리밍(SSE) 필수

GPU 안정성 (32B)

항목	평상시 (20명)	극한 (200명)	안전 한계
온도	61°C	83°C	85°C
전력	566W	606W	~600W TDP
VRAM	84.5GB	84.5GB	95.6GB
에러율	0%	0%	—

48B vs 32B 비교

동일한 GPU, 동일한 테스트 조건에서 모델 크기에 따른 차이를 직접 비교합니다.

항목	Qwen3-8B	Qwen3-32B	배수
VRAM 사용량	82.3GB	84.5GB	1.03x
20명 중앙값	3.5초	10.4초	3.0x 느림
50명 중앙값	5.4초	16.8초	3.1x 느림
100명 중앙값	8.6초	26.6초	3.1x 느림
200명 중앙값	16.9초	52.2초	3.1x 느림
20명 처리량	1,582 tok/s	650 tok/s	0.41x
200명 처리량	3,890 tok/s	1,429 tok/s	0.37x
200명 GPU 온도	70°C	83°C	+13°C
200명 전력	532W	606W	+74W
에러율	0%	0%	동일

핵심: 일관된 3.1배 속도 차이

동시 접속자 수와 관계없이 32B는 8B 대비 일관적으로 약 3.1배 느립니다. VRAM 사용량은 거의 동일(2GB 차이)하지만, GPU 온도와 전력은 32B가 크게 높습니다. 동시 접속이 많은 서비스라면 8B가 압도적으로 유리합니다.

8B vs 32B 선택 가이드

기준	8B 추천	32B 추천
동시 사용자	50명+	20명 이하 (스트리밍 필수)
응답 품질	간단한 안내 / FAQ	복잡한 상담 / 분석
GPU 수	1장이면 충분	2장 이상 권장 (TP=2)
비용 효율	높음	3배 더 많은 리소스 필요

5프로덕션 아키텍처 권장

실전 권장 아키텍처

기본 트래픽: 8B 모델

대부분의 트래픽은 Qwen3-8B-AWQ로 빠르게 처리. FAQ, 간단한 안내, 분류 등에 최적. 동시 50명까지 쾌적하게 서비스 가능.

프리미엄: 32B 모델 (라우팅)

복잡한 상담, 분석이 필요한 질문만 32B로 라우팅. 동시 접속을 20명 이내로 관리. 반드시 SSE 스트리밍 적용.

스트리밍 필수

32B 사용 시 반드시 SSE 스트리밍 적용. 첫 토큰이 1~2초 이내로 나오므로 non-streaming 대비 체감 대기 시간이 대폭 개선됩니다.

GPU 1장 기준 서비스 용량

8B 모델

• 동시 20명: 쾌적 (3.5초)
• 동시 50명: 한계선 (SSE로 개선 가능)
• 동시 100명+: GPU 추가 또는 크로스서버 AI 추론으로 확장

32B 모델

• 동시 20명: SSE 필수 (10.4초)
• 동시 50명+: GPU 추가 또는 8B 전환
• 안정성: 온도 83°C로 한계 근접

운영 팁

VRAM은 동시 접속자 수와 거의 무관 — KV캐시가 사전 할당(pre-allocated)되어 있음

처리량은 동시 접속자 증가 시 오히려 올라감 — 배칭 효율 향상 (8B: 1,582 → 3,890 tok/s)

LoRA 5종 핫스왑 시 성능 저하 없음 — 멀티테넌트 서비스에 유리

전력 제한(350W)으로 온도를 22°C 낮출 수 있음 — 저부하 시 성능 손실 10% 이내

이 글의 핵심 정리

✓8B 모델: 동시 20명 쾌적(3.5초), 50명 한계선, 200명에서도 에러 0%
✓32B 모델: 동시 20명도 10.4초 — 스트리밍(SSE) 필수, 50명+ 시 GPU 추가 권장
✓8B vs 32B: 일관된 3.1배 속도 차이, VRAM은 거의 동일(2GB 차)
✓LoRA 5종 핫스왑 무손실 — 멀티테넌트 서비스에 최적
✓프로덕션: 8B로 대부분 처리 + 복잡한 질문만 32B 라우팅

함께 읽으면 좋은 글

GPU 전력 제한과 AI 성능 비교

350W 전력 제한으로 온도를 22°C 낮추는 실측 데이터

RTX 5090 vs RTX PRO 6000 AI 추론 속도 비교

두 GPU의 순정 추론 속도 직접 비교

RTX PRO 6000 로컬 LLM 6종 벤치마크

6개 모델의 품질·속도·환각까지 종합 비교

본 테스트는 2026년 2월에 수행되었습니다. SGLang 엔진 + AWQ 양자화 기준이며, 엔진 종류, 양자화 방식, 컨텍스트 길이 설정에 따라 결과가 달라질 수 있습니다. 모든 응답 시간은 non-streaming(전체 응답 완료 후 전달) 기준의 최악 케이스이며, SSE 스트리밍 사용 시 사용자 체감은 크게 개선됩니다. 본 콘텐츠의 비상업적 공유는 자유이나, 상업적 이용 시 문의 페이지를 통해 연락 바랍니다.

AI 서비스 구축이 필요하신가요?

Treeru가 로컬 LLM 기반의 맞춤형 AI 솔루션을 구축해 드립니다.

무료 상담 신청하기

Treeru

웹 개발, IT 인프라, AI 솔루션 분야의 실무 인사이트를 공유합니다. 기업의 디지털 전환을 돕는 IT 파트너, Treeru입니다.

부하테스트 동시접속 RTX PRO 6000 로컬AI SGLang 프로덕션

(5)

4.86/ 5

로그인 하면 댓글을 작성할 수 있습니다.

AI인프라담당자

2026-02-22

5.0

200명 동시 접속 데이터는 정말 귀하네요. 8B로 50명까지는 충분하다는 판단이 들었습니다. 바로 PoC 참고하겠습니다.

CTO김

2026-02-22

4.9

8B vs 32B 비교표가 핵심이네요. 3.1배 속도 차이면 대부분의 경우 8B가 맞겠습니다. 품질은 라우팅으로 해결하고.

백엔드개발자

2026-02-22

4.8

LoRA 5개 핫스왑 무손실 확인이 인상적입니다. 멀티테넌트 서비스 설계에 큰 참고가 됐어요.

1테스트 환경

하드웨어 및 소프트웨어

테스트 모델

28B 모델 부하 테스트 (Qwen3-8B-AWQ)

단순 동시 요청 (짧은 응답)

실제 채팅 패턴 시뮬레이션 (본격 부하)

332B 모델 부하 테스트 (Qwen3-32B-AWQ)

GPU 안정성 (32B)

48B vs 32B 비교

8B vs 32B 선택 가이드

5프로덕션 아키텍처 권장

실전 권장 아키텍처

GPU 1장 기준 서비스 용량

운영 팁

이 글의 핵심 정리

함께 읽으면 좋은 글

AI 서비스 구축이 필요하신가요?

댓글

관련 글

RTX 5090 vs RTX PRO 6000 AI 추론 속도 비교

GPU 전력 제한과 AI 성능 비교

RTX PRO 6000 로컬 LLM 6종 벤치마크