treeru.com
AI

로컬 LLM 동시 접속 부하 테스트 - RTX PRO 6000으로 몇 명까지 처리할까?

2026-02-22
Treeru

로컬 LLM 하나로 동시에 몇 명까지 서비스할 수 있을까?RTX PRO 6000(96GB) 단일 GPU에 8B 모델과 32B 모델을 올리고, 동시 1명부터 200명까지 실제 멀티턴 대화 패턴으로 부하 테스트한 결과를 공개합니다.

200명

최대 동시 접속

0%

에러율 (전 구간)

3.1x

8B vs 32B 속도 차

82GB

VRAM 안정 사용

1테스트 환경

실제 프로덕션 환경을 시뮬레이션하기 위해 멀티턴 대화 + LoRA 어댑터 핫스왑 조건에서 테스트했습니다.

하드웨어 및 소프트웨어

GPU: NVIDIA RTX PRO 6000 (96GB VRAM)
서빙 엔진: SGLang (OpenAI-compatible API)
양자화: AWQ 4-bit
LoRA: 업무별 어댑터 5종 (핫스왑)
컨텍스트: 4096 토큰
메모리 할당: 85% (mem-fraction-static)

테스트 모델

Qwen3-8B-AWQ

VRAM ~82GB (모델 + LoRA 5종 + KV캐시)

Qwen3-32B-AWQ

VRAM ~84.5GB (모델 + LoRA 5종 + KV캐시)

SGLang 설정 및 다중 모델 서빙은 SGLang 서빙 가이드를 참고하세요.

테스트 방법

각 사용자는 2~4턴 멀티턴 대화를 수행하며, max_tokens=500, 컨텍스트를 유지합니다. 사용자 간 읽기 시간(0.3~1초)을 포함해 실제 사용 패턴을 최대한 재현했습니다. 모든 측정은 non-streaming(전체 응답 완료 후 전달) 기준으로, 최악 케이스를 반영합니다.

28B 모델 부하 테스트 (Qwen3-8B-AWQ)

단순 동시 요청 (짧은 응답)

max_tokens=200의 짧은 응답으로 동시 요청 처리 능력을 먼저 확인합니다.

동시 접속총 요청중앙값P95GPU 온도
1명5건428ms1,006ms30°C
5명25건694ms1,116ms31°C
10명50건803ms1,214ms33°C
20명60건901ms1,596ms35°C
50명100건1,172ms2,063ms36°C
100명100건1,285ms1,967ms39°C

짧은 응답은 100명도 거뜬

에러율 전 구간 0%. 100명 동시 요청에서도 최대 2초 — 짧은 응답(FAQ, 분류 등)은 GPU 1장으로 충분합니다.

실제 채팅 패턴 시뮬레이션 (본격 부하)

시나리오동시 사용자중앙값P95GPU 온도처리량
평상시 오후20명3.5초4.2초43°C1,582 tok/s
점심 피크50명5.4초6.5초48°C2,590 tok/s
이벤트 몰림100명8.6초10.9초62°C3,469 tok/s
극한 스트레스200명16.9초24.1초70°C3,890 tok/s

20명

3.5초

쾌적

50명

5.4초

약간 느림

100명

8.6초

답답함

200명

16.9초

사용 어려움

8B 사용자 체감 판정 (non-streaming 기준)

동시 20명까지 쾌적(3.5초), 50명이 한계선(5.4초). 스트리밍(SSE) 사용 시 첫 토큰이 1초 이내로 나오므로 체감 대기 시간은 실측보다 훨씬 짧습니다. 에러율은 200명 극한에서도 0%.

332B 모델 부하 테스트 (Qwen3-32B-AWQ)

더 높은 응답 품질을 위해 32B 모델을 사용하면 동시 처리 능력은 어떻게 달라질까요?

시나리오동시 사용자중앙값P95GPU 온도GPU 전력처리량
평상시 오후20명10.4초11.5초61°C566W650 tok/s
점심 피크50명16.8초18.5초74°C600W1,122 tok/s
이벤트 몰림100명26.6초34.8초80°C606W1,385 tok/s
극한 스트레스200명52.2초72.8초83°C606W1,429 tok/s

32B 모델 주의사항

  • • 200명 극한에서 GPU 온도 83°C — 안전 한계(85°C)에 근접
  • • 전력도 TDP(600W)에 도달 → 장시간 운영 시 쓰로틀링 가능성
  • • non-streaming 기준 20명도 10.4초로 답답함 → 스트리밍(SSE) 필수

GPU 안정성 (32B)

항목평상시 (20명)극한 (200명)안전 한계
온도61°C83°C85°C
전력566W606W~600W TDP
VRAM84.5GB84.5GB95.6GB
에러율0%0%

48B vs 32B 비교

동일한 GPU, 동일한 테스트 조건에서 모델 크기에 따른 차이를 직접 비교합니다.

항목Qwen3-8BQwen3-32B배수
VRAM 사용량82.3GB84.5GB1.03x
20명 중앙값3.5초10.4초3.0x 느림
50명 중앙값5.4초16.8초3.1x 느림
100명 중앙값8.6초26.6초3.1x 느림
200명 중앙값16.9초52.2초3.1x 느림
20명 처리량1,582 tok/s650 tok/s0.41x
200명 처리량3,890 tok/s1,429 tok/s0.37x
200명 GPU 온도70°C83°C+13°C
200명 전력532W606W+74W
에러율0%0%동일

핵심: 일관된 3.1배 속도 차이

동시 접속자 수와 관계없이 32B는 8B 대비 일관적으로 약 3.1배 느립니다. VRAM 사용량은 거의 동일(2GB 차이)하지만, GPU 온도와 전력은 32B가 크게 높습니다. 동시 접속이 많은 서비스라면 8B가 압도적으로 유리합니다.

8B vs 32B 선택 가이드

기준8B 추천32B 추천
동시 사용자50명+20명 이하 (스트리밍 필수)
응답 품질간단한 안내 / FAQ복잡한 상담 / 분석
GPU 수1장이면 충분2장 이상 권장 (TP=2)
비용 효율높음3배 더 많은 리소스 필요

5프로덕션 아키텍처 권장

실전 권장 아키텍처

1

기본 트래픽: 8B 모델

대부분의 트래픽은 Qwen3-8B-AWQ로 빠르게 처리. FAQ, 간단한 안내, 분류 등에 최적. 동시 50명까지 쾌적하게 서비스 가능.

2

프리미엄: 32B 모델 (라우팅)

복잡한 상담, 분석이 필요한 질문만 32B로 라우팅. 동시 접속을 20명 이내로 관리. 반드시 SSE 스트리밍 적용.

3

스트리밍 필수

32B 사용 시 반드시 SSE 스트리밍 적용. 첫 토큰이 1~2초 이내로 나오므로 non-streaming 대비 체감 대기 시간이 대폭 개선됩니다.

GPU 1장 기준 서비스 용량

8B 모델

  • • 동시 20명: 쾌적 (3.5초)
  • • 동시 50명: 한계선 (SSE로 개선 가능)
  • • 동시 100명+: GPU 추가 또는 크로스서버 AI 추론으로 확장

32B 모델

  • • 동시 20명: SSE 필수 (10.4초)
  • • 동시 50명+: GPU 추가 또는 8B 전환
  • • 안정성: 온도 83°C로 한계 근접

운영 팁

VRAM은 동시 접속자 수와 거의 무관 — KV캐시가 사전 할당(pre-allocated)되어 있음
처리량은 동시 접속자 증가 시 오히려 올라감 — 배칭 효율 향상 (8B: 1,582 → 3,890 tok/s)
LoRA 5종 핫스왑 시 성능 저하 없음 — 멀티테넌트 서비스에 유리
전력 제한(350W)으로 온도를 22°C 낮출 수 있음 — 저부하 시 성능 손실 10% 이내

이 글의 핵심 정리

  • 8B 모델: 동시 20명 쾌적(3.5초), 50명 한계선, 200명에서도 에러 0%
  • 32B 모델: 동시 20명도 10.4초 — 스트리밍(SSE) 필수, 50명+ 시 GPU 추가 권장
  • 8B vs 32B: 일관된 3.1배 속도 차이, VRAM은 거의 동일(2GB 차)
  • LoRA 5종 핫스왑 무손실 — 멀티테넌트 서비스에 최적
  • 프로덕션: 8B로 대부분 처리 + 복잡한 질문만 32B 라우팅

본 테스트는 2026년 2월에 수행되었습니다. SGLang 엔진 + AWQ 양자화 기준이며, 엔진 종류, 양자화 방식, 컨텍스트 길이 설정에 따라 결과가 달라질 수 있습니다. 모든 응답 시간은 non-streaming(전체 응답 완료 후 전달) 기준의 최악 케이스이며, SSE 스트리밍 사용 시 사용자 체감은 크게 개선됩니다. 본 콘텐츠의 비상업적 공유는 자유이나, 상업적 이용 시 문의 페이지를 통해 연락 바랍니다.

AI 서비스 구축이 필요하신가요?

Treeru가 로컬 LLM 기반의 맞춤형 AI 솔루션을 구축해 드립니다.

무료 상담 신청하기
T

Treeru

웹 개발, IT 인프라, AI 솔루션 분야의 실무 인사이트를 공유합니다. 기업의 디지털 전환을 돕는 IT 파트너, Treeru입니다.

공유

댓글

(5개)
4.86/ 5

로그인하면 댓글을 작성할 수 있습니다.

2026-02-22
555.0

200명 동시 접속 데이터는 정말 귀하네요. 8B로 50명까지는 충분하다는 판단이 들었습니다. 바로 PoC 참고하겠습니다.

2026-02-22
4.954.9

8B vs 32B 비교표가 핵심이네요. 3.1배 속도 차이면 대부분의 경우 8B가 맞겠습니다. 품질은 라우팅으로 해결하고.

2026-02-22
4.854.8

LoRA 5개 핫스왑 무손실 확인이 인상적입니다. 멀티테넌트 서비스 설계에 큰 참고가 됐어요.

관련 글

© 2026 TreeRU. All rights reserved.

본 콘텐츠의 저작권은 TreeRU에 있으며, 출처를 밝히지 않은 무단 전재 및 재배포를 금합니다. 인용 시 출처(treeru.com)를 반드시 명시해 주세요.