카테고리

GPU 전력 제한과 AI 성능 비교 - 언더볼팅·와트 제한 실측 데이터

2026-02-22

Treeru

GPU로 로컬 LLM을 24시간 서빙하면 전기료가 만만치 않습니다. 전력을 줄이면 성능은 얼마나 떨어질까? RTX 5090 언더볼팅과 RTX PRO 6000의 600W→450W→350W 전력 제한 효과를 llama-bench와 실제 동시 접속 부하 테스트로 실측했습니다.

2종

테스트 GPU

3단계

전력 설정

-22°C

최대 온도 감소

-19%

5090 언더볼팅 손실

1왜 전력 제한이 필요한가?

AI 추론 서버를 24/7로 운영하면 GPU 전력이 곧 전기료, 발열, 수명에 직결됩니다. 특히 RTX PRO 6000의 TDP 600W는 에어컨 없이 여름을 보내기 어려운 수준입니다.

전기료 절감

600W → 350W면 월 전기료 약 40% 절감. 연간으로 수십만원 차이.

온도 관리

GPU 온도가 낮으면 쓰로틀링 없이 안정적 성능 유지. 팬 소음도 감소.

GPU 수명

낮은 온도는 GPU 반도체 수명을 연장. 24/7 서버에서 특히 중요.

두 가지 접근법

언더볼팅은 GPU 코어 전압을 낮추는 방식이고, 와트 제한(Power Limit)은 nvidia-smi로 최대 전력 소비량을 강제 제한하는 방식입니다. 이 글에서는 두 방식 모두 실측합니다.

2RTX 5090 언더볼팅 실측

RTX 5090에서 Qwen2 32B Q4_K_M 모델로 순정 상태와 언더볼팅 후를 비교했습니다.

테스트	순정	언더볼팅	변화
프롬프트 처리 (pp512)	3,519 t/s	2,849 t/s	-19.0%
토큰 생성 (tg256)	69.83 t/s	67.20 t/s	-3.8%

RTX 5090 언더볼팅 판정

프롬프트 처리 속도가 19% 하락한 반면, 실제 사용자가 체감하는 토큰 생성 속도는 3.8%만 하락했습니다. 프롬프트 처리는 대역폭 집약적이라 전압 변화에 민감하지만, 토큰 생성은 연산 집약적이라 상대적으로 영향이 적습니다. 토큰 생성 기준으로는 언더볼팅 효과가 괜찮은 편입니다.

3RTX PRO 6000 와트 제한 실측

RTX PRO 6000에서 600W(순정) vs 450W 전력 제한 시 70B 및 72B 모델의 llama-bench 결과를 비교합니다.

모델	테스트	600W	450W	변화
Llama 3.3 70B	pp512	1,736 t/s	1,399 t/s	-19.4%
Llama 3.3 70B	tg256	33.75 t/s	33.30 t/s	-1.3%
Qwen2.5 72B	pp512	1,728 t/s	1,398 t/s	-19.1%
Qwen2.5 72B	tg256	30.84 t/s	30.50 t/s	-1.1%

핵심 발견: 토큰 생성은 거의 영향 없음

450W 제한에서 프롬프트 처리는 약 19% 하락하지만, 토큰 생성 속도는 1% 내외의 미미한 차이입니다. 사용자가 체감하는 응답 속도는 토큰 생성에 의해 결정되므로, 450W 제한은 성능 손실 거의 없이 전력을 25% 절감하는 셈입니다.

pp512 vs pp4096 (긴 프롬프트 영향)

긴 프롬프트(4096 토큰)에서는 전력 제한의 영향이 더 크게 나타납니다.

Llama 70B	600W	450W	변화
pp512	1,736 t/s	1,399 t/s	-19.4%
pp4096	1,411 t/s	1,154 t/s	-18.2%

4동시 접속 부하에서의 전력 효과

실제 프로덕션 환경에서는 여러 사용자가 동시에 요청합니다. 32B 모델(Qwen3-32B-AWQ) + LoRA 5종 구성에서 600W vs 350W의 차이를 실측했습니다.

응답 시간 비교

시나리오	600W 중앙값	350W 중앙값	성능 변화
20명 (평상시)	10.4초	11.6초	+11% 느림
50명 (점심 피크)	16.8초	18.5초	+10% 느림
100명 (이벤트)	26.6초	38.0초	+43% 느림
200명 (극한)	52.2초	71.4초	+37% 느림

온도 비교 — 전력 제한의 핵심 효과

시나리오	600W 온도	350W 온도	온도 감소
20명 (평상시)	61°C	47°C	-14°C
50명 (점심 피크)	74°C	56°C	-18°C
100명 (이벤트)	80°C	60°C	-20°C
200명 (극한)	83°C	61°C	-22°C

처리량 비교

시나리오	600W tok/s	350W tok/s	감소율
20명	650	565	-13%
50명	1,122	905	-19%
100명	1,385	1,059	-24%
200명	1,429	1,093	-24%

핵심 발견

• 온도 감소 효과가 극적: 200명 극한에서 83°C → 61°C (22°C 감소)
• 저부하(20~50명)에서 성능 손실 작음: 10~11%만 느려짐
• 고부하(100명+)에서 성능 손실 큼: 37~43% 느려짐
• 에러율 양쪽 모두 0%: 안정성은 동일
• 350W에서 200명 돌려도 61°C: 여름에도 안전한 수준

5운영 시나리오별 권장 설정

상황	권장 전력	이유
일상 운영 (동시 ~50명)	350~400W	온도 안정적, 성능 손실 10% 수준으로 전기료 대폭 절감
피크 이벤트 (100명+)	450~500W	성능과 온도의 균형. 고부하 성능 손실 최소화
단기 벤치마크·긴급 대응	600W (순정)	최대 성능이 필요한 순간에만 사용
여름 장기 운영	350W	온도 안전 최우선. 에어컨 비용 절감 효과까지

전력 제한 적용 방법

# 현재 전력 상태 확인
nvidia-smi -q -d POWER

# 전력 제한 설정 (예: 350W)
sudo nvidia-smi -pl 350

# 순정으로 복원
sudo nvidia-smi -pl 600

시스템 재부팅 시 초기화되므로, 부팅 스크립트나 systemd 서비스에 등록하는 것을 권장합니다.

이 글의 핵심 정리

✓RTX 5090 언더볼팅: 토큰 생성 -3.8%, 프롬프트 처리 -19% — 토큰 기준으로는 효과적
✓RTX PRO 6000 450W: 토큰 생성 -1.3%, 프롬프트 처리 -19% — 토큰 거의 영향 없음
✓350W 동시 접속: 저부하(~50명) 10% 손실, 고부하(100명+) 37~43% 손실
✓온도 감소 극적: 200명 극한에서 83°C → 61°C (22°C 감소)
✓일상 운영 350~400W 권장: 전기료 절감 + 온도 안정 + 성능 손실 최소

함께 읽으면 좋은 글

RTX 5090 vs RTX PRO 6000 AI 추론 속도 비교

순정 상태에서 두 GPU의 추론 속도를 직접 비교

로컬 LLM 동시 접속 부하 테스트

PRO 6000으로 동시 200명까지 처리하는 실전 부하 데이터

RTX PRO 6000 로컬 LLM 6종 벤치마크

6개 모델의 품질·속도·환각까지 종합 비교

본 테스트는 2026년 2월에 수행되었습니다. llama-bench 결과는 드라이버 버전, BIOS 설정, 주변 온도에 따라 달라질 수 있습니다. 동시 접속 부하 테스트는 SGLang 엔진 + AWQ 양자화 기준이며, 엔진과 설정에 따라 결과가 상이할 수 있습니다. 본 콘텐츠의 비상업적 공유는 자유이나, 상업적 이용 시 문의 페이지를 통해 연락 바랍니다.

AI 서비스 구축이 필요하신가요?

Treeru가 로컬 LLM 기반의 맞춤형 AI 솔루션을 구축해 드립니다.

무료 상담 신청하기