treeru.com
AI

GPU 전력 제한과 AI 성능 비교 - 언더볼팅·와트 제한 실측 데이터

2026-02-22
Treeru

GPU로 로컬 LLM을 24시간 서빙하면 전기료가 만만치 않습니다. 전력을 줄이면 성능은 얼마나 떨어질까? RTX 5090 언더볼팅과 RTX PRO 6000의 600W→450W→350W 전력 제한 효과를 llama-bench와 실제 동시 접속 부하 테스트로 실측했습니다.

2종

테스트 GPU

3단계

전력 설정

-22°C

최대 온도 감소

-19%

5090 언더볼팅 손실

1왜 전력 제한이 필요한가?

AI 추론 서버를 24/7로 운영하면 GPU 전력이 곧 전기료, 발열, 수명에 직결됩니다. 특히 RTX PRO 6000의 TDP 600W는 에어컨 없이 여름을 보내기 어려운 수준입니다.

전기료 절감

600W → 350W면 월 전기료 약 40% 절감. 연간으로 수십만원 차이.

온도 관리

GPU 온도가 낮으면 쓰로틀링 없이 안정적 성능 유지. 팬 소음도 감소.

GPU 수명

낮은 온도는 GPU 반도체 수명을 연장. 24/7 서버에서 특히 중요.

두 가지 접근법

언더볼팅은 GPU 코어 전압을 낮추는 방식이고, 와트 제한(Power Limit)은 nvidia-smi로 최대 전력 소비량을 강제 제한하는 방식입니다. 이 글에서는 두 방식 모두 실측합니다.

2RTX 5090 언더볼팅 실측

RTX 5090에서 Qwen2 32B Q4_K_M 모델로 순정 상태와 언더볼팅 후를 비교했습니다.

테스트순정언더볼팅변화
프롬프트 처리 (pp512)3,519 t/s2,849 t/s-19.0%
토큰 생성 (tg256)69.83 t/s67.20 t/s-3.8%

RTX 5090 언더볼팅 판정

프롬프트 처리 속도가 19% 하락한 반면, 실제 사용자가 체감하는 토큰 생성 속도는 3.8%만 하락했습니다. 프롬프트 처리는 대역폭 집약적이라 전압 변화에 민감하지만, 토큰 생성은 연산 집약적이라 상대적으로 영향이 적습니다. 토큰 생성 기준으로는 언더볼팅 효과가 괜찮은 편입니다.

3RTX PRO 6000 와트 제한 실측

RTX PRO 6000에서 600W(순정) vs 450W 전력 제한 시 70B 및 72B 모델의 llama-bench 결과를 비교합니다.

모델테스트600W450W변화
Llama 3.3 70Bpp5121,736 t/s1,399 t/s-19.4%
tg25633.75 t/s33.30 t/s-1.3%
Qwen2.5 72Bpp5121,728 t/s1,398 t/s-19.1%
tg25630.84 t/s30.50 t/s-1.1%

핵심 발견: 토큰 생성은 거의 영향 없음

450W 제한에서 프롬프트 처리는 약 19% 하락하지만, 토큰 생성 속도는 1% 내외의 미미한 차이입니다. 사용자가 체감하는 응답 속도는 토큰 생성에 의해 결정되므로, 450W 제한은 성능 손실 거의 없이 전력을 25% 절감하는 셈입니다.

pp512 vs pp4096 (긴 프롬프트 영향)

긴 프롬프트(4096 토큰)에서는 전력 제한의 영향이 더 크게 나타납니다.

Llama 70B600W450W변화
pp5121,736 t/s1,399 t/s-19.4%
pp40961,411 t/s1,154 t/s-18.2%

4동시 접속 부하에서의 전력 효과

실제 프로덕션 환경에서는 여러 사용자가 동시에 요청합니다. 32B 모델(Qwen3-32B-AWQ) + LoRA 5종 구성에서 600W vs 350W의 차이를 실측했습니다.

응답 시간 비교

시나리오600W 중앙값350W 중앙값성능 변화
20명 (평상시)10.4초11.6초+11% 느림
50명 (점심 피크)16.8초18.5초+10% 느림
100명 (이벤트)26.6초38.0초+43% 느림
200명 (극한)52.2초71.4초+37% 느림

온도 비교 — 전력 제한의 핵심 효과

시나리오600W 온도350W 온도온도 감소
20명 (평상시)61°C47°C-14°C
50명 (점심 피크)74°C56°C-18°C
100명 (이벤트)80°C60°C-20°C
200명 (극한)83°C61°C-22°C

처리량 비교

시나리오600W tok/s350W tok/s감소율
20명650565-13%
50명1,122905-19%
100명1,3851,059-24%
200명1,4291,093-24%

핵심 발견

  • 온도 감소 효과가 극적: 200명 극한에서 83°C → 61°C (22°C 감소)
  • 저부하(20~50명)에서 성능 손실 작음: 10~11%만 느려짐
  • 고부하(100명+)에서 성능 손실 큼: 37~43% 느려짐
  • 에러율 양쪽 모두 0%: 안정성은 동일
  • 350W에서 200명 돌려도 61°C: 여름에도 안전한 수준

5운영 시나리오별 권장 설정

상황권장 전력이유
일상 운영 (동시 ~50명)350~400W온도 안정적, 성능 손실 10% 수준으로 전기료 대폭 절감
피크 이벤트 (100명+)450~500W성능과 온도의 균형. 고부하 성능 손실 최소화
단기 벤치마크·긴급 대응600W (순정)최대 성능이 필요한 순간에만 사용
여름 장기 운영350W온도 안전 최우선. 에어컨 비용 절감 효과까지

전력 제한 적용 방법

# 현재 전력 상태 확인 nvidia-smi -q -d POWER # 전력 제한 설정 (예: 350W) sudo nvidia-smi -pl 350 # 순정으로 복원 sudo nvidia-smi -pl 600

시스템 재부팅 시 초기화되므로, 부팅 스크립트나 systemd 서비스에 등록하는 것을 권장합니다.

이 글의 핵심 정리

  • RTX 5090 언더볼팅: 토큰 생성 -3.8%, 프롬프트 처리 -19% — 토큰 기준으로는 효과적
  • RTX PRO 6000 450W: 토큰 생성 -1.3%, 프롬프트 처리 -19% — 토큰 거의 영향 없음
  • 350W 동시 접속: 저부하(~50명) 10% 손실, 고부하(100명+) 37~43% 손실
  • 온도 감소 극적: 200명 극한에서 83°C → 61°C (22°C 감소)
  • 일상 운영 350~400W 권장: 전기료 절감 + 온도 안정 + 성능 손실 최소

본 테스트는 2026년 2월에 수행되었습니다. llama-bench 결과는 드라이버 버전, BIOS 설정, 주변 온도에 따라 달라질 수 있습니다. 동시 접속 부하 테스트는 SGLang 엔진 + AWQ 양자화 기준이며, 엔진과 설정에 따라 결과가 상이할 수 있습니다. 본 콘텐츠의 비상업적 공유는 자유이나, 상업적 이용 시 문의 페이지를 통해 연락 바랍니다.

AI 서비스 구축이 필요하신가요?

Treeru가 로컬 LLM 기반의 맞춤형 AI 솔루션을 구축해 드립니다.

무료 상담 신청하기
T

Treeru

웹 개발, IT 인프라, AI 솔루션 분야의 실무 인사이트를 공유합니다. 기업의 디지털 전환을 돕는 IT 파트너, Treeru입니다.

공유

댓글

(4개)
4.85/ 5

로그인하면 댓글을 작성할 수 있습니다.

2026-02-22
555.0

전력 제한으로 온도가 22도나 내려가다니 놀랍네요. 여름에 에어컨 비용까지 줄일 수 있겠습니다.

2026-02-22
4.954.9

350W에서 저부하 10% 성능 손실은 충분히 감수할 수 있는 수준이네요. 바로 적용해봐야겠습니다.

2026-02-22
4.854.8

전기료와 냉각 비용까지 고려하면 전력 제한이 TCO 최적화에 필수라는 걸 실감합니다.

관련 글

© 2026 TreeRU. All rights reserved.

본 콘텐츠의 저작권은 TreeRU에 있으며, 출처를 밝히지 않은 무단 전재 및 재배포를 금합니다. 인용 시 출처(treeru.com)를 반드시 명시해 주세요.