NVIDIA 드라이버 595 업그레이드 실측 - RTX PRO 6000 Blackwell AI 성능 변화
2026년 3월 24일, NVIDIA가 595.58.03 드라이버를 출시했습니다. Blackwell 아키텍처(RTX PRO 6000)에서 텐서 메모리 버그를 수정하고, Production 브랜치로 전환된 이번 업데이트를 AI 추론 서버(k1)에 즉시 적용해 성능 변화를 실측했습니다.apt에는 아직 없고 NVIDIA 공식 .run 파일로만 설치 가능한 따끈따끈한 버전입니다.
590→595
드라이버 버전
+1.6%
단일 추론 TPS
CUDA 13.2
업그레이드
600W
Power Limit 주의
1595 드라이버 변경점
590(New Feature 브랜치)에서 595(Production 브랜치)로 전환되었습니다. AI 추론 워크로드에 직접 영향을 주는 변경사항을 중심으로 정리했습니다.
| 항목 | 590.48.01 | 595.58.03 |
|---|---|---|
| Branch | New Feature | Production (안정) |
| CUDA | 13.1 | 13.2 |
| 커널 모듈 | Proprietary (DKMS) | Open (DKMS) |
| 출시일 | 2025-12-08 | 2026-03-24 |
AI 관련 주요 변경사항
CudaNoStablePerfLimit — P0 PState 도달 가능
기존 590에서는 CUDA 앱이 P2 PState에 제한되어 있었습니다. 595부터 P0(최고 클럭)까지 도달할 수 있어 최대 성능을 끌어낼 수 있습니다. 다만 유휴 상태에서도 P0를 유지하므로 불필요한 전력 소비가 생깁니다.
cuTensorMapEncodeTiled() 버그 수정 — Blackwell 핵심 패치
128KB 미만 크기의 텐서에서 illegal memory access 오류가 발생하던 버그가 수정되었습니다. Blackwell(RTX PRO 6000, RTX 5090 등) 사용자에게는 안정성 측면의 핵심 패치입니다.
VRAM → 시스템 메모리 폴백 개선
VRAM이 부족할 때 시스템 메모리로 오버플로우되는 로직이 개선되었습니다. 96GB VRAM이 큰 모델에서는 직접 체감하기 어렵지만, 다중 모델 동시 서빙 시 유리합니다.
왜 apt에 없나?
Ubuntu 공식 저장소에 드라이버가 등록되기까지는 보통 수주~수개월이 걸립니다. 2026-03-25 기준 595는 아직 nvidia-driver-595 패키지가 없어 NVIDIA 공식 사이트에서 .run 파일로만 설치할 수 있습니다.
2테스트 환경
동일한 서버(k1)에서 590 드라이버 상태로 먼저 측정하고, 595로 업그레이드 후 동일 조건으로 재측정했습니다. SGLang 추론 테스트 모델은 Qwen3-8B-AWQ입니다.
3벤치마크 결과
SGLang 추론 성능 (Qwen3-8B-AWQ)
동일 모델로 3회씩 반복 측정하여 단일 요청 TPS(tokens/sec)와 동시 4요청 Aggregate TPS를 비교했습니다.
| 테스트 | 590 (전) | 595 (후) | 변화 |
|---|---|---|---|
| 단일 요청 TPS (Run 1) | 211.6 | 215.2 | +1.7% |
| 단일 요청 TPS (Run 2) | 210.0 | 215.2 | +2.5% |
| 단일 요청 TPS (Run 3) | 213.7 | 215.3 | +0.7% |
| 단일 평균 TPS | 211.8 | 215.2 | +1.6% |
| 동시 4요청 Aggregate TPS | 653.7 | 601.4 | -8.0% |
동시 요청 -8%는 실제 성능 저하가 아닙니다
동시 4요청 테스트에서 Aggregate TPS가 653.7→601.4로 줄었지만, 이는 응답 길이 변동(드라이버가 아닌 모델 확률 샘플링)에 의한 오차 범위입니다. 단일 요청 3회 평균은 +1.6% 일관되게 향상되어 실질적인 성능 차이는 미미합니다.
CUDA 연산 벤치마크 (MatMul 4096×4096)
| 정밀도 | 590 (전) | 595 (후) | 변화 |
|---|---|---|---|
| FP32 | 77.6 TFLOPS | 77.6 TFLOPS | 동일 |
| FP16 | 315.3 TFLOPS | 319.6 TFLOPS | +1.4% |
| BF16 | 419.1 TFLOPS | 423.3 TFLOPS | +1.0% |
AI 추론에서 실질적으로 중요한 FP16/BF16 연산에서 1~1.4% 소폭 향상이 확인됩니다. FP32는 변화 없음. 메모리 대역폭(Memory Copy BW)은 1468→1467 GB/s로 사실상 동일합니다.
4P-State 및 Power Limit 변화
성능보다 운영 측면에서 더 중요한 변화가 여기 있습니다. 업그레이드 후 반드시 확인해야 할 두 가지입니다.
| 항목 | 590 (전) | 595 (후) |
|---|---|---|
| 유휴 P-State | P8 | P0 |
| 기본 Power Cap | 350W | 600W (자동 리셋) |
| 부하 시 GPU 클럭 | 2602 MHz | 2647 MHz (+1.7%) |
| 부하 시 Power Draw | 79.82 W | 257.50 W |
| 부하 시 온도 | 28°C | 38°C |
| 부하 시 P-State | P1 | P1 |
Power Limit 600W로 자동 리셋 — 즉시 재설정 필요
595 드라이버 설치 후 Power Limit이 기본값 600W로 풀립니다. RTX PRO 6000의 TDP는 300W이지만 최대 600W까지 허용됩니다. 전력 요금과 냉각 부담을 고려해 350W로 재설정했습니다. (GPU 전력 제한 성능 비교 참고)
# Power Limit 재설정 sudo nvidia-smi -pl 350 # 확인 nvidia-smi --query-gpu=power.limit --format=csv,noheader
유휴 P-State P8 → P0 변경 — Persistence Mode 필요
590에서는 유휴 시 P8(최저 전력)을 유지했으나, 595부터는 P0(최고 클럭)로 고정됩니다. CudaNoStablePerfLimit 변경에 따른 것으로, CUDA 앱 최초 실행 시 클럭 안정화 시간을 없애는 대신 유휴 전력이 소폭 올라갑니다. Persistence Mode가 비활성화된 경우 함께 설정해 주세요.
# Persistence Mode 활성화 sudo nvidia-smi -pm 1
5업그레이드 과정 주의사항
595는 apt 미등록 상태이므로 NVIDIA 공식 .run 파일로 설치해야 합니다. 여러 번 해보면서 주의해야 할 점을 정리했습니다.
X서버 / GDM 중지 + 커널 모듈 언로드
.run 파일 설치 전 nvidia 관련 커널 모듈이 사용 중이면 설치에 실패합니다. systemctl stop gdm이나 init 3으로 그래픽 모드를 해제하고 nvidia 모듈을 언로드합니다.
sudo systemctl stop gdm sudo modprobe -r nvidia-drm nvidia-modeset nvidia-uvm nvidia
커널 버전 변경 시 DKMS 수동 빌드
커널 업그레이드 후 드라이버를 설치하거나, 반대로 드라이버 설치 후 커널이 변경된 경우 DKMS 모듈을 수동으로 빌드해야 합니다.
sudo dkms build nvidia/595.58.03 -k $(uname -r) sudo dkms install nvidia/595.58.03 -k $(uname -r) sudo modprobe nvidia nvidia-uvm nvidia-modeset nvidia-drm
서비스 재시작 후 Power Limit 재설정
재부팅하면 Power Limit이 다시 600W로 돌아옵니다. 서버 시작 스크립트나 systemd 서비스에 재설정 명령을 추가해두는 것이 좋습니다.
# /etc/rc.local 또는 systemd ExecStartPre에 추가 sudo nvidia-smi -pl 350 sudo nvidia-smi -pm 1
이 글의 핵심 정리
- ✓595는 Production 브랜치 + CUDA 13.2 + Blackwell 텐서 버그 수정 — 장기 운영 서버 업그레이드 가치 있음
- ✓AI 추론 성능 향상은 단일 +1.6%, CUDA FP16/BF16 +1.0~1.4% — 체감 차이는 미미
- ✓업그레이드 후 Power Limit이 600W로 자동 리셋됨 — 즉시 350W로 재설정 필수
- ✓유휴 P-State P8→P0 변경 — CUDA 앱 초기 레이턴시 개선 대신 유휴 전력 소폭 증가
- ✓2026-03-25 기준 apt 미등록 — NVIDIA 공식 .run 파일로만 설치 가능
결론
595 드라이버는 극적인 성능 향상이 목적이 아닙니다. Blackwell에서 발생하던 텐서 메모리 버그가 수정되고, CUDA가 13.2로 올라갔으며, New Feature 브랜치의 불안정성을 Production으로 해결한 것이 핵심입니다.
AI 추론 서버라면 안정성 + CUDA 최신화 목적으로 업그레이드를 권장합니다. 단, Power Limit 600W 자동 리셋은 반드시 확인해야 합니다. 모르고 지나치면 전력 요금과 GPU 온도에 직접 영향을 줍니다.
apt에 등록되면 더 쉽게 설치할 수 있겠지만, 빠른 패치가 필요한 Blackwell 사용자라면 지금 .run 파일 설치도 충분히 시도할 만합니다.
본 테스트는 2026년 3월 25일 k1 서버(RTX PRO 6000 Blackwell)에서 수행되었습니다. 동일 서버에서 590 → 595 순서로 측정했으며, 벤치마크 수치는 실제 측정값입니다. 본 콘텐츠의 비상업적 공유는 자유이나, 상업적 이용 시 문의 페이지를 통해 연락 바랍니다.
댓글
(3개)로그인하면 댓글을 작성할 수 있습니다.
Power Limit이 600W로 풀리는 건 처음 알았네요. 업그레이드 전에 이 글 봤더라면 좋았을 것 같습니다.
Blackwell 텐서 메모리 버그 수정이 핵심이군요. 128KB 미만 텐서 쓰는 작업에서 크리티컬한 버그였을 것 같아요.
Production 브랜치로 이동하면 장기 운영 안정성이 다르죠. CUDA 13.2도 챙겼고 실용적인 업그레이드네요.
관련 글
© 2026 TreeRU. All rights reserved.
본 콘텐츠의 저작권은 TreeRU에 있으며, 출처를 밝히지 않은 무단 전재 및 재배포를 금합니다. 인용 시 출처(treeru.com)를 반드시 명시해 주세요.