카테고리

NVIDIA 드라이버 595 업그레이드 실측 - RTX PRO 6000 Blackwell AI 성능 변화

2026-03-25

Treeru

2026년 3월 24일, NVIDIA가 595.58.03 드라이버를 출시했습니다. Blackwell 아키텍처(RTX PRO 6000)에서 텐서 메모리 버그를 수정하고, Production 브랜치로 전환된 이번 업데이트를 AI 추론 서버에 즉시 적용해 성능 변화를 실측했습니다.apt에는 아직 없고 NVIDIA 공식 .run 파일로만 설치 가능한 따끈따끈한 버전입니다.

590→595

드라이버 버전

+1.6%

단일 추론 TPS

CUDA 13.2

업그레이드

600W

Power Limit 주의

1595 드라이버 변경점

590(New Feature 브랜치)에서 595(Production 브랜치)로 전환되었습니다. AI 추론 워크로드에 직접 영향을 주는 변경사항을 중심으로 정리했습니다.

항목	590.48.01	595.58.03
Branch	New Feature	Production (안정)
CUDA	13.1	13.2
커널 모듈	Proprietary (DKMS)	Open (DKMS)
출시일	2025-12-08	2026-03-24

AI 관련 주요 변경사항

CudaNoStablePerfLimit — P0 PState 도달 가능

기존 590에서는 CUDA 앱이 P2 PState에 제한되어 있었습니다. 595부터 P0(최고 클럭)까지 도달할 수 있어 최대 성능을 끌어낼 수 있습니다. 다만 유휴 상태에서도 P0를 유지하므로 불필요한 전력 소비가 생깁니다.

cuTensorMapEncodeTiled() 버그 수정 — Blackwell 핵심 패치

128KB 미만 크기의 텐서에서 illegal memory access 오류가 발생하던 버그가 수정되었습니다. Blackwell(RTX PRO 6000, RTX 5090 등) 사용자에게는 안정성 측면의 핵심 패치입니다.

VRAM → 시스템 메모리 폴백 개선

VRAM이 부족할 때 시스템 메모리로 오버플로우되는 로직이 개선되었습니다. 96GB VRAM이 큰 모델에서는 직접 체감하기 어렵지만, 다중 모델 동시 서빙 시 유리합니다.

왜 apt에 없나?

Ubuntu 공식 저장소에 드라이버가 등록되기까지는 보통 수주~수개월이 걸립니다. 2026-03-25 기준 595는 아직 nvidia-driver-595 패키지가 없어 NVIDIA 공식 사이트에서 .run 파일로만 설치할 수 있습니다.

2테스트 환경

CPU16코어 / 32스레드 (고성능 데스크톱 CPU)

RAM96GB DDR5-4800 (48GB × 2)

GPUNVIDIA RTX PRO 6000 Blackwell (96GB, 350W limit)

OSUbuntu 24.04, Linux 6.17.0-19-generic

PyTorch2.9.1+cu128

SGLang0.5.9

FlashInfer0.6.3

sgl-kernel0.3.21

Triton3.5.1

동일한 서버에서 590 드라이버 상태로 먼저 측정하고, 595로 업그레이드 후 동일 조건으로 재측정했습니다. SGLang 추론 테스트 모델은 Qwen3-8B-AWQ입니다.

3벤치마크 결과

SGLang 추론 성능 (Qwen3-8B-AWQ)

동일 모델로 3회씩 반복 측정하여 단일 요청 TPS(tokens/sec)와 동시 4요청 Aggregate TPS를 비교했습니다.

테스트	590 (전)	595 (후)	변화
단일 요청 TPS (Run 1)	211.6	215.2	+1.7%
단일 요청 TPS (Run 2)	210.0	215.2	+2.5%
단일 요청 TPS (Run 3)	213.7	215.3	+0.7%
단일 평균 TPS	211.8	215.2	+1.6%
동시 4요청 Aggregate TPS	653.7	601.4	-8.0%

동시 요청 -8%는 실제 성능 저하가 아닙니다

동시 4요청 테스트에서 Aggregate TPS가 653.7→601.4로 줄었지만, 이는 응답 길이 변동(드라이버가 아닌 모델 확률 샘플링)에 의한 오차 범위입니다. 단일 요청 3회 평균은 +1.6% 일관되게 향상되어 실질적인 성능 차이는 미미합니다.

CUDA 연산 벤치마크 (MatMul 4096×4096)

정밀도	590 (전)	595 (후)	변화
FP32	77.6 TFLOPS	77.6 TFLOPS	동일
FP16	315.3 TFLOPS	319.6 TFLOPS	+1.4%
BF16	419.1 TFLOPS	423.3 TFLOPS	+1.0%

AI 추론에서 실질적으로 중요한 FP16/BF16 연산에서 1~1.4% 소폭 향상이 확인됩니다. FP32는 변화 없음. 메모리 대역폭(Memory Copy BW)은 1468→1467 GB/s로 사실상 동일합니다.

4P-State 및 Power Limit 변화

성능보다 운영 측면에서 더 중요한 변화가 여기 있습니다. 업그레이드 후 반드시 확인해야 할 두 가지입니다.

항목	590 (전)	595 (후)
유휴 P-State	P8	P0
기본 Power Cap	350W	600W (자동 리셋)
부하 시 GPU 클럭	2602 MHz	2647 MHz (+1.7%)
부하 시 Power Draw	79.82 W	257.50 W
부하 시 온도	28°C	38°C
부하 시 P-State	P1	P1

Power Limit 600W로 자동 리셋 — 즉시 재설정 필요

595 드라이버 설치 후 Power Limit이 기본값 600W로 풀립니다. RTX PRO 6000의 TDP는 300W이지만 최대 600W까지 허용됩니다. 전력 요금과 냉각 부담을 고려해 350W로 재설정했습니다. (GPU 전력 제한 성능 비교 참고)

# Power Limit 재설정
sudo nvidia-smi -pl 350

# 확인
nvidia-smi --query-gpu=power.limit --format=csv,noheader

유휴 P-State P8 → P0 변경 — Persistence Mode 필요

590에서는 유휴 시 P8(최저 전력)을 유지했으나, 595부터는 P0(최고 클럭)로 고정됩니다. CudaNoStablePerfLimit 변경에 따른 것으로, CUDA 앱 최초 실행 시 클럭 안정화 시간을 없애는 대신 유휴 전력이 소폭 올라갑니다. Persistence Mode가 비활성화된 경우 함께 설정해 주세요.

# Persistence Mode 활성화
sudo nvidia-smi -pm 1

5업그레이드 과정 주의사항

595는 apt 미등록 상태이므로 NVIDIA 공식 .run 파일로 설치해야 합니다. 여러 번 해보면서 주의해야 할 점을 정리했습니다.

X서버 / GDM 중지 + 커널 모듈 언로드

.run 파일 설치 전 nvidia 관련 커널 모듈이 사용 중이면 설치에 실패합니다. systemctl stop gdm이나 init 3으로 그래픽 모드를 해제하고 nvidia 모듈을 언로드합니다.

sudo systemctl stop gdm
sudo modprobe -r nvidia-drm nvidia-modeset nvidia-uvm nvidia

커널 버전 변경 시 DKMS 수동 빌드

커널 업그레이드 후 드라이버를 설치하거나, 반대로 드라이버 설치 후 커널이 변경된 경우 DKMS 모듈을 수동으로 빌드해야 합니다.

sudo dkms build nvidia/595.58.03 -k $(uname -r)
sudo dkms install nvidia/595.58.03 -k $(uname -r)
sudo modprobe nvidia nvidia-uvm nvidia-modeset nvidia-drm

서비스 재시작 후 Power Limit 재설정

재부팅하면 Power Limit이 다시 600W로 돌아옵니다. 서버 시작 스크립트나 systemd 서비스에 재설정 명령을 추가해두는 것이 좋습니다.

# /etc/rc.local 또는 systemd ExecStartPre에 추가
sudo nvidia-smi -pl 350
sudo nvidia-smi -pm 1

이 글의 핵심 정리

✓595는 Production 브랜치 + CUDA 13.2 + Blackwell 텐서 버그 수정 — 장기 운영 서버 업그레이드 가치 있음
✓AI 추론 성능 향상은 단일 +1.6%, CUDA FP16/BF16 +1.0~1.4% — 체감 차이는 미미
✓업그레이드 후 Power Limit이 600W로 자동 리셋됨 — 즉시 350W로 재설정 필수
✓유휴 P-State P8→P0 변경 — CUDA 앱 초기 레이턴시 개선 대신 유휴 전력 소폭 증가
✓2026-03-25 기준 apt 미등록 — NVIDIA 공식 .run 파일로만 설치 가능

결론

595 드라이버는 극적인 성능 향상이 목적이 아닙니다. Blackwell에서 발생하던 텐서 메모리 버그가 수정되고, CUDA가 13.2로 올라갔으며, New Feature 브랜치의 불안정성을 Production으로 해결한 것이 핵심입니다.

AI 추론 서버라면 안정성 + CUDA 최신화 목적으로 업그레이드를 권장합니다. 단, Power Limit 600W 자동 리셋은 반드시 확인해야 합니다. 모르고 지나치면 전력 요금과 GPU 온도에 직접 영향을 줍니다.

apt에 등록되면 더 쉽게 설치할 수 있겠지만, 빠른 패치가 필요한 Blackwell 사용자라면 지금 .run 파일 설치도 충분히 시도할 만합니다.

본 테스트는 2026년 3월 25일 AI 추론 서버(RTX PRO 6000 Blackwell)에서 수행되었습니다. 동일 서버에서 590 → 595 순서로 측정했으며, 벤치마크 수치는 실제 측정값입니다. 본 콘텐츠의 비상업적 공유는 자유이나, 상업적 이용 시 문의 페이지를 통해 연락 바랍니다.

AI 인프라 구축이 필요하신가요?

Treeru가 RTX PRO 6000 기반의 로컬 LLM 인프라를 설계해 드립니다.

무료 상담 신청하기

Treeru

웹 개발, IT 인프라, AI 솔루션 분야의 실무 인사이트를 공유합니다. 기업의 디지털 전환을 돕는 IT 파트너, Treeru입니다.

NVIDIA 드라이버업그레이드 RTX PRO 6000 Blackwell CUDA SGLang 벤치마크 로컬AI