전서버 NVMe 스토리지 벤치마크 — Optane부터 HDD까지 20개 디바이스 비교
NVMe SSD는 다 비슷할까? AI 서버에 꽂혀 있는 14개의 NVMe SSD와 6개의 HDD를 동일한 fio 벤치마크로 측정했습니다. Samsung PM9A1부터 Intel Optane 905P, 이름 모를 중국산 SSD까지 — Sequential Read는 최대 6,193MB/s에서 최저 526MB/s까지 12배 차이가 나고, Random 4K QD1 IOPS에서는 Optane이 NAND 최고 대비 3.8배 빠른 결과가 나왔습니다.
20개
테스트 디바이스
3.8배
Optane QD1 IOPS 차이
11μs
Optane QD1 지연시간
6,193
최고 Seq Read (MB/s)
테스트 환경
운영 중인 서버에 장착된 모든 스토리지 디바이스를 동일한 조건으로 테스트했습니다. 실내 온도 13°C, 서버 부하가 없는 상태에서 진행했습니다.
fio 테스트 설정
- •
direct=1— OS 캐시 우회 (순수 디바이스 성능) - •
ioengine=libaio— 리눅스 비동기 I/O - • Sequential: bs=1M, iodepth=32
- • Random 4K: bs=4k, QD1/QD32 별도 측정
- • Sustained Write: 120초 연속 쓰기 (SLC 캐시 소진)
테스트 대상
- • NVMe SSD: 14개 (9개 모델)
- • HDD: 6개 (2개 모델)
- • 특수: Intel Optane 905P (3D XPoint)
- • 용량 범위: 119GB ~ 9.1TB
- • 가격대: 저가 OEM ~ 엔터프라이즈급
Sequential 성능 순위
AI 모델 로딩은 수 GB~수십 GB 파일을 순차적으로 읽는 패턴입니다. Sequential Read 속도가 모델 시작 시간을 좌우합니다. Sustained Write는 SLC 캐시가 소진된 후의 실제 쓰기 속도입니다.
| # | NVMe 모델 | 용량 | Seq Read | Seq Write | Sustained Write |
|---|---|---|---|---|---|
| 1 | Samsung PM9A1 1TB | 953GB | 6,193 | 5,009 | 5,015 |
| 2 | Samsung PM9A1 512GB ① | 476GB | 3,453 | 3,088 | 3,088 |
| 3 | Samsung PM9A1 512GB ② | 476GB | 3,453 | 3,319 | 3,319 |
| 4 | Samsung 970 EVO Plus 500GB ① | 465GB | 3,451 | 3,071 | 2,575 |
| 5 | Samsung 970 EVO Plus 500GB ② | 465GB | 3,448 | 3,071 | 2,467 |
| 6 | Samsung 980 PRO 2TB | 1,863GB | 3,436 | 1,902 | 1,897 |
| 7 | Lexar NM6A1 512GB | 476GB | 3,214 | 2,851 | 2,674 |
| 8 | SK hynix PC601 512GB ① | 476GB | 3,171 | 836 | 750 |
| 9 | SK hynix PC601 512GB ② | 476GB | 3,139 | 872 | 738 |
| 10 | SK hynix PC601 512GB ③ | 476GB | 3,073 | 833 | 680 |
| 11 | Samsung 980 1TB | 931GB | 2,684 | 2,360 | 2,408 |
| 12 | Intel Optane 905P 960GB | 894GB | 2,556 | 2,282 | 2,284 |
| 13 | Samsung MZVLQ256 256GB | 238GB | 2,324 | 1,167 | 1,184 |
| 14 | ShiJi 256GB M.2 | 238GB | 2,246 | 2,039 | 1,142 |
| 15 | Biwin NVMe 1TB | 953GB | 1,850 | 702 | 534 |
| 16 | Samsung MZNLN128 128GB | 119GB | 526 | 159 | 158 |
단위: MB/s. HDD는 별도 섹션에서 비교합니다.
주목할 점
- • PM9A1 1TB가 6,193MB/s로 압도적 1위. PCIe 4.0 풀스펙
- • 980 PRO 2TB: Read 3,436 vs Write 1,902 — 쓰기가 절반. 대용량 모델의 SLC 캐시 한계
- • SK hynix PC601: Read는 3,000대로 양호하나 Write가 836MB/s로 급락. OEM 모델의 쓰기 성능 함정
AI 모델 로딩 시간 추정
- • 14B AWQ (~8GB): PM9A1 1.3초, Biwin 4.3초
- • 32B AWQ (~18GB): PM9A1 2.9초, Biwin 9.7초
- • 128GB 모델 한계 사례: PM9A1 20초 vs 128GB SSD 243초
- • 실사용에서는 VRAM에 상주하므로 로딩은 서비스 시작 시 1회
Random 4K IOPS 순위
벡터DB 검색, 메타데이터 조회, 로그 기록 — AI 서비스의 대부분은 Random 4K 패턴입니다. QD1(단일 큐 깊이)은 단일 쿼리의 실제 응답 속도를, QD32는 동시 다수 쿼리의 처리량을 반영합니다.
| # | NVMe 모델 | QD1 IOPS | QD1 p50 | QD32 IOPS | Mixed R/W |
|---|---|---|---|---|---|
| 1 | Intel Optane 905P 960GB3D XPoint | 83,989 | 11μs | 581,158 | 527,987 |
| 2 | Samsung PM9A1 1TB | 22,120 | 42μs | 859,871 | 562,594 |
| 3 | Samsung PM9A1 512GB ② | 21,820 | 42μs | 787,044 | 502,102 |
| 4 | Samsung PM9A1 512GB ① | 16,963 | 51μs | 392,992 | 342,918 |
| 5 | Samsung 970 EVO Plus ① | 14,304 | 60μs | 358,041 | 279,570 |
| 6 | SK hynix PC601 ② | 14,219 | 60μs | 313,607 | 197,082 |
| 7 | Samsung 980 1TB | 14,201 | 67μs | 499,929 | 439,421 |
| 8 | SK hynix PC601 ① | 14,137 | 61μs | 330,393 | 187,363 |
| 9 | Lexar NM6A1 512GB | 14,038 | 60μs | 338,898 | 160,560 |
| 10 | Samsung 970 EVO Plus ② | 14,026 | 59μs | 357,298 | 279,362 |
| 11 | ShiJi 256GB M.2 | 13,950 | 64μs | 366,109 | 177,883 |
| 12 | Samsung 980 PRO 2TB | 11,896 | 79μs | 656,561 | 365,201 |
| 13 | Biwin NVMe 1TB | 11,788 | 79μs | 213,785 | 117,037 |
| 14 | SK hynix PC601 ③ | 10,935 | 75μs | 342,707 | 175,672 |
| 15 | Samsung MZVLQ256 256GB | 10,930 | 86μs | 226,398 | 194,831 |
| 16 | Samsung MZNLN128 128GB | 8,701 | 98μs | 68,565 | 44,912 |
Mixed R/W: Read 70% / Write 30% 혼합 워크로드
QD1과 QD32의 순위가 다른 이유
Optane 905P는 QD1에서 압도적 1위(83,989 IOPS)이지만, QD32에서는 PM9A1 1TB(859,871)에 밀립니다. 이는 기술 특성 차이 때문입니다.
Optane (3D XPoint)
- • 소자 수준에서 빠른 응답 → QD1 지연시간 11μs
- • 내부 병렬화 설계가 NAND보다 제한적
- • 단일 요청에 극강, 대량 병렬 요청은 NAND가 유리
NAND Flash (PM9A1 등)
- • 소자 자체는 느리지만 수천 개 병렬 동작
- • QD32에서 병렬화 효과로 IOPS 폭발
- • 단일 요청 지연시간은 42~100μs
Optane 905P 심층 분석
Optane 905P는 Sequential 성능에서는 중하위권(12위)이지만, Random 4K QD1에서는 압도적 1위입니다. 이 “순위 역전”이 AI 서비스에서 의미하는 바를 분석합니다.
| 항목 | Optane 905P | NAND 최고 (PM9A1) | 배수 |
|---|---|---|---|
| QD1 IOPS | 83,989 | 22,120 | 3.8배 |
| QD1 p50 지연시간 | 11μs | 42μs | 3.8배 빠름 |
| QD1 p99 지연시간 | 22μs | 49μs | 2.2배 빠름 |
| QD32 IOPS | 581,158 | 859,871 | 0.68배 |
| Mixed R/W IOPS | 527,987 | 562,594 | 0.94배 |
| Seq Read (MB/s) | 2,556 | 6,193 | 0.41배 |
AI 서비스에서 QD1이 중요한 이유
QD1이 지배하는 워크로드
- • RAG 벡터 검색: 사용자 1명의 쿼리 → QD1 패턴
- • SQLite/메타데이터 조회: 단일 트랜잭션
- • 대화 로그 읽기/쓰기: 1건씩 순차 처리
- • LoRA 어댑터 로딩: 파일 1개씩 접근
체감 차이 계산
- • 벡터 1만 개 검색: Optane 0.12초 vs NAND 0.45초
- • 10명 동시: Optane 1.2초 vs NAND 4.5초
- • RAG 오버헤드가 1초 이내여야 체감이 자연스러움
- • Optane은 QD1에서 NAND의 한계를 넘는 유일한 선택
Optane을 선택해야 하는 경우 / 아닌 경우
Optane이 유리
- • 벡터DB (Qdrant, Milvus 등) 전용 드라이브
- • SQLite/PostgreSQL 메타데이터 DB
- • 실시간 로그 수집·분석
- • 지연시간이 서비스 품질에 직결되는 경우
NAND가 유리
- • AI 모델 로딩 (순차 읽기 — PM9A1이 2.4배 빠름)
- • 학습 데이터셋 읽기/쓰기 (대용량 순차)
- • 동시 다수 요청 처리 (QD32에서 NAND 우세)
- • 비용 대비 용량이 중요한 경우
온도 비교
24시간 서버 운영에서 발열 관리는 수명과 직결됩니다. Sustained Write(120초 연속 쓰기) 직후의 온도를 측정했습니다. 실내 온도 13°C 기준입니다.
| NVMe 모델 | 유휴 (°C) | 부하 후 (°C) | 상승폭 | 판정 |
|---|---|---|---|---|
| Samsung 980 PRO 2TB | 32°C | 37°C | +5°C | 양호 |
| ShiJi 256GB M.2 | 43°C | 47°C | +4°C | 양호 |
| Intel Optane 905P | 30°C | 39°C | +9°C | 양호 |
| Biwin NVMe 1TB | 21°C | 32°C | +11°C | 양호 |
| Samsung MZNLN128 | 35°C | 46°C | +11°C | 양호 |
| Samsung PM9A1 512GB ② | 23°C | 39°C | +16°C | 양호 |
| Samsung 980 1TB | 27°C | 43°C | +16°C | 양호 |
| SK hynix PC601 ① | 25°C | 42°C | +17°C | 주의 |
| SK hynix PC601 ② | 25°C | 42°C | +17°C | 주의 |
| Samsung PM9A1 1TB | 24°C | 49°C | +25°C | 주의 |
| Lexar NM6A1 512GB | 36°C | 64°C | +28°C | 주의 |
| Samsung 970 EVO Plus ② | 54°C | 83°C | +29°C | 과열 위험 |
| Samsung 970 EVO Plus ① | 52°C | 83°C | +31°C | 과열 위험 |
| SK hynix PC601 ③ | 48°C | 80°C | +32°C | 과열 위험 |
| Samsung PM9A1 512GB ① | 29°C | 65°C | +36°C | 과열 위험 |
| Samsung MZVLQ256 256GB | 25°C | 62°C | +37°C | 과열 위험 |
과열 위험 디바이스
- • 970 EVO Plus: 유휴 52~54°C → 부하 83°C. 방열판 없이 M.2 슬롯에 직접 장착된 경우
- • PC601 ③: 유휴 48°C로 이미 높은 상태. 밀집 서버의 통풍 문제
- • NVMe 스로틀링은 보통 70~80°C에서 시작 → 성능 저하 유발
쿨링 우수 디바이스
- • 980 PRO 2TB: +5°C 상승. 마더보드 M.2 방열판 장착 효과
- • Optane 905P: +9°C 상승. U.2 폼팩터 자체 방열 설계
- • 방열판 유무가 10~20°C 차이를 만듦
HDD 교체 비교: IronWolf 12TB → Red Pro 10TB
백업 서버의 HDD를 Seagate IronWolf 12TB에서 WD Red Pro 10TB로 교체했습니다. 동일 서버, 동일 fio 파라미터로 교체 전후를 비교합니다.
| 항목 | IronWolf 12TB | Red Pro 10TB | 차이 |
|---|---|---|---|
| Seq Read (MB/s) | 257 | 256 | 동등 |
| Seq Write (MB/s) | 241 | 186 | -23% |
| Sustained Write (MB/s) | 236 | 257 | +9% |
| Random 4K QD1 IOPS | 169 | 162 | -4% |
| Random 4K QD1 p99 (μs) | 16,318 | 25,210 | +55% |
| Random 4K QD32 IOPS | 619 | 622 | 동등 |
| Mixed R/W IOPS | 618 | 690 | +12% |
| 유휴 온도 (°C) | 24 | 34 | +10°C |
| 부하 온도 (°C) | 26 | 35 | +9°C |
교체 판정
Red Pro가 나은 점
- • Sustained Write +9%: 장시간 백업 작업에 유리
- • Mixed R/W IOPS +12%: 백업 중 읽기/쓰기 혼합 시
- • 10TB × 3 = 30TB 총용량 (IronWolf 12TB × 2 = 24TB 대비 +25%)
IronWolf가 나았던 점
- • Seq Write -23%: 멀티잡 순차 쓰기에서 차이
- • QD1 p99 레이턴시: 16ms vs 25ms (최악의 경우 차이)
- • 온도: 유휴 24°C vs 34°C (10°C 낮음)
백업 서버 용도에서는 Sustained Write와 총용량이 더 중요하므로 Red Pro 교체가 합리적입니다. 온도 차이(+10°C)는 35°C로 정상 범위 내입니다.
AI 서비스 적합성 결론
벡터DB 전용
QD1 IOPS가 핵심. RAG 검색은 단일 쿼리 랜덤 읽기 패턴입니다.
추천: Optane 905P
QD1 83,989 IOPS, 11μs 지연. 대안 없음.
모델 로딩 + OS
Sequential Read가 핵심. 대용량 모델 파일을 빠르게 읽어야 합니다.
추천: PM9A1 / 980 PRO
3,400~6,100 MB/s. 32B 모델 3~6초 로딩.
모델 보관 (아카이브)
용량 대비 가격이 핵심. 접근 빈도 낮지만 재다운로드에 수시간 소요.
추천: 저가 NVMe / HDD
성능보다 TB당 가격. USB 외장보다 내장 NVMe 권장.
피해야 할 함정
- • OEM SSD의 쓰기 성능 함정: SK hynix PC601은 Read 3,100MB/s로 스펙상 우수하지만 Write 836MB/s. 스펙시트가 없는 OEM 모델은 벤치마크 필수
- • 대용량 SSD의 SLC 캐시 소진: 980 PRO 2TB Sustained Write 1,897MB/s (Seq Write 대비 동일) — 다행히 캐시 이후에도 안정적. 반면 ShiJi 256GB는 2,039→1,142로 44% 하락
- • 방열판 없는 고성능 SSD: 970 EVO Plus가 83°C까지 상승. M.2 방열판 유무가 30°C 차이 발생
스토리지 벤치마크의 핵심은 “어디에 쓸 것인가”입니다. 스펙시트의 최대 성능이 아니라, 실제 워크로드 패턴(Sequential vs Random, QD1 vs QD32)에 맞는 디바이스를 선택해야 합니다. 3-Tier 스토리지 전략에서 이 벤치마크 데이터를 기반으로 실제 디스크를 배치한 사례를 확인할 수 있습니다.
댓글
(4개)로그인하면 댓글을 작성할 수 있습니다.
20개 디바이스를 동일 조건으로 비교한 데이터가 인상적입니다. Optane 905P의 QD1 IOPS가 NAND 대비 3.8배라는 건 벡터DB 용도에서 확실히 차이가 나겠네요.
SK hynix PC601의 Sequential Write가 836MB/s밖에 안 나오는 건 처음 알았습니다. OEM NVMe라 스펙시트가 없는데, 실측 데이터가 큰 도움이 됩니다.
모델 로딩 시간을 Sequential Read로 환산해주니 직관적이네요. 3,000MB/s면 32B AWQ 18GB가 6초면 로딩되는 거군요.
관련 글
© 2026 TreeRU. All rights reserved.
본 콘텐츠의 저작권은 TreeRU에 있으며, 출처를 밝히지 않은 무단 전재 및 재배포를 금합니다. 인용 시 출처(treeru.com)를 반드시 명시해 주세요.