Intel Optane 905P + NVMe 3-Tier 스토리지 — AI 서버 디스크 전략
AI 서버의 디스크를 어떻게 나눌 것인가? GPU와 VRAM에만 집중하기 쉽지만, AI 서비스의 실제 병목은 스토리지에서도 발생합니다. RAG 벡터 검색의 랜덤 읽기, 21개 모델(808GB)의 보관, 서비스 데이터의 안정성 — 각각 다른 특성의 디스크가 필요합니다. Intel Optane 905P를 핵심으로 한 3-Tier 스토리지 전략과 데이터 흐름을 공개합니다.
10μs
Optane 랜덤 읽기
3-Tier
스토리지 계층
808GB
모델 보관 (21개)
12TB×2
콜드백업 (NFS)
왜 3-Tier인가
AI 서버의 디스크 I/O는 3가지 패턴이 공존합니다. 하나의 디스크에 모두 넣으면 패턴 간 간섭이 발생합니다. 용도별 분리가 답입니다.
랜덤 읽기 집중
RAG 벡터 검색은 수천~수만 벡터를 랜덤으로 읽습니다. 일반 NVMe의 100μs로는 검색 지연이 체감됩니다.
→ Optane 905P (10μs)
순차 읽기/쓰기
모델 로딩(30~40GB 순차 읽기), 학습 데이터 쓰기, OS와 서비스 코드 실행. 범용 NVMe가 최적.
→ 980 PRO 2TB
대용량 보관
21개 AI 모델(808GB)을 보관. 접근 빈도는 낮지만 재다운로드에 수시간이 걸려 로컬 보관이 경제적.
→ Biwin NVMe 1TB
3-Tier 구성 개요
| Tier | 드라이브 | 용량 | 특성 | 용도 |
|---|---|---|---|---|
| Tier 0 | Intel Optane 905P | 960GB | 초저지연 10μs, 17.5PBW | 벡터DB, RAG, 대화 로그, 캐시 |
| Tier 1 | Samsung 980 PRO | 2TB | 범용 NVMe | OS, AI 작업 공간, 서빙 모델 |
| Tier 2 | Biwin NVMe | 1TB | 범용 NVMe | AI 모델 보관 (21개, ~808GB) |
Tier 0 — Optane 905P 960GB (핫 데이터)
저장 데이터:
- • RAG 벡터DB (랜덤 읽기 집중)
- • 대화 로그 DB, 서비스 메트릭
- • 현재 서빙 중인 LoRA 어댑터
- • 추론 캐시 (디스크 오프로딩 시)
선택 이유:
- • 랜덤 읽기 10μs (NVMe 대비 10배)
- • 내구성 17.5PBW (DB 쓰기 집중에 적합)
- • 960GB로 수년 운영 가능
- • 서비스 품질에 직결되는 데이터만 배치
Tier 1 — 980 PRO 2TB (작업 공간)
저장 데이터:
- • OS + Python 환경
- • 서빙용 베이스 모델 (현재 테스트 중인 모델 포함)
- • PoC/테스트 산출물
- • 고객 데이터, 학습 데이터
운영 포인트:
- • 서빙 시작 시 모델이 VRAM에 상주 → 디스크 부담 없음
- • 2TB 중 ~130GB 사용, 1.5TB+ 여유
- • PoC 폴더는 통째로 삭제 가능
- • 범용 NVMe 속도로 모든 작업 커버
Tier 2 — Biwin NVMe 1TB (모델 보관)
저장 데이터:
- • AI 모델 후보 21개 (~808GB)
- • 과거 LoRA 어댑터 버전
- • 학습 중간 체크포인트 (롤백용)
운영 포인트:
- • 내장 NVMe라 USB보다 훨씬 빠른 접근
- • 재다운로드에 수시간 소요 → 로컬 보관 경제적
- • 심볼릭 링크로 편리한 접근
Optane의 핵심 가치
Optane 905P를 선택한 이유는 단 하나: 랜덤 읽기 지연시간입니다. RAG 벡터 검색은 순차가 아닌 랜덤 패턴이며, 이 지점에서 일반 NVMe와 10배 차이가 납니다.
| 항목 | Optane 905P | 일반 NVMe | 차이 |
|---|---|---|---|
| 4K 랜덤 읽기 지연 | ~10μs | ~100μs | 10배 빠름 |
| 4K 랜덤 쓰기 지연 | ~10μs | ~20μs | 2배 빠름 |
| 내구성 (TBW) | 17,520 TB | ~1,200 TB | 14.6배 |
| 순차 읽기 | 2,600 MB/s | 7,000 MB/s | NVMe 우위 |
| 순차 쓰기 | 2,200 MB/s | 5,000 MB/s | NVMe 우위 |
RAG 벡터 검색에서 Optane이 중요한 이유
벡터 검색의 I/O 패턴
- • 1회 검색 = 수천~수만 벡터 랜덤 읽기
- • HNSW 인덱스의 그래프 탐색 = 비순차 접근
- • 벡터 차원 768~1536 × float32 = 3~6KB/벡터
- • 동시 검색 시 랜덤 읽기가 기하급수적 증가
지연시간 누적 효과
- • 1만 벡터 검색 × 100μs = 1초 (NVMe)
- • 1만 벡터 검색 × 10μs = 0.1초 (Optane)
- • 10명 동시 검색 시: 10초 vs 1초
- • 체감 응답 속도에 직접 영향
Optane의 트레이드오프
순차 읽기/쓰기는 일반 NVMe가 2~3배 빠릅니다. 모델 로딩(순차 읽기)에는 980 PRO가 유리하고, 벡터DB(랜덤 읽기)에는 Optane이 유리합니다. 그래서 분리합니다. 또한 Optane 905P는 단종 제품(Intel의 Optane 사업 종료)이지만, 중고 시장에서 960GB를 합리적 가격에 구매 가능합니다.
데이터 흐름
AI 모델과 서비스 데이터는 정해진 경로를 따라 Tier 간 이동합니다.
AI 모델 흐름
다운로드
HuggingFace에서 모델 다운로드
Tier 2 (Biwin)테스트
Tier 1으로 복사하여 SGLang으로 테스트
Tier 1 (980 PRO)서빙 확정
테스트 통과 시 Tier 1에 상주
Tier 1 (980 PRO)보관
불합격 모델은 Biwin에 보관 유지
Tier 2 (Biwin)핵심 원칙: 서빙용 모델은 Tier 1에 1개만 유지. 베이스 모델 확정 후에는 교체하지 않음 (교체 시 전체 LoRA 재학습 필요).
서비스 데이터 흐름
| 데이터 | 저장 위치 | I/O 패턴 | 삭제 시 영향 |
|---|---|---|---|
| RAG 벡터DB | Tier 0 (Optane) | 랜덤 읽기 집중 | 재색인 필요 |
| 대화 로그 DB | Tier 0 (Optane) | 쓰기 집중 | 서비스 데이터 소실 |
| 서빙 LoRA 어댑터 | Tier 0 (Optane) | 모델 로딩 시 읽기 | 재학습 필요 |
| 서빙 베이스 모델 | Tier 1 (980 PRO) | 시작 시 순차 읽기 | 재다운로드 가능 |
| PoC/테스트 | Tier 1 (980 PRO) | 혼합 | 통째로 삭제 가능 |
| 모델 아카이브 | Tier 2 (Biwin) | 저빈도 | 재다운로드 (수시간) |
콜드백업 전략
AI 서버의 내장 3개 드라이브(2TB + 960GB + 1TB)만으로 서비스가 완전 동작합니다. 콜드백업은 별도 서버에서 NFS로 Pull 방식 백업합니다.
백업 서버 구성
하드웨어
- • CPU: AMD 5825U
- • RAM: 32GB
- • OS: NVMe 256GB
- • 백업: Seagate IronWolf 12TB × 2 (SATA, 7200RPM)
- • NIC: 1Gbps × 2 (이중화)
소프트웨어
- • NFS 서버 (내부 서브넷만 접근 허용)
- • UFW 방화벽: SSH + NFS만 허용
- • SMART 모니터링: 30분 cron, 60°C 경고
- • HDD 절전 비활성화 (상시 가동)
- • sysctl 튜닝: NFS 서버 최적화
Pull 방식의 장점
- • AI 서버가 해킹당해도 백업 서버의 데이터 보호
- • 백업 서버가 각 서버에서 데이터를 가져감 (cron)
- • AI 서버에 백업 스크립트나 cron 불필요
백업 대상
- • AI 서버: 설정, Optane 스냅샷, LoRA 어댑터
- • 프록시: 리버스프록시 설정, 인증서
- • 프로젝트 서버: 웹사이트, DB 덤프
- • OS/패키지: 재설치 가능하므로 백업 제외
백업 원칙
“복구에 필요한 최소 데이터만 백업한다.” OS와 패키지는 재설치가 가능하므로 제외합니다. 설정 파일, 서비스 데이터, 학습 결과물만 백업하면 12TB로 수년간 운영 가능합니다.
결론: 스토리지 설계 원칙
I/O 패턴에 따라 분리
랜덤 읽기(Optane), 순차 읽기(NVMe), 대용량 보관(별도 NVMe). 한 디스크에 모두 넣지 않습니다.
서비스 데이터는 가장 빠른 곳에
RAG 검색, 대화 로그, 활성 LoRA — 서비스 품질에 직결되는 데이터는 Optane에 배치합니다.
내장 드라이브만으로 완전 동작
외부 백업을 분리해도 서비스에 영향 없는 구조. 독립성이 곧 안정성입니다.
Pull 방식 백업으로 보안 강화
AI 서버가 아닌 백업 서버가 데이터를 가져갑니다. 해킹 시에도 백업이 보호됩니다.
전체 스토리지 요약
| 드라이브 | 용량 | 위치 | 핵심 역할 |
|---|---|---|---|
| Optane 905P | 960GB | AI 서버 | RAG 벡터DB, 대화 로그, 캐시 |
| 980 PRO | 2TB | AI 서버 | OS, 서빙 모델, 작업 공간 |
| Biwin NVMe | 1TB | AI 서버 | AI 모델 아카이브 (21개) |
| IronWolf × 2 | 12TB × 2 | 백업 서버 | 전 서버 콜드백업 (NFS) |
스토리지 설계는 GPU만큼 화려하지 않지만, AI 서비스의 체감 품질을 결정하는 핵심입니다. Optane의 10μs 랜덤 읽기가 RAG 검색에서 만드는 차이는 데이터로 증명됩니다. 서버 인프라와 함께 GPU 모니터링까지 갖추면, 사무실 온프레미스 AI 인프라의 완성입니다.
댓글
(4개)로그인하면 댓글을 작성할 수 있습니다.
Optane 905P를 RAG 벡터DB 전용으로 쓴다는 발상이 좋습니다. 10μs vs 100μs면 체감 검색 속도가 확실히 다르겠네요. 17.5PBW 내구성도 DB 쓰기에 안심입니다.
3-Tier로 용도별 분리하는 전략이 깔끔합니다. 보통 NVMe 1개에 다 넣는데, AI 워크로드는 랜덤 읽기와 순차 읽기가 섞이니 분리가 효과적이겠습니다.
모델 보관 → 테스트 → 서빙 흐름이 명확합니다. 21개 모델 808GB를 Biwin에 보관하고 서빙용만 980 PRO에 올리는 패턴은 바로 적용해봐야겠네요.
관련 글
© 2026 TreeRU. All rights reserved.
본 콘텐츠의 저작권은 TreeRU에 있으며, 출처를 밝히지 않은 무단 전재 및 재배포를 금합니다. 인용 시 출처(treeru.com)를 반드시 명시해 주세요.