Intel Optane 905P + NVMe 3-Tier 스토리지 — AI 서버 디스크 전략
AI 서버의 디스크를 어떻게 나눌 것인가? GPU와 VRAM에만 집중하기 쉽지만, AI 서비스의 실제 병목은 스토리지에서도 발생합니다. RAG 벡터 검색의 랜덤 읽기, 다수 모델의 보관, 서비스 데이터의 안정성 — 각각 다른 특성의 디스크가 필요합니다. Intel Optane 905P를 핵심으로 한 3-Tier 스토리지 전략과 데이터 흐름을 공개합니다.
10μs
Optane 랜덤 읽기
3-Tier
스토리지 계층
17.5PBW
Optane 내구성
Pull
콜드백업 방식
왜 3-Tier인가
AI 서버의 디스크 I/O는 3가지 패턴이 공존합니다. 하나의 디스크에 모두 넣으면 패턴 간 간섭이 발생합니다. 용도별 분리가 답입니다.
랜덤 읽기 집중
RAG 벡터 검색은 수천~수만 벡터를 랜덤으로 읽습니다. 일반 NVMe의 100μs로는 검색 지연이 체감됩니다.
→ Optane 905P (10μs)
순차 읽기/쓰기
모델 로딩(순차 읽기), 학습 데이터 쓰기, OS와 서비스 코드 실행. 범용 NVMe가 최적.
→ 작업용 NVMe
대용량 보관
다수의 AI 모델을 보관. 접근 빈도는 낮지만 재다운로드에 수시간이 걸려 로컬 보관이 경제적.
→ 보관용 NVMe
3-Tier 구성 개요
| Tier | 드라이브 | 특성 | 용도 |
|---|---|---|---|
| Tier 0 | Intel Optane 905P | 초저지연 10μs, 17.5PBW | 벡터DB, RAG, 대화 로그, 캐시 |
| Tier 1 | 작업용 NVMe | 범용 NVMe | OS, AI 작업 공간, 서빙 모델 |
| Tier 2 | 보관용 NVMe | 범용 NVMe | AI 모델 보관 |
Tier 0 — Optane 905P (핫 데이터)
저장 데이터:
- • RAG 벡터DB (랜덤 읽기 집중)
- • 대화 로그 DB, 서비스 메트릭
- • 현재 서빙 중인 LoRA 어댑터
- • 추론 캐시 (디스크 오프로딩 시)
선택 이유:
- • 랜덤 읽기 10μs (NVMe 대비 10배)
- • 내구성 17.5PBW (DB 쓰기 집중에 적합)
- • 수년 운영에 충분한 용량
- • 서비스 품질에 직결되는 데이터만 배치
Tier 1 — 작업용 NVMe (작업 공간)
저장 데이터:
- • OS + Python 환경
- • 서빙용 베이스 모델 (현재 테스트 중인 모델 포함)
- • PoC/테스트 산출물
- • 고객 데이터, 학습 데이터
운영 포인트:
- • 서빙 시작 시 모델이 VRAM에 상주 → 디스크 부담 없음
- • 사용량 대비 충분한 여유 공간
- • PoC 폴더는 통째로 삭제 가능
- • 범용 NVMe 속도로 모든 작업 커버
Tier 2 — 보관용 NVMe (모델 보관)
저장 데이터:
- • 다수의 AI 모델 후보
- • 과거 LoRA 어댑터 버전
- • 학습 중간 체크포인트 (롤백용)
운영 포인트:
- • 내장 NVMe라 USB보다 훨씬 빠른 접근
- • 재다운로드에 수시간 소요 → 로컬 보관 경제적
- • 심볼릭 링크로 편리한 접근
Optane의 핵심 가치
Optane 905P를 선택한 이유는 단 하나: 랜덤 읽기 지연시간입니다. RAG 벡터 검색은 순차가 아닌 랜덤 패턴이며, 이 지점에서 일반 NVMe와 10배 차이가 납니다.
| 항목 | Optane 905P | 일반 NVMe | 차이 |
|---|---|---|---|
| 4K 랜덤 읽기 지연 | ~10μs | ~100μs | 10배 빠름 |
| 4K 랜덤 쓰기 지연 | ~10μs | ~20μs | 2배 빠름 |
| 내구성 (TBW) | 17,520 TB | ~1,200 TB | 14.6배 |
| 순차 읽기 | 2,600 MB/s | 7,000 MB/s | NVMe 우위 |
| 순차 쓰기 | 2,200 MB/s | 5,000 MB/s | NVMe 우위 |
RAG 벡터 검색에서 Optane이 중요한 이유
벡터 검색의 I/O 패턴
- • 1회 검색 = 수천~수만 벡터 랜덤 읽기
- • HNSW 인덱스의 그래프 탐색 = 비순차 접근
- • 벡터 차원 768~1536 × float32 = 3~6KB/벡터
- • 동시 검색 시 랜덤 읽기가 기하급수적 증가
지연시간 누적 효과
- • 1만 벡터 검색 × 100μs = 1초 (NVMe)
- • 1만 벡터 검색 × 10μs = 0.1초 (Optane)
- • 10명 동시 검색 시: 10초 vs 1초
- • 체감 응답 속도에 직접 영향
Optane의 트레이드오프
순차 읽기/쓰기는 일반 NVMe가 2~3배 빠릅니다. 모델 로딩(순차 읽기)에는 작업용 NVMe가 유리하고, 벡터DB(랜덤 읽기)에는 Optane이 유리합니다. 그래서 분리합니다. 또한 Optane 905P는 단종 제품(Intel의 Optane 사업 종료)이지만, 중고 시장에서 합리적 가격에 구매 가능합니다.
데이터 흐름
AI 모델과 서비스 데이터는 정해진 경로를 따라 Tier 간 이동합니다.
AI 모델 흐름
다운로드
HuggingFace에서 모델 다운로드
Tier 2 (보관용 NVMe)테스트
Tier 1으로 복사하여 SGLang으로 테스트
Tier 1 (작업용 NVMe)서빙 확정
테스트 통과 시 Tier 1에 상주
Tier 1 (작업용 NVMe)보관
불합격 모델은 보관 티어에 유지
Tier 2 (보관용 NVMe)핵심 원칙: 서빙용 모델은 Tier 1에 1개만 유지. 베이스 모델 확정 후에는 교체하지 않음 (교체 시 전체 LoRA 재학습 필요).
서비스 데이터 흐름
| 데이터 | 저장 위치 | I/O 패턴 | 삭제 시 영향 |
|---|---|---|---|
| RAG 벡터DB | Tier 0 (Optane) | 랜덤 읽기 집중 | 재색인 필요 |
| 대화 로그 DB | Tier 0 (Optane) | 쓰기 집중 | 서비스 데이터 소실 |
| 서빙 LoRA 어댑터 | Tier 0 (Optane) | 모델 로딩 시 읽기 | 재학습 필요 |
| 서빙 베이스 모델 | Tier 1 (작업용 NVMe) | 시작 시 순차 읽기 | 재다운로드 가능 |
| PoC/테스트 | Tier 1 (작업용 NVMe) | 혼합 | 통째로 삭제 가능 |
| 모델 아카이브 | Tier 2 (보관용 NVMe) | 저빈도 | 재다운로드 (수시간) |
콜드백업 전략
AI 서버의 내장 드라이브만으로 서비스가 완전 동작합니다. 콜드백업은 별도 서버에서 NFS로 Pull 방식 백업합니다.
백업 서버 구성
하드웨어
- • CPU: 8코어 (저전력 모바일 CPU)
- • RAM: 32GB
- • OS: NVMe SSD
- • 백업: 엔터프라이즈 SATA HDD × 2 (7200RPM)
- • NIC: 1Gbps × 2 (이중화)
소프트웨어
- • NFS 서버 (내부 서브넷만 접근 허용)
- • UFW 방화벽: SSH + NFS만 허용
- • SMART 모니터링: 30분 cron, 60°C 경고
- • HDD 절전 비활성화 (상시 가동)
- • sysctl 튜닝: NFS 서버 최적화
Pull 방식의 장점
- • AI 서버가 해킹당해도 백업 서버의 데이터 보호
- • 백업 서버가 각 서버에서 데이터를 가져감 (cron)
- • AI 서버에 백업 스크립트나 cron 불필요
백업 대상
- • AI 서버: 설정, Optane 스냅샷, LoRA 어댑터
- • 프록시: 리버스프록시 설정, 인증서
- • 프로젝트 서버: 웹사이트, DB 덤프
- • OS/패키지: 재설치 가능하므로 백업 제외
백업 원칙
“복구에 필요한 최소 데이터만 백업한다.” OS와 패키지는 재설치가 가능하므로 제외합니다. 설정 파일, 서비스 데이터, 학습 결과물만 백업하면 충분한 용량으로 수년간 운영 가능합니다.
결론: 스토리지 설계 원칙
I/O 패턴에 따라 분리
랜덤 읽기(Optane), 순차 읽기(NVMe), 대용량 보관(별도 NVMe). 한 디스크에 모두 넣지 않습니다.
서비스 데이터는 가장 빠른 곳에
RAG 검색, 대화 로그, 활성 LoRA — 서비스 품질에 직결되는 데이터는 Optane에 배치합니다.
내장 드라이브만으로 완전 동작
외부 백업을 분리해도 서비스에 영향 없는 구조. 독립성이 곧 안정성입니다.
Pull 방식 백업으로 보안 강화
AI 서버가 아닌 백업 서버가 데이터를 가져갑니다. 해킹 시에도 백업이 보호됩니다.
전체 스토리지 요약
| 드라이브 | 위치 | 핵심 역할 |
|---|---|---|
| Optane 905P | AI 서버 | RAG 벡터DB, 대화 로그, 캐시 |
| 작업용 NVMe | AI 서버 | OS, 서빙 모델, 작업 공간 |
| 보관용 NVMe | AI 서버 | AI 모델 아카이브 |
| SATA HDD × 2 | 백업 서버 | 전 서버 콜드백업 (NFS) |
스토리지 설계는 GPU만큼 화려하지 않지만, AI 서비스의 체감 품질을 결정하는 핵심입니다. Optane의 10μs 랜덤 읽기가 RAG 검색에서 만드는 차이는 데이터로 증명됩니다. 서버 인프라와 함께 GPU 모니터링까지 갖추면, 사무실 온프레미스 AI 인프라의 완성입니다.
관련 글
© 2026 TreeRU. All rights reserved.
본 콘텐츠의 저작권은 TreeRU에 있으며, 출처를 밝히지 않은 무단 전재 및 재배포를 금합니다. 인용 시 출처(treeru.com)를 반드시 명시해 주세요.