카테고리

Intel Optane 905P + NVMe 3-Tier 스토리지 — AI 서버 디스크 전략

2026-02-22

Treeru

AI 서버의 디스크를 어떻게 나눌 것인가? GPU와 VRAM에만 집중하기 쉽지만, AI 서비스의 실제 병목은 스토리지에서도 발생합니다. RAG 벡터 검색의 랜덤 읽기, 21개 모델(808GB)의 보관, 서비스 데이터의 안정성 — 각각 다른 특성의 디스크가 필요합니다. Intel Optane 905P를 핵심으로 한 3-Tier 스토리지 전략과 데이터 흐름을 공개합니다.

10μs

Optane 랜덤 읽기

3-Tier

스토리지 계층

808GB

모델 보관 (21개)

12TB×2

콜드백업 (NFS)

왜 3-Tier인가

AI 서버의 디스크 I/O는 3가지 패턴이 공존합니다. 하나의 디스크에 모두 넣으면 패턴 간 간섭이 발생합니다. 용도별 분리가 답입니다.

랜덤 읽기 집중

RAG 벡터 검색은 수천~수만 벡터를 랜덤으로 읽습니다. 일반 NVMe의 100μs로는 검색 지연이 체감됩니다.

→ Optane 905P (10μs)

순차 읽기/쓰기

모델 로딩(30~40GB 순차 읽기), 학습 데이터 쓰기, OS와 서비스 코드 실행. 범용 NVMe가 최적.

→ 980 PRO 2TB

대용량 보관

21개 AI 모델(808GB)을 보관. 접근 빈도는 낮지만 재다운로드에 수시간이 걸려 로컬 보관이 경제적.

→ Biwin NVMe 1TB

3-Tier 구성 개요

Tier	드라이브	용량	특성	용도
Tier 0	Intel Optane 905P	960GB	초저지연 10μs, 17.5PBW	벡터DB, RAG, 대화 로그, 캐시
Tier 1	Samsung 980 PRO	2TB	범용 NVMe	OS, AI 작업 공간, 서빙 모델
Tier 2	Biwin NVMe	1TB	범용 NVMe	AI 모델 보관 (21개, ~808GB)

Tier 0 — Optane 905P 960GB (핫 데이터)

저장 데이터:

• RAG 벡터DB (랜덤 읽기 집중)
• 대화 로그 DB, 서비스 메트릭
• 현재 서빙 중인 LoRA 어댑터
• 추론 캐시 (디스크 오프로딩 시)

선택 이유:

• 랜덤 읽기 10μs (NVMe 대비 10배)
• 내구성 17.5PBW (DB 쓰기 집중에 적합)
• 960GB로 수년 운영 가능
• 서비스 품질에 직결되는 데이터만 배치

Tier 1 — 980 PRO 2TB (작업 공간)

저장 데이터:

• OS + Python 환경
• 서빙용 베이스 모델 (현재 테스트 중인 모델 포함)
• PoC/테스트 산출물
• 고객 데이터, 학습 데이터

운영 포인트:

• 서빙 시작 시 모델이 VRAM에 상주 → 디스크 부담 없음
• 2TB 중 ~130GB 사용, 1.5TB+ 여유
• PoC 폴더는 통째로 삭제 가능
• 범용 NVMe 속도로 모든 작업 커버

Tier 2 — Biwin NVMe 1TB (모델 보관)

저장 데이터:

• AI 모델 후보 21개 (~808GB)
• 과거 LoRA 어댑터 버전
• 학습 중간 체크포인트 (롤백용)

운영 포인트:

• 내장 NVMe라 USB보다 훨씬 빠른 접근
• 재다운로드에 수시간 소요 → 로컬 보관 경제적
• 심볼릭 링크로 편리한 접근

Optane의 핵심 가치

Optane 905P를 선택한 이유는 단 하나: 랜덤 읽기 지연시간입니다. RAG 벡터 검색은 순차가 아닌 랜덤 패턴이며, 이 지점에서 일반 NVMe와 10배 차이가 납니다.

항목	Optane 905P	일반 NVMe	차이
4K 랜덤 읽기 지연	~10μs	~100μs	10배 빠름
4K 랜덤 쓰기 지연	~10μs	~20μs	2배 빠름
내구성 (TBW)	17,520 TB	~1,200 TB	14.6배
순차 읽기	2,600 MB/s	7,000 MB/s	NVMe 우위
순차 쓰기	2,200 MB/s	5,000 MB/s	NVMe 우위

RAG 벡터 검색에서 Optane이 중요한 이유

벡터 검색의 I/O 패턴

• 1회 검색 = 수천~수만 벡터 랜덤 읽기
• HNSW 인덱스의 그래프 탐색 = 비순차 접근
• 벡터 차원 768~1536 × float32 = 3~6KB/벡터
• 동시 검색 시 랜덤 읽기가 기하급수적 증가

지연시간 누적 효과

• 1만 벡터 검색 × 100μs = 1초 (NVMe)
• 1만 벡터 검색 × 10μs = 0.1초 (Optane)
• 10명 동시 검색 시: 10초 vs 1초
• 체감 응답 속도에 직접 영향

Optane의 트레이드오프

순차 읽기/쓰기는 일반 NVMe가 2~3배 빠릅니다. 모델 로딩(순차 읽기)에는 980 PRO가 유리하고, 벡터DB(랜덤 읽기)에는 Optane이 유리합니다. 그래서 분리합니다. 또한 Optane 905P는 단종 제품(Intel의 Optane 사업 종료)이지만, 중고 시장에서 960GB를 합리적 가격에 구매 가능합니다.

데이터 흐름

AI 모델과 서비스 데이터는 정해진 경로를 따라 Tier 간 이동합니다.

AI 모델 흐름

다운로드

HuggingFace에서 모델 다운로드

Tier 2 (Biwin)

테스트

Tier 1으로 복사하여 SGLang으로 테스트

Tier 1 (980 PRO)

서빙 확정

테스트 통과 시 Tier 1에 상주

Tier 1 (980 PRO)

보관

불합격 모델은 Biwin에 보관 유지

Tier 2 (Biwin)

핵심 원칙: 서빙용 모델은 Tier 1에 1개만 유지. 베이스 모델 확정 후에는 교체하지 않음 (교체 시 전체 LoRA 재학습 필요).

서비스 데이터 흐름

데이터	저장 위치	I/O 패턴	삭제 시 영향
RAG 벡터DB	Tier 0 (Optane)	랜덤 읽기 집중	재색인 필요
대화 로그 DB	Tier 0 (Optane)	쓰기 집중	서비스 데이터 소실
서빙 LoRA 어댑터	Tier 0 (Optane)	모델 로딩 시 읽기	재학습 필요
서빙 베이스 모델	Tier 1 (980 PRO)	시작 시 순차 읽기	재다운로드 가능
PoC/테스트	Tier 1 (980 PRO)	혼합	통째로 삭제 가능
모델 아카이브	Tier 2 (Biwin)	저빈도	재다운로드 (수시간)

콜드백업 전략

AI 서버의 내장 3개 드라이브(2TB + 960GB + 1TB)만으로 서비스가 완전 동작합니다. 콜드백업은 별도 서버에서 NFS로 Pull 방식 백업합니다.

백업 서버 구성

하드웨어

• CPU: AMD 5825U
• RAM: 32GB
• OS: NVMe 256GB
• 백업: Seagate IronWolf 12TB × 2 (SATA, 7200RPM)
• NIC: 1Gbps × 2 (이중화)

소프트웨어

• NFS 서버 (내부 서브넷만 접근 허용)
• UFW 방화벽: SSH + NFS만 허용
• SMART 모니터링: 30분 cron, 60°C 경고
• HDD 절전 비활성화 (상시 가동)
• sysctl 튜닝: NFS 서버 최적화

Pull 방식의 장점

• AI 서버가 해킹당해도 백업 서버의 데이터 보호
• 백업 서버가 각 서버에서 데이터를 가져감 (cron)
• AI 서버에 백업 스크립트나 cron 불필요

백업 대상

• AI 서버: 설정, Optane 스냅샷, LoRA 어댑터
• 프록시: 리버스프록시 설정, 인증서
• 프로젝트 서버: 웹사이트, DB 덤프
• OS/패키지: 재설치 가능하므로 백업 제외

백업 원칙

“복구에 필요한 최소 데이터만 백업한다.” OS와 패키지는 재설치가 가능하므로 제외합니다. 설정 파일, 서비스 데이터, 학습 결과물만 백업하면 12TB로 수년간 운영 가능합니다.

결론: 스토리지 설계 원칙

I/O 패턴에 따라 분리

랜덤 읽기(Optane), 순차 읽기(NVMe), 대용량 보관(별도 NVMe). 한 디스크에 모두 넣지 않습니다.

서비스 데이터는 가장 빠른 곳에

RAG 검색, 대화 로그, 활성 LoRA — 서비스 품질에 직결되는 데이터는 Optane에 배치합니다.

내장 드라이브만으로 완전 동작

외부 백업을 분리해도 서비스에 영향 없는 구조. 독립성이 곧 안정성입니다.

Pull 방식 백업으로 보안 강화

AI 서버가 아닌 백업 서버가 데이터를 가져갑니다. 해킹 시에도 백업이 보호됩니다.

전체 스토리지 요약

드라이브	용량	위치	핵심 역할
Optane 905P	960GB	AI 서버	RAG 벡터DB, 대화 로그, 캐시
980 PRO	2TB	AI 서버	OS, 서빙 모델, 작업 공간
Biwin NVMe	1TB	AI 서버	AI 모델 아카이브 (21개)
IronWolf × 2	12TB × 2	백업 서버	전 서버 콜드백업 (NFS)

스토리지 설계는 GPU만큼 화려하지 않지만, AI 서비스의 체감 품질을 결정하는 핵심입니다. Optane의 10μs 랜덤 읽기가 RAG 검색에서 만드는 차이는 데이터로 증명됩니다. 서버 인프라와 함께 GPU 모니터링까지 갖추면, 사무실 온프레미스 AI 인프라의 완성입니다.

Treeru

웹 개발, IT 인프라, AI 솔루션 분야의 실무 인사이트를 공유합니다. 기업의 디지털 전환을 돕는 IT 파트너, Treeru입니다.

Optane 스토리지 3-Tier RAG NVMe 콜드백업

(4)

4.85/ 5

로그인 하면 댓글을 작성할 수 있습니다.

인프라아키텍트

2026-02-22

5.0

Optane 905P를 RAG 벡터DB 전용으로 쓴다는 발상이 좋습니다. 10μs vs 100μs면 체감 검색 속도가 확실히 다르겠네요. 17.5PBW 내구성도 DB 쓰기에 안심입니다.

스토리지엔지니어

2026-02-22

4.9

3-Tier로 용도별 분리하는 전략이 깔끔합니다. 보통 NVMe 1개에 다 넣는데, AI 워크로드는 랜덤 읽기와 순차 읽기가 섞이니 분리가 효과적이겠습니다.

AI개발자

2026-02-22

4.8

모델 보관 → 테스트 → 서빙 흐름이 명확합니다. 21개 모델 808GB를 Biwin에 보관하고 서빙용만 980 PRO에 올리는 패턴은 바로 적용해봐야겠네요.

Intel Optane 905P + NVMe 3-Tier 스토리지 — AI 서버 디스크 전략

왜 3-Tier인가

랜덤 읽기 집중

순차 읽기/쓰기

대용량 보관

3-Tier 구성 개요

Tier 0 — Optane 905P 960GB (핫 데이터)

Tier 1 — 980 PRO 2TB (작업 공간)

Tier 2 — Biwin NVMe 1TB (모델 보관)

Optane의 핵심 가치

RAG 벡터 검색에서 Optane이 중요한 이유

Optane의 트레이드오프

데이터 흐름

AI 모델 흐름

서비스 데이터 흐름

콜드백업 전략

백업 서버 구성

Pull 방식의 장점

백업 대상

백업 원칙

결론: 스토리지 설계 원칙

I/O 패턴에 따라 분리

서비스 데이터는 가장 빠른 곳에

내장 드라이브만으로 완전 동작

Pull 방식 백업으로 보안 강화

전체 스토리지 요약

댓글

관련 글

사무실 AI 서버 인프라 구성기

GPU 24/7 장기 운영 모니터링

RTX 5090 vs RTX PRO 6000 AI 추론 속도 비교