Ken Claffey
Contributor

칼럼 | AI의 막대한 데이터 수요, 기업 스토리지 전략도 변화가 필요하다

오피니언
2025.10.134분
인공지능클라우드 스토리지엔터프라이즈 스토리지

AI의 막대한 데이터 수요가 기존 스토리지 시스템을 무너뜨리고 있다. 기업들은 예산이 소진되기 전에 속도와 안정성을 위해 인프라를 재구축해야 하는 상황에 직면해 있다.

consumption
Credit: Bigstock

AI 워크로드가 기업의 기술 인프라 구조를 근본적으로 바꾸고 있다. 시장 전망에 따르면 변화의 폭은 매우 크다. 맥킨지(McKinsey)는 “AI가 데이터센터 용량 수요 증가의 핵심 요인이 됐다. 전체 수요는 2030년까지 거의 3배로 늘어나고, 그중 약 70%가 AI 워크로드에서 비롯될 것”이라고 분석했다.

세계경제포럼(WEF)은 현재 2,427억 달러 규모인 글로벌 데이터센터 산업이 2032년까지 약 5,840억 달러로 2배 이상 성장할 것으로 전망하고 있다. 그러나 여기에는 중대한 과제가 뒤따르고 있다. 기존 스토리지 방식은 예측 가능한 트래픽을 전제로 설계된 과거의 산물로, 오늘날과 같이 불규칙하고 대규모 데이터를 다루는 AI 시스템의 요구를 충족하기에는 부적합하다는 것이다. 기업이 아키텍처의 근본을 다시 설계하지 않는다면 막대한 투자금의 상당 부분이 낭비될 위험이 있다.

기존 솔루션 격차

기업 스토리지 솔루션은 수십 년 동안 데이터베이스나 전사적 애플리케이션 등 예측 가능한 워크로드를 중심으로 설계돼 왔다. 이런 환경에서는 IT 리더가 스토리지 기술을 비교적 정밀하고 유연하게 확장할 수 있었고, 안정적이고 효율적인 인프라 운영을 가능하게 했다.

AI는 기존 접근 방식을 완전히 뒤흔들고 있다. AI 모델 학습은 텍스트, 이미지, 영상, 센서 로그 등 방대한 비정형 데이터셋을 읽고 처리할 수 있는 시스템 성능에 전적으로 의존한다. 이 데이터들은 여러 위치에 분산돼 있으며, 무작위적이고 병렬적인 방식으로 시스템에 접근한다. 이제는 몇 개의 애플리케이션이 순차적으로 데이터를 요청하는 시대가 아니다. 한 기업이 수만 개의 GPU 스레드를 동시에 구동하며, 이 모든 프로세스가 초고속 데이터 처리, 낮은 지연시간, 병렬 접근 시 성능 저하 없는 스토리지를 요구한다.

문제는 스토리지가 속도를 따라가지 못할 때 발생한다. 데이터 공급이 지연되면 GPU는 유휴 상태가 되고, 이는 곧 막대한 예산 낭비와 핵심 AI 프로젝트의 개발 및 배포 지연으로 이어진다.

HPC에서 얻을 교훈

이런 과제가 완전히 새로운 현상은 아니다. 고성능컴퓨팅(HPC) 환경은 이미 오랜 기간 유사한 과제를 겪어왔다. 예를 들어 생명과학 분야에서는 페타바이트(PB) 단위로 측정되는 유전체 데이터에 중단 없이 접근할 수 있어야 한다. 대표적인 사례가 영국 바이오뱅크(UK Biobank)다. 이 기관은 생물학, 건강, 생활습관 정보를 아우르는 세계 최대 규모의 데이터셋을 보유하고 있으며, 현재 약 50만 명의 데이터를 기반으로 30PB에 달하는 생물·의료 정보를 저장하고 있다. 정부 부문에서도 정보 분석이나 국방 시뮬레이션과 같은 핵심 애플리케이션은 99.999%의 가용성을 요구한다. 단 몇 초의 중단이 발생하면 보안 또는 작전 준비 태세에 심각한 영향을 미칠 수 있다.

AI 워크로드 역시 HPC와 마찬가지로 성능과 복원력의 균형을 갖춘 아키텍처를 필요로 한다. 이는 종종 서로 다른 스토리지 계층을 결합하는 것을 의미한다. 즉, 자주 접근하거나 빠른 속도가 요구되는 데이터는 고성능 스토리지에 두고 상대적으로 중요도가 낮은 데이터는 저비용 스토리지 환경으로 이동시키는 식이다.

기업이 HPC 사용 경험에서 교훈을 얻고자 한다면, 일률적인 배포 방식에서 벗어나 학습과 추론의 특정 요구사항에 맞춰 인프라를 구성하는 하이브리드 스토리지 시스템으로 전환할 준비를 갖춰야 한다.

데이터 내구성 확보의 중요성

기업들이 직면한 또 다른 핵심 과제는 데이터 내구성이다. 이는 시스템 장애, 데이터 손상, 인프라 중단 등 다양한 상황에서도 저장된 데이터가 온전하고 정확하며 복구 가능한 상태로 유지되는 정도를 의미한다.

이 문제는 AI 프로젝트의 성공 여부에 직접적인 영향을 미친다. 가트너(Gartner)는 최근 보고서에서 “2026년까지 AI에 최적화된 데이터 환경을 갖추지 못한 조직의 60%가 AI 프로젝트를 포기할 것”이라고 전망했다. 이는 조직이 여전히 데이터 관리 체계와 스토리지 복원력 확보에 미흡하다는 현실을 드러낸다. 조사에 따르면 AI 프로젝트의 단 48%만이 실제 운영 단계에 진입하며, 최고데이터책임자(CDO)의 65%는 올해의 AI 목표를 달성하기 어렵다고 응답했다. 또한 조사에 응한 CDO의 98%가 심각한 데이터 품질 문제를 경험했다고 밝혔다.

이 같은 현실이 IT 리더의 경각심을 일깨우지 못하더라도 비용 문제만큼은 주목할 만하다. 데이터 품질 저하로 인해 기업은 매년 평균 1,290만~1,500만 달러를 잃고 있으며, 데이터 파이프라인 장애로 인한 인사이트 손실 및 SLA 미달성 비용은 시간당 약 30만 달러, 분당 5,000달러에 이른다. 이런 실패는 AI 모델 학습 중단, 가치 실현 지연이라는 문제를 낳는다.

문제를 피하기 위해서는 기술적 대응과 운영적 대응이 모두 필요하다. 기술적인 측면에서는 다중 레벨 삭제코딩(Multi-Level Erasure Coding, MLEC)이 여러 동시 장애에 대한 보호 기능을 제공함으로써 기존 RAID보다 더 높은 내결함성을 제공한다. 또한 플래시와 디스크를 결합한 하이브리드 스토리지 시스템은 초저지연 성능을 유지하면서도 비용을 효율적으로 관리할 수 있으며, 모듈형 아키텍처는 용량이나 성능을 점진적으로 확장할 수 있는 유연성을 제공한다.

운영 측면에서는 자동화된 데이터 무결성 점검을 통해 손상된 데이터를 학습 파이프라인에 투입하기 전에 탐지하고 격리할 수 있다. 아울러 정기적인 복구 시뮬레이션을 수행함으로써 실제 장애 상황에서도 AI 운영 환경이 요구하는 짧은 복구 시간 내에 시스템을 정상화할 수 있도록 대비할 수 있다.
[email protected]

Ken Claffey

Ken Claffey, CEO of VDURA, has worked in the high-performance computing (HPC) and storage industries for many years. With executive roles at Seagate, Xyratex, Adaptec and Eurologic, Ken’s roles have shaped the trajectory of enterprise storage and HPC innovation for over two decades.

Beyond his executive achievements, Ken has held leadership positions across product, operations, sales and engineering, giving him a uniquely holistic view of the technology landscape. As CEO of VDURA, he channels this experience into innovation-led growth. His strategic clarity, operational depth and passion for HPC and AI are propelling VDURA toward market leadership in an era defined by data-driven performance.