오라클, ‘제타스케일10’으로 AI 초대형 슈퍼컴퓨팅 시장 공략

뉴스
2025.10.175분
인공지능HPC슈퍼컴퓨터

오라클이 80만 개 엔비디아 GPU를 연결한 OCI 슈퍼컴퓨터를 통해 차세대 AI 학습과 추론 성능 향상을 추진하고 있다.

Oracle
Credit: Tada Images - shutterstock.com

오라클 클라우드 인프라스트럭처(OCI)는 단순히 인공지능(AI)에 집중하는 수준을 넘어, 압도적인 규모의 AI에 모든 역량을 쏟고 있다.

이번 주 오라클은 ‘클라우드 상에서 가장 큰 AI 슈퍼컴퓨터’라고 부르는 ‘OCI 제타스케일10(Zettascale10)’을 공식 발표했다. 이 멀티 기가와트급 아키텍처는 수십만 개의 엔비디아(Nvidia) GPU를 연결해, OCI가 ‘전례 없는 성능’이라고 표현한 처리 능력을 구현했다.

이 슈퍼컴퓨터는 오라클이 추진 중인 5,000억 달러(약 710조 원) 규모의 초대형 AI 프로젝트 ‘스타게이트’의 핵심 인프라 역할을 맡게 된다.

인포테크리서치그룹(Info-Tech Research Group)의 시니어 애널리스트 야즈 팔라니차미는 파운드리 산하 언론사 네트워크월드와의 인터뷰에서 “이번 플랫폼은 가속화된 성능, 엔터프라이즈급 확장성, 그리고 산업별 AI 애플리케이션의 요구에 맞춘 운영 효율성을 제공한다”라고 말했다.

[관련 기사 : 지연되는 700조 AI 프로젝트 ‘스타게이트’··· IT 리더에게 주는 교훈은?]

오라클의 새로운 슈퍼컴퓨터는 어떻게 작동하나

오라클의 새로운 슈퍼컴퓨터는 여러 데이터센터에 분산된 수십만 개의 엔비디아 GPU를 하나로 묶어 거대한 멀티 기가와트급 클러스터를 형성한다. 이 구조를 통해 아키텍처는 최대 10배에 달하는 제타플롭스(zettaFLOPS)급 연산 성능을 구현하며, 회사는 최고 16제타플롭스라는 ‘전례 없는 수준’의 성능을 달성했다고 밝혔다.

참고로 제타플롭스(zettaFLOPS)는 1초에 10의 21제곱, 즉 1,000경 번의 부동소수점 연산(FLOPS연산을 수행할 수 있는 단위를 뜻한다. 이는 가장 고도화된 인공지능(AI) 및 머신러닝(ML) 시스템이 처리하는 복잡한 연산을 실시간으로 수행할 수 있는 수준이다. 반면 일반 컴퓨터는 기가플롭스(10의 9제곱) 또는 엑사플롭스(10의 18제곱) 단위에서 작동한다.

팔라니차미는 “OCI 제타스케일10은 대규모 생성형 AI 활용 사례를 통합하기 위해 설계됐으며, 특히 대형 언어 모델(LLM)의 학습과 실행을 지원하는 데 초점을 맞췄다”고 설명했다.

오라클은 또한 OCI 네트워킹 스택인 ‘오라클 액셀러론(Oracle Acceleron)’에 새로운 기능을 추가해, 고객이 워크로드를 더 빠르고 비용 효율적으로 실행할 수 있도록 했다. 여기에 전용 네트워크 패브릭, 통합형 NIC(네트워크 인터페이스 카드), 호스트 단위 제로 트러스트 패킷 라우팅 기능이 포함됐다. 오라클은 이를 통해 네트워크 및 스토리지 처리량을 두 배로 높이면서도 지연 시간과 비용을 줄일 수 있다고 설명했다.

오라클의 제타스케일 슈퍼컴퓨터는 액셀러론의 RoCE(RDMA over Converged Ethernet) 아키텍처와 엔비디아 AI 인프라를 기반으로 구축됐다. 이 조합은 GPU 간 초저지연 통신, 비용 대비 성능 향상, 클러스터 활용률 개선, 그리고 높은 안정성을 동시에 구현한다.

오라클에 따르면 이번 아키텍처는 ‘넓고, 얕으며, 복원력이 강한(wide, shallow, resilient)’ 패브릭 구조를 채택했다. 또한 최신 GPU NIC에 내장된 스위칭 기능을 활용해 여러 스위치와 동시에 연결할 수 있지만, 각 스위치는 독립적인 네트워크 평면 위에서 작동한다. 덕분에 고객은 더 큰 클러스터를 빠르게 배포하면서도 장애나 중단, 체크포인트 재시작을 최소화할 수 있다. 네트워크 트래픽은 불안정하거나 경쟁 상태의 경로를 우회해 다른 네트워크 평면으로 전환된다.

또한 이 아키텍처는 전력 효율이 높은 광학 기술을 도입하고, 대규모 데이터센터 캠퍼스 내 2km 반경에 클러스터를 밀집 배치해 ‘초고밀도(hyper-optimized)’ 구조를 구현했다.

오픈AI의 인프라 및 산업 컴퓨팅 담당 부사장 피터 회셸레는 “이 고확장형 맞춤형 설계는 기가와트급 규모에서 패브릭 전체의 성능을 극대화하면서, 전력의 대부분을 컴퓨팅 성능에 집중하도록 최적화됐다”라고 말했다.

OCI는 현재 제타스케일10의 주문을 받고 있으며, 2026년 하반기 정식 출시를 계획하고 있다. 초기에는 최대 80만 개의 엔비디아 GPU를 탑재한 멀티 기가와트급 배포 구성을 우선 제공할 예정이다.

그렇다면 과연 이런 규모가 꼭 필요할까?

포레스터의 시니어 애널리스트 앨빈 응우옌은 “엄청난 수준의 컴퓨팅 자원처럼 보이지만, 실제로 이를 필요로 하는 고객이 존재한다”라며 “오픈AI처럼 한계를 시험하는 기업들이 대표적 사례”라고 말했다.

그는 지금까지 대부분의 AI 모델이 텍스트 데이터를 중심으로 학습해왔으며, 사실상 “인류가 지금까지 작성한 모든 기록”이 포함됐다고 설명했다. 그러나 이제 AI 시스템은 이미지, 오디오, 영상 등 훨씬 크고 연산 집약적인 데이터를 처리해야 한다. 응우옌은 “앞으로는 학습 단계보다 추론 단계의 연산 수요가 훨씬 더 커질 것”이라고 내다봤다.

또한 응우옌은 오라클의 제타스케일10 같은 새로운 AI 공장형 시스템이 대량 생산되기까지는 상당한 시간이 걸린다고 지적했다. 또한 그는 “기업이 필요한 만큼의 공급을 확보하지 못할 경우 어떤 결과가 나타날지에 대한 우려가 있다”며 “하지만 그중 상당 부분은 예측 불가능하다”라고 밝혔다.

인포테크리서치그룹의 팔라니차미 역시 대규모 GPU 조달과 관련한 불안감이 항상 존재한다고 인정하면서도, 이번 주 발표된 오라클과 AMD의 협력 관계를 긍정적으로 평가했다. 그는 “이번 파트너십은 대규모 AI 학습과 추론을 위한 GPU 수요를 안정적으로 조정하고, 에너지 효율성을 확보하기 위한 중요한 진전”이라고 분석했다.

AI 공장을 감당할 수 없는 기업에게 주는 조언: ‘창의적으로 접근하라’

응우옌은 “오픈AI는 오라클의 주요 파트너이긴 하지만, 대부분의 OCI 고객은 연구소가 아니라 일반 기업”이라며 “이들은 최신 기술을 반드시 필요로 하는 것이 아니라, 기존 시스템을 최적화하는 방식으로 충분히 경쟁력을 확보할 수 있다”라고 말했다.

그는 “소프트웨어 스택을 최신 버전으로 업그레이드하는 것만으로도 성능과 속도를 개선할 수 있다”라며 “지금이야말로 공급망과 파트너십 관리 역량을 점검할 시점”이라고 설명했다. 이어 “기업은 공급망, 벤더, 협력사 현황을 명확히 파악하고 가능한 한 많은 자원에 접근할 수 있도록 해야 한다”라고 조언했다.

응우옌은 “대다수 기업은 자체 AI 메가팩토리를 구축할 여력이 없지만, 다른 기업이 운영하는 대형 인프라를 활용할 수 있다”라며 “파트너와 협력하고, 다양한 클라우드 옵션을 모색하며, 창의적인 방법을 찾아야 한다”라고 덧붙였다.

그는 마지막으로 “디지털 격차처럼 AI 격차도 점점 확대되고 있다”라며 “모든 기업이 1등이 될 필요는 없지만, 기회가 왔을 때 실행할 수 있는 역량이 중요하다”라고 표현했다.
[email protected]