메타가 OCP 글로벌 서밋에서 AI 및 네트워킹 기술 혁신 세부 내용 공개하고, AI 인프라 확장성 높인 개방형 네트워크 전략을 제시했다.

메타는 미국 캘리포니아주 새너제이에서 열린 ‘2025 오픈컴퓨트프로젝트(OCP) 글로벌 서밋’에서 자사의 인공지능(AI) 및 네트워킹 기술 발전 현황을 공유했다.
페이스북은 지난 2011년 OCP의 창립 멤버로 참여했으며, 현재 모회사인 메타는 매년 이 컨퍼런스를 통해 기술 선도 기업으로서의 위치를 강화해 왔다. 올해 행사에서 메타는 AI 인프라 확장을 뒷받침할 네트워킹 기술의 진화 방향을 구체적으로 공개했다.
메타 인프라 재단 부사장 이준 송과 소프트웨어 엔지니어 카우식 비라라가반은 블로그를 통해 “AI의 등장은 인프라 확장 방식에 대한 기존의 모든 가정을 근본적으로 바꿔놓았다”라며 “AI 인프라 구축은 하드웨어와 소프트웨어, 네트워크, 그리고 데이터센터 전반에 걸쳐 혁신이 필요하다”라고 밝혔다.
메타는 오랜 기간 ‘개방형 시스템 개발’이라는 철학을 유지해왔으며, 올해 역시 그 노력을 이어가고 있다. 송과 비라라가반은 “우리는 여전히 오픈 표준을 발전시키기 위한 긴 여정을 이어가고 있다”며 “랙 전력 밀도가 계속 높아지는 만큼 시스템, 랙, 전력 표준화가 필수이며, AI 클러스터의 스케일업·스케일아웃 네트워크도 표준화돼야 고객이 다양한 GPU와 가속기를 조합해 최신이자 비용 효율적인 하드웨어를 활용할 수 있다”고 전했다.
또한 “지리적으로 분산된 다양한 하드웨어 환경에서도 동일한 작업을 실행할 수 있도록 하는 소프트웨어 혁신과 표준화가 필요하다”며 “이러한 오픈 표준은 스택의 모든 계층에 걸쳐 존재해야 하며, AI 인프라 구축 속도를 늦추는 여러 비효율을 제거할 수 있는 거대한 기회를 제공한다”고 강조했다.
ESUN 이니셔티브 참여
표준화 노력의 일환으로, 메타는 ‘ESUN(Ethernet for Scale-Up Networking)’ 이니셔티브의 핵심 참여자로 나섰다. 이 컨소시엄에는 AMD, 아리스타(Arista), ARM, 브로드컴, 시스코, HPE 네트워킹, 마벨(Marvell), 마이크로소프트, 엔비디아, 오픈AI, 오라클 등 주요 글로벌 기술 기업이 함께 참여한다.
ESUN은 스케일업 네트워킹을 위한 개방형 표준 기반의 이더넷 스위칭과 프레이밍 기술 개발에 초점을 맞춘다. 호스트 측 스택, 비이더넷 프로토콜, 애플리케이션 계층 솔루션, 독점 기술 등은 제외된다. OCP는 블로그를 통해 “ESUN은 XPU 네트워크 인터페이스와 이더넷 스위치 ASIC 개발 및 상호운용성 확보에 주력할 것”이라고 밝혔다.
또한 OCP는 “ESUN이 울트라 이더넷 컨소시엄(UEC), IEEE 802.3 이더넷 위원회 등 다른 단체들과 적극 협력해 개방형 표준을 정렬하고, 모범 사례를 도입하며, 혁신 속도를 높일 것”이라고 설명했다.
데이터센터 네트워킹 기술의 주요 진전
ESUN 출범은 메타(Meta)가 이번 행사에서 공개한 여러 AI 네트워킹 혁신 중 하나에 불과하다. 메타 엔지니어들은 인프라의 유연성, 확장성, 효율성을 높이기 위한 세 가지 주요 데이터센터 네트워킹 기술을 함께 발표했다.
첫째, 대규모 AI 클러스터 간 상호 연결을 확장하기 위한 ‘DSF(Disaggregated Scheduled Fabric)’의 진화를 공개했다. 이 기술은 데이터센터 건물 전체를 아우르는 대규모 클러스터 확장을 지원한다.
둘째, 얕은 버퍼(Shallow Buffer) 기반의 분리형 이더넷 스위치로 완전 구성된 새로운 ‘논스케줄드 패브릭(Non-Scheduled Fabric, NSF)’ 아키텍처를 선보였다. 이 기술은 메타의 초대형 AI 클러스터인 ‘프로메테우스(Prometheus)’를 지원한다.
셋째, 엔비디아(NVIDIA)의 이더넷 스펙트럼-4 ASIC 기반의 ‘미니팩3N(Minipack3N)’을 포트폴리오에 추가했다. 이는 OCP의 스위치 추상화 인터페이스(SAI)와 메타의 페이스북 오픈 스위칭 시스템(FBOSS) 소프트웨어 스택을 사용하는 51Tbps급 OCP 스위치 라인업의 최신 모델이다.
메타에 따르면 DSF는 네트워크 하드웨어, NIC, 엔드포인트 등 모든 네트워킹 구성 요소를 네트워크 기반 구조로부터 완전히 분리하는 개방형 네트워킹 패브릭이다. 이는 OCP-SAI와 FBOSS를 기반으로 구축되며, 이더넷 기반 RoCE(RDMA over Converged Ethernet) 방식을 통해 다양한 벤더의 엔드포인트, 가속기, NIC를 지원한다. 여기에는 엔비디아, AMD, 브로드컴뿐 아니라 메타의 자체 MTIA 가속기 스택도 포함된다.
또한 DSF는 단순히 트래픽 혼잡을 사후 대응하는 것이 아니라, 사전에 트래픽을 제어해 혼잡을 방지하는 ‘가상 출력 큐잉(Virtual Output Queuing)’ 기술을 적용한다. 메타 엔지니어들은 블로그를 통해 “지난 1년간 DSF를 2단계 아키텍처로 발전시켜 최대 1만 8,432개의 XPU를 연결하는 논블로킹 패브릭으로 확장했다”며 “이 클러스터는 메타의 AI 워크로드 증가에 대응하기 위해 지역 간, 또는 다지역에 걸친 AI 클러스터를 구성하는 핵심 기반이 된다”고 설명했다.
메타는 DSF에 더해 새로운 NSF 아키텍처를 도입했다. 메타 엔지니어들은 “NSF는 얕은 버퍼 기반 OCP 이더넷 스위치를 사용해 왕복 지연 시간을 최소화하도록 설계됐다”고 밝혔다.
NSF는 3계층 구조로 설계되어 있으며, 적응형 라우팅(Adaptive Routing)을 통해 부하를 효율적으로 분산한다. 이를 통해 네트워크 혼잡을 줄이고 GPU 활용률을 극대화할 수 있다. 메타는 “NSF는 부하 분산과 효율적 자원 활용을 위한 적응형 라우팅을 지원하며, 프로메테우스와 같은 기가와트 규모 AI 클러스터의 핵심 기반이 된다”고 밝혔다.
메타는 앞으로 DSF와 NSF를 상황에 맞게 병행 활용할 계획이다. DSF는 대규모이면서도 모듈형으로 구성된 AI 클러스터에 적용하고, NSF는 초대형 기가와트급 AI 팩토리인 프로메테우스와 같은 환경에 최적화한다. NSF는 초저지연 성능과 강력한 적응형 라우팅 기능을 요구하는 환경에서 특히 중요한 역할을 한다.
광학 네트워킹 기술 확장
메타는 광학 네트워킹 분야에서도 새로운 진전을 공개했다. 지난해 메타는 차세대 51Tbps 플랫폼의 백엔드와 프런트엔드 네트워크, 그리고 DSF를 지원하는 주요 광학 솔루션인 ‘2x400G FR4 BASE(3km)’를 도입했다. 현재 이 기술은 메타 데이터센터 전반에 널리 배포돼 있다.
메타 엔지니어들은 “올해는 ‘2x400G FR4 LITE(500m)’ 광학 솔루션을 포트폴리오에 추가했다”며 “FR4 LITE는 대부분의 데이터센터 내 연결을 최적화하도록 설계돼, 최대 500m 길이의 광섬유 링크를 지원하며 짧은 거리 연결에서도 견고한 성능을 유지하면서 비용 절감 효과를 제공한다”고 설명했다.
또한 메타는 AI 호스트 측 NIC 연결을 위한 첫 번째 ‘400G DR4 OSFP-RHS’ 광학 모듈을 도입했다. 여기에 더해 스위치 측 연결을 위한 새로운 ‘2x400G DR4 OSFP’ 광학 제품도 함께 배포해 호스트-스위치 간 연결 효율을 높였다.
이번 OCP 글로벌 서밋에서 메타는 AI 인프라 확장에 대응하기 위한 데이터센터 네트워킹과 광학 기술의 진화 방향을 명확히 제시했다. 개방형 표준을 기반으로 한 이러한 기술적 진보는 초대형 AI 인프라 시대의 성능과 효율성을 크게 끌어올릴 것으로 기대된다.
[email protected]