KREONET Workshop 3일차

AWS 글로벌 초고속 네트워크 기술과 Future KREONET

HPC 환경에서 요구되는 인터커넥트 기술 특징

  • 고대역폭
    • 분산된 노드간 대용량 네트워크 데이터의 고속 이동이 필수
  • 저지연성
    • 고성능을 위해 마이크로 초 수준의 매우 낮은 시간 요구
  • 확장성
  • 안정성 및 신뢰성
  • RDMA 및 OS 바이패스

AWS 리전(Region) 디자인 원칙

  • 3개의 가용영역으로 구성
  • 탄력성 확보를 위한 가용 영역 디자인 원칙

고전적 데이터센터 네트워크 vs AWS 클라우드 네트워크

  • 전통적 데이터센터 네트워크
    • 수직적 구조
  • AWS 클라우드 네트워크
    • 수평적 구조
  • 기존의 수직적 구조는 최신 트래픽 트랜드인 FW 트래픽을 제대로 처리하기 어려움

SRD(Scalable Reliable Datagram)

  • AWS에서 자체 개발한 초고속 네트워크를 위한 프로토콜
  • 특징
    • AWS 데이터센터에 최적화된 네트워크 프로토콜
    • 이더넷 기반
    • 패킷을 순서에 상관없이 전송
  • 장점
    • 멀티패스 사용
    • AWS 데이터센터에 최적화
      • 패킷 드랍 및 지연에 대해 TCP보다 빠르게 감지
  • 장애 상황에서도 안정적으로 동작
  • AWS의 가상 네트워크 인터페이스인 EFA에서 사용

EC2 인스턴스의 네트워크 대역폭

  • 인스턴스별로 제각각
  • 소형 인스턴스
    • 10Gbps 미만
  • 일반 인스턴스
    • 10Gbps ~ 수십 Gbps
  • 고성능 또는 네트워크 특화 인스턴스
    • 최대 3200 Gbps
  • HPC on AWS를 구현하는 경우 EFA를 지원하는 인스턴스 환경

인스턴스 타입별 인터페이스 분류

  • ENI
  • Nitro
    • ENA/EFA 지원
  • 비 Nitro기반(old, small 인스턴스)

AWS 제공하는 네트워크 인터페이스 타입

  • Generated ENI
  • ENA ENI
  • EFA ENI(엔지니어링, 시뮬레이션)

AWS 네트워킹 for HPC - EFA

  • os 바이패스를 통한 고속의 BW를 제공하는 네트워크 인터페이스
  • 일반적으로 100Gbps 이상 지원
  • 지원되는 os(리눅스만 가능)
  • libfabric API 지원
  • Support Open MPI, Intel MPI
  • 기본적으로 ENA 기능 포함
  • ENA
    • 일반 IP 네트워킹 지원(TCP/IP 기반)

EFA 관점에서의 SRD 및 RDMA

  • EFA에서 SRD 및 RDMA 모두 지원
  • RDMA
    • 단 EFA의 RDMA는 기존 RDMA가 모두 호환되지는 않음

EFA 지원 인스턴스

  • 2025년 기준
    • 120여개 이상의 인스턴스가 EFA 지원
    • 최대 3200Gbps까지 지원

EFA 인터페이스 유형

  • EFA를 지원하는 ENI 유형은 단 2개
  • EFA with ENA
    • ENA와 EFA가 복합된 네트워크 인테터페이스
  • EFA-only
    • EFA 전용 인터페이스로 IP 네트워킹 기능은 없으며, 오직 고성능 HPC만 지원

EFA 제약 사항

  • 윈도우 OS의 경우에는 EFA 기능을 활성화 시켜도 동작 불가(ENA만 활성화 됨)
  • AZ간 SRD 통신 불가능
    • 단말 AZ에서 다른 서브넷 간 SRD 통신은 가능하나 AZ간은 불가능
      • 단 보안 그룹 설정 필요
      • AZ간 일반 IP 트래픽은 여전히 가능

EFA vs Infiniband

인프라

세계 AI 트래픽 인프라

  • 트래픽 전망 - 2030년까지 글로벌 데이터 트래픽 10배 증가, AI/ML 트래픽 비중 80% 전망
  • 속도 전환 - 2025년 800Gbps, 2027년 1.8Tbps 물리적 인터페이스 속도 주류

기술과 서비스의 융합

  • 서비스 계층
  • KPI 조정
  • 자동화 루프
  • 기술 연계
  • 운영 방향

Sovereign AI & Intelligent DX 3.0 Framework

  • DX 3.0
    • 시기 - 2024-2030
    • 핵심기술 - AI

로드맵

  • 트래픽 지수 - 2030년까지 글로벌 데이터 트래픽 - 10배 증가, AI/ML 트래픽 비중 - 80%전망
  • 전송 기술 - 800Gbps → 1.8Tbps Optical I/O
  • 기술 구조 - Electrical 한계 극복 → Optical I/O 주류화, PUE 기반 설계 기준 확립
  • 정책 변화 - Sovereign AI + DX 3.0 → 국가 인프라 전략 통합
  • 발표 구성 - 기술 → 운영 → 신뢰 → 전략 순서로 프레임워크 전개

Electrical SerDes의 한계

  • 세대 구분 - 1128 SerDes, 58G PAM4 대비 속도 2배, 전력 효율 1/2 수준
  • 전력 효율 - 전기 신호 전송 효율 20-25 pJ/bit 소비, PCB 기준 10~15cm
  • 기술 병목
  • 전환 필요
  • 산업 표준

CPO - 개념과 실증