KREONET Workshop 3일차
AWS 글로벌 초고속 네트워크 기술과 Future KREONET
HPC 환경에서 요구되는 인터커넥트 기술 특징
- 고대역폭
- 분산된 노드간 대용량 네트워크 데이터의 고속 이동이 필수
- 저지연성
- 고성능을 위해 마이크로 초 수준의 매우 낮은 시간 요구
- 확장성
- 안정성 및 신뢰성
- RDMA 및 OS 바이패스
AWS 리전(Region) 디자인 원칙
- 3개의 가용영역으로 구성
- 탄력성 확보를 위한 가용 영역 디자인 원칙
고전적 데이터센터 네트워크 vs AWS 클라우드 네트워크
- 전통적 데이터센터 네트워크
- 수직적 구조
- AWS 클라우드 네트워크
- 수평적 구조
- 기존의 수직적 구조는 최신 트래픽 트랜드인 FW 트래픽을 제대로 처리하기 어려움
SRD(Scalable Reliable Datagram)
- AWS에서 자체 개발한 초고속 네트워크를 위한 프로토콜
- 특징
- AWS 데이터센터에 최적화된 네트워크 프로토콜
- 이더넷 기반
- 패킷을 순서에 상관없이 전송
- 장점
- 멀티패스 사용
- AWS 데이터센터에 최적화
- 패킷 드랍 및 지연에 대해 TCP보다 빠르게 감지
- 장애 상황에서도 안정적으로 동작
- AWS의 가상 네트워크 인터페이스인 EFA에서 사용
EC2 인스턴스의 네트워크 대역폭
- 인스턴스별로 제각각
- 소형 인스턴스
- 10Gbps 미만
- 일반 인스턴스
- 10Gbps ~ 수십 Gbps
- 고성능 또는 네트워크 특화 인스턴스
- 최대 3200 Gbps
- HPC on AWS를 구현하는 경우 EFA를 지원하는 인스턴스 환경
인스턴스 타입별 인터페이스 분류
- ENI
- Nitro
- ENA/EFA 지원
- 비 Nitro기반(old, small 인스턴스)
AWS 제공하는 네트워크 인터페이스 타입
- Generated ENI
- ENA ENI
- EFA ENI(엔지니어링, 시뮬레이션)
AWS 네트워킹 for HPC - EFA
- os 바이패스를 통한 고속의 BW를 제공하는 네트워크 인터페이스
- 일반적으로 100Gbps 이상 지원
- 지원되는 os(리눅스만 가능)
- libfabric API 지원
- Support Open MPI, Intel MPI
- 기본적으로 ENA 기능 포함
- ENA
- 일반 IP 네트워킹 지원(TCP/IP 기반)
EFA 관점에서의 SRD 및 RDMA
- EFA에서 SRD 및 RDMA 모두 지원
- RDMA
- 단 EFA의 RDMA는 기존 RDMA가 모두 호환되지는 않음
EFA 지원 인스턴스
- 2025년 기준
- 120여개 이상의 인스턴스가 EFA 지원
- 최대 3200Gbps까지 지원
EFA 인터페이스 유형
- EFA를 지원하는 ENI 유형은 단 2개
- EFA with ENA
- ENA와 EFA가 복합된 네트워크 인테터페이스
- EFA-only
- EFA 전용 인터페이스로 IP 네트워킹 기능은 없으며, 오직 고성능 HPC만 지원
EFA 제약 사항
- 윈도우 OS의 경우에는 EFA 기능을 활성화 시켜도 동작 불가(ENA만 활성화 됨)
- AZ간 SRD 통신 불가능
- 단말 AZ에서 다른 서브넷 간 SRD 통신은 가능하나 AZ간은 불가능
- 단 보안 그룹 설정 필요
- AZ간 일반 IP 트래픽은 여전히 가능
- 단말 AZ에서 다른 서브넷 간 SRD 통신은 가능하나 AZ간은 불가능
EFA vs Infiniband
인프라
세계 AI 트래픽 인프라
- 트래픽 전망 - 2030년까지 글로벌 데이터 트래픽 10배 증가, AI/ML 트래픽 비중 80% 전망
- 속도 전환 - 2025년 800Gbps, 2027년 1.8Tbps 물리적 인터페이스 속도 주류
기술과 서비스의 융합
- 서비스 계층
- KPI 조정
- 자동화 루프
- 기술 연계
- 운영 방향
Sovereign AI & Intelligent DX 3.0 Framework
- DX 3.0
- 시기 - 2024-2030
- 핵심기술 - AI
로드맵
- 트래픽 지수 - 2030년까지 글로벌 데이터 트래픽 - 10배 증가, AI/ML 트래픽 비중 - 80%전망
- 전송 기술 - 800Gbps → 1.8Tbps Optical I/O
- 기술 구조 - Electrical 한계 극복 → Optical I/O 주류화, PUE 기반 설계 기준 확립
- 정책 변화 - Sovereign AI + DX 3.0 → 국가 인프라 전략 통합
- 발표 구성 - 기술 → 운영 → 신뢰 → 전략 순서로 프레임워크 전개
Electrical SerDes의 한계
- 세대 구분 - 1128 SerDes, 58G PAM4 대비 속도 2배, 전력 효율 1/2 수준
- 전력 효율 - 전기 신호 전송 효율 20-25 pJ/bit 소비, PCB 기준 10~15cm
- 기술 병목
- 전환 필요
- 산업 표준
CPO - 개념과 실증