고성능 데이터 전송 툴, Globus 서비스

Science DMZ

  • 지연이 거의 없는 네트워크 경로를 만드는게 목표
  • 데이터 전송 툴, Globus Online, GridFTP
  • 퍼포먼스 측정 도구 perfSONAR

Globus Online Overview

  • 협업 연기기관 간 대용량 데이터의 고속 전공 기능을 Saas 방식으로 제공하는 소프트웨어 기반 클라우드 플랫폼 서비스
  • 핵심 기능인 데이터 전송 기능 외에 협업 연구자들 간의 데이터 공유 및 표탈 연계 가능한 사용자 맞춤형 응용 개발을 지원하는 플랫폼 제공

GCS, GCP

  • Globus Connect
    • 전송에 참여하는 종단 전송 서버 등을  Globus Endpoint로 만들어주는 소프트웨어
    • 두 종류의 버전 GCS(Globus Connect Server), GCP(Globus Connect Personal)
  • GCS - 기관이나 연구소의 공유 서버, 클러스터, 대규모 스토리지 시스템 등 다중 사용자 환경에서 대용량 데이터를 안전하고 효율적으로 전송하기 위해 설치하는 소프트웨어

주요 기능 및 특징

      •  다중 사용자 지원 - 여러 연구자나 사용자가 동일한 서버의 데이터에 접근하여 전송할 수 있도록 설계
      • 고성능 전송 - 대규모 데이터 전송에 최적화되어 있으며, 10Gbps, 100Gbps 이상의 고속 네트워크 환경에서 최대한의 성능을 낼 수 있도록 구성
      • 고가용성 및 신뢰성 - 연기기관의 중요한 데이터 허브 역할을 하므로 안정적인 서비스 제공을 위한 기능과 설정 포함
      • 세분화된 접근 제어 - 시스템 관리자는 사용자별, 그룹별로 특정 파일이나 디렉토리에 대한 접근 및 전송 권한을 세밀하게 제어할 수 있음
      • 보안 강화 - 강력한 인증, 권한 부여, 데이터 암호화 기능을 제공하여 민감한 연구 데이터를 안전하게 전송
      • 시스템 관리자 주도 - 주로 기관의 중앙 시스템에 설치되므로, 시스템 관리자가 설치, 구성, 업데이트, 모니터링을 담당
  • GCP -  개인용 컴퓨터나 개인이 관리하는 소규모 서버에서 Globus 엔드포인트를 생성하여 데이터를 전송 및 공유할 수 있도록 해주는 소프트웨어

주요 기능 및 특징

      • 개인용 엔드포인트 생성 - 사용자가 자신의 PC를 Globus 네트워크의 엔드포인트로 쉽게 등록할 수 있음.
      • 간편한 설치 및 사용 - 일반적으로 클릭 몇 번으로 설치가 완료되며, 복잡한 네트워크 설정 지식 없이도 사용 가능
      • Fire-and-Forgot 전송 - 대용량 파일 전송 중 인터넷 연결이 끊기거나 컴퓨터가 잠자기 모드로 전환 되어도 Globus 서비스가 자동으로 전송을 재개
      • 원격 접속 없이 전송 - Globus는 클라우드 기반 서비스이므로, 사용자가 직접 SSH나 FTP 등으로 서버에 접속하지 않고도 웹 인터페이스나 CLI를 통해 원격 엔드포인트 간의 전송 명령 가능
      • 다른 Globus 엔드포인트와 연동 - GCS 엔드포인트(기관 서버)나 다른 GCP 엔드포인트(다른 개인PC)와 데이터를 주고받을 수 있음
      • 데이터 공유 - 자신의 PC에 있는 데이터를 다른 Globus 사용자와 쉽게 공유할 수 있도록 공유 기능을 제공

GCSv5 (Globus Connect Server version 5)

  • 이전 버전에 비해 아키텍처와 배포 모델이 크게 개선되고 여러 중요한 새로운 기능이 도입된 버전
  • 주요 계층 - Data transfer nodes, Endpoint, Storage  gateways, Collections
  • 구조 분석
    • Endpoint
      • GCSv5 dml deloyment 단위, 엔드포인트는 선택적으로 다수의 DTN 또는 서버를 포함할 수 있음
    • Storage connector and gateway
      • 엔드포인트에 연결된 스토리지 시스템에 대한 스토리지 접근 정책을 제공하고 인가된 사용자가 연결된 스토리지 시스템상의 collection들을 생성하고 관리할 수 있는 검색 가능한 인터페이스 제공
    • Collection
      • 데이터 접근 인터페이스를 제공함으로써  HTTPS, GridFTP 및 REST API를 통한 접근 허용
      • 특정  storarge gateway와 연계되어 폴더에 계층적으로 구성된 파일들의 집합을 지칭
      • Collection에 대한 접근은 Collection 자체에 정의된 데이터 접근 정책과 함께 Globus Auth에서 발급된 OAuth2 엑세스 토큰들로 인증됨
  • OAuth 기반 인증 및 권한 관리
    • GCSv5는 사용자 인증에 OAuth 기반의 새로운 접근 관리 아키텍처 도입
    • 이전 버전에서 사용되던 사용자 인증서 방식을 대체하여, 보다 현대적이고 안전하며 유연한 인증 방식 제공
    • 엔드포이트 수준의 사용자 동의 메커니즘 통합 
  • 다중 데이터 전송 노드(Multi-DTN) 지원
    • 하나의 Globus Connect Server 엔드포인트에 여러 개의 데이터 전송 노드(DTN)를 연결할 수 있게 되어, 전송 처리량을 크게 늘리고 단일 지점 장애(SPOF) 위험을 줄여 서비스 가용성을 높임
  • 마이그레이션 도구 및 지웡
    • Globus는 GCSv4에서 GCSv5로의 원활한 마이그레이션을 위한 가이드와 도구를 제공하여 기존 사용자들이 새로운 아키텍처로 쉽게 전환할 수 있도록 지원

Usecase

  • GCS 기반의 DTN Clustering
    • 생성된 각각의 grifftp-server 프로세스들은 DTN에서 제공하는 다수의 CPU 코어들로 매핑되어 병행성 증가
    • 추가적으로 각각의  girdftp-server 프로세스들은 하나의 파일을 전송하는데 있어 병렬성 높임
  • Mapped Collection : DJ DTN Collection
    • DJ DTN Collection 기준 Esnet Sunnyvale Read-Only DTN 전송
      • Climate-Medium_Climate-Large data set 기준, 수신 약 41.2Gbps