Globus를 활용한 고성능 데이터 전송

1. Science DMZ 적용 모델의 핵심 요소

  • Science DMZ는 대용량 과학 데이터의 효율적인 전송을 위해 설계된 특화된 네트워크 아키텍처
    • Friction-free network path (마찰 없는 네트워크 경로)
      • 데이터 전송 시 지연이나 병목 현상 없이 최적의 속도를 보장하는 네트워크 경로를 의미
      • 전용 회선, 고성능 장비, 최적화된 라우팅 설정 등을 통해 구현
    • DTN (Data Transfer Node) running optimized bulk data transfer tools
      • DTN은 대용량 데이터 전송에 특화된 서버
      • GlobusOnline/GridFTP와 같은 최적화된 대용량 데이터 전송 도구를 사용하여 효율적인 전송 수행
    • Performance measurement/test node
      • 네트워크 성능을 지속적으로 측정하고 테스트하여 병목 현상이나 장애를 조기에 감지하고 해결하기 위한 노드
      • perfSONAR와 같은 도구가 활용됩니다.

2. Globus Online 개요

  • Globus Online은 협업 연구 기관 간 대용량 데이터의 고속 전송 기능을 SaaS 방식으로 제공하는 소프트웨어 기반 클라우드 플랫폼 서비스
  • 주요 특징:
    • 대용량 데이터 고속 전송: 협업 연구 기관 간 페타바이트(PB)급 이상의 데이터를 빠르고 안정적으로 전송
    • SaaS 방식: 별도의 인프라 구축 없이 웹 기반으로 서비스를 이용할 수 있어 편리
    • 플랫폼 서비스: 핵심 데이터 전송 기능 외에도 협업 연구자들 간의 데이터 공유, 관리, 그리고 포털 연계 가능한 사용자 맞춤형 애플리케이션 개발을 지원하는 플랫폼을 제공
    • GCS (Globus Connect Server) 및 GCP (Globus Connect Personal) 개념: Globus는 데이터 전송에 참여하는 종단 서버를 Globus Endpoint로 만들어주는 소프트웨어를 제공하는데, 두 가지 버전 존재

3. Globus Connect

  • Globus Connect는 전송에 참여하는 종단 전송 서버 등을 Globus Endpoint로 만들어 주는 소프트웨어
  1. Globus Connect Server (GCS)
    • GCS는 HPC 클러스터, 연구실 서버 등 대규모 데이터 환경에서 사용되는 Globus Endpoint 소프트웨어
    • GCSv5 구조
      • Data transfer nodes (DTN): 실제 데이터 전송이 이루어지는 노드
      • Endpoint deployment 단위: 각 서버 또는 DTN을 Node로 언급하며, Endpoint는 서버 관리 및 구성을 위한 인터페이스를 제공
      • Storage Connector: Endpoint가 POSIX 파일 시스템이나 특정 유형의 스토리지를 사용할 수 있도록 연결
      • Storage Gateways: 스토리지 접근 정책을 제공하고, Collection들을 검색 가능한 인터페이스를 제공
      • Collections: 데이터 접근 인터페이스를 제공하여 HTTP, GridFTP 및 REST API를 통한 접근을 허용. 특정 Storage Gateway와 연계되어 폴더에 계층적으로 구성된 파일들의 집합을 지정
        • Mapped Collection: 로컬 계정을 보유한 사용자를 위한 컬렉션
        • Guest Collection: 로컬 계정이 없더라도 사용 가능하지만, 일부 기능에 제한
    • GCS 설정 및 구성:
      • DTN 상에 서비스 설정: DTN 상에 Globus 서비스를 설정하고 시작하기 위해 globus-connect-server node setup 명령어를 실행. systemd 서비스를 활성화하여 시작하므로 root 사용자로 수행
      • Endpoint 로그인: Endpoint와 상호 작용하기 위해 globus-connect-server 명령어에서 이용될 수 있는 로컬 인증 토큰을 생성합니다. Endpoint 설정에서 해당 Endpoint의 소유자로 선택한 ID로 로그인
      • Managed Endpoint 생성: Guest Collection 및 병행성/병렬성 수준을 설정하여 Managed Endpoint를 생성
      • Storage Gateway 생성: ID로 접근을 제한하는 POSIX 계열의 Storage Gateway (예: DJ DTN GATEWAY)를 globus-connect-server storage-gateway create posix 명령어를 사용하여 생성
      • Mapped Collection 생성: 생성된 스토리지 게이트웨이를 이용하여 특정 경로(예: /)를 기반으로 하는 Mapped Collection (예: DJ DTN Collection)을 globus-connect-server collection create {collection id}/ "DJ DTN Collection" 명령어를 사용하여 생성
      • DTN 클러스터 설정: DTN 노드의 가용성을 높이고, 하나의 Endpoint에 여러 개의 DTN을 묶어서 제공하기 위해서는 DTN 클러스터를 구성.
  2. Globus Connect Personal (GCP) 
    • Globus Connect Personal은 사용자의 편의를 위해 만들어진 개인용 Globus Endpoint 소프트웨어입니다. 대용량 데이터 전송에는 적합하지 않고, 소량의 데이터를 간편하게 전송할 때 주로 사용

4. 사용 방법

  1. 회원가입 (https://www.globusid.org/create)
  2. 이용할 엔드포인트를 찾고 실행