고성능 데이터 전송 툴, Globus 서비스
Science DMZ
- 지연이 거의 없는 네트워크 경로를 만드는게 목표
- 데이터 전송 툴, Globus Online, GridFTP
- 퍼포먼스 측정 도구 perfSONAR
Globus Online Overview
- 협업 연기기관 간 대용량 데이터의 고속 전공 기능을 Saas 방식으로 제공하는 소프트웨어 기반 클라우드 플랫폼 서비스
- 핵심 기능인 데이터 전송 기능 외에 협업 연구자들 간의 데이터 공유 및 표탈 연계 가능한 사용자 맞춤형 응용 개발을 지원하는 플랫폼 제공
GCS, GCP
- Globus Connect
- 전송에 참여하는 종단 전송 서버 등을 Globus Endpoint로 만들어주는 소프트웨어
- 두 종류의 버전 GCS(Globus Connect Server), GCP(Globus Connect Personal)
- GCS - 기관이나 연구소의 공유 서버, 클러스터, 대규모 스토리지 시스템 등 다중 사용자 환경에서 대용량 데이터를 안전하고 효율적으로 전송하기 위해 설치하는 소프트웨어
주요 기능 및 특징
- 다중 사용자 지원 - 여러 연구자나 사용자가 동일한 서버의 데이터에 접근하여 전송할 수 있도록 설계
- 고성능 전송 - 대규모 데이터 전송에 최적화되어 있으며, 10Gbps, 100Gbps 이상의 고속 네트워크 환경에서 최대한의 성능을 낼 수 있도록 구성
- 고가용성 및 신뢰성 - 연기기관의 중요한 데이터 허브 역할을 하므로 안정적인 서비스 제공을 위한 기능과 설정 포함
- 세분화된 접근 제어 - 시스템 관리자는 사용자별, 그룹별로 특정 파일이나 디렉토리에 대한 접근 및 전송 권한을 세밀하게 제어할 수 있음
- 보안 강화 - 강력한 인증, 권한 부여, 데이터 암호화 기능을 제공하여 민감한 연구 데이터를 안전하게 전송
- 시스템 관리자 주도 - 주로 기관의 중앙 시스템에 설치되므로, 시스템 관리자가 설치, 구성, 업데이트, 모니터링을 담당
- GCP - 개인용 컴퓨터나 개인이 관리하는 소규모 서버에서 Globus 엔드포인트를 생성하여 데이터를 전송 및 공유할 수 있도록 해주는 소프트웨어
주요 기능 및 특징
- 개인용 엔드포인트 생성 - 사용자가 자신의 PC를 Globus 네트워크의 엔드포인트로 쉽게 등록할 수 있음.
- 간편한 설치 및 사용 - 일반적으로 클릭 몇 번으로 설치가 완료되며, 복잡한 네트워크 설정 지식 없이도 사용 가능
- Fire-and-Forgot 전송 - 대용량 파일 전송 중 인터넷 연결이 끊기거나 컴퓨터가 잠자기 모드로 전환 되어도 Globus 서비스가 자동으로 전송을 재개
- 원격 접속 없이 전송 - Globus는 클라우드 기반 서비스이므로, 사용자가 직접 SSH나 FTP 등으로 서버에 접속하지 않고도 웹 인터페이스나 CLI를 통해 원격 엔드포인트 간의 전송 명령 가능
- 다른 Globus 엔드포인트와 연동 - GCS 엔드포인트(기관 서버)나 다른 GCP 엔드포인트(다른 개인PC)와 데이터를 주고받을 수 있음
- 데이터 공유 - 자신의 PC에 있는 데이터를 다른 Globus 사용자와 쉽게 공유할 수 있도록 공유 기능을 제공
GCSv5 (Globus Connect Server version 5)
- 이전 버전에 비해 아키텍처와 배포 모델이 크게 개선되고 여러 중요한 새로운 기능이 도입된 버전
- 주요 계층 - Data transfer nodes, Endpoint, Storage gateways, Collections
- 구조 분석
- Endpoint
- GCSv5 dml deloyment 단위, 엔드포인트는 선택적으로 다수의 DTN 또는 서버를 포함할 수 있음
- Storage connector and gateway
- 엔드포인트에 연결된 스토리지 시스템에 대한 스토리지 접근 정책을 제공하고 인가된 사용자가 연결된 스토리지 시스템상의 collection들을 생성하고 관리할 수 있는 검색 가능한 인터페이스 제공
- Collection
- 데이터 접근 인터페이스를 제공함으로써 HTTPS, GridFTP 및 REST API를 통한 접근 허용
- 특정 storarge gateway와 연계되어 폴더에 계층적으로 구성된 파일들의 집합을 지칭
- Collection에 대한 접근은 Collection 자체에 정의된 데이터 접근 정책과 함께 Globus Auth에서 발급된 OAuth2 엑세스 토큰들로 인증됨
- Endpoint
- OAuth 기반 인증 및 권한 관리
- GCSv5는 사용자 인증에 OAuth 기반의 새로운 접근 관리 아키텍처 도입
- 이전 버전에서 사용되던 사용자 인증서 방식을 대체하여, 보다 현대적이고 안전하며 유연한 인증 방식 제공
- 엔드포이트 수준의 사용자 동의 메커니즘 통합
- 다중 데이터 전송 노드(Multi-DTN) 지원
- 하나의 Globus Connect Server 엔드포인트에 여러 개의 데이터 전송 노드(DTN)를 연결할 수 있게 되어, 전송 처리량을 크게 늘리고 단일 지점 장애(SPOF) 위험을 줄여 서비스 가용성을 높임
- 마이그레이션 도구 및 지웡
- Globus는 GCSv4에서 GCSv5로의 원활한 마이그레이션을 위한 가이드와 도구를 제공하여 기존 사용자들이 새로운 아키텍처로 쉽게 전환할 수 있도록 지원
Usecase
- GCS 기반의 DTN Clustering
- 생성된 각각의 grifftp-server 프로세스들은 DTN에서 제공하는 다수의 CPU 코어들로 매핑되어 병행성 증가
- 추가적으로 각각의 girdftp-server 프로세스들은 하나의 파일을 전송하는데 있어 병렬성 높임
- Mapped Collection : DJ DTN Collection
- DJ DTN Collection 기준 Esnet Sunnyvale Read-Only DTN 전송
- Climate-Medium_Climate-Large data set 기준, 수신 약 41.2Gbps
- DJ DTN Collection 기준 Esnet Sunnyvale Read-Only DTN 전송