Globus를 활용한 고성능 데이터 전송
1. Science DMZ 적용 모델의 핵심 요소
- Science DMZ는 대용량 과학 데이터의 효율적인 전송을 위해 설계된 특화된 네트워크 아키텍처
- Friction-free network path (마찰 없는 네트워크 경로)
- 데이터 전송 시 지연이나 병목 현상 없이 최적의 속도를 보장하는 네트워크 경로를 의미
- 전용 회선, 고성능 장비, 최적화된 라우팅 설정 등을 통해 구현
- DTN (Data Transfer Node) running optimized bulk data transfer tools
- DTN은 대용량 데이터 전송에 특화된 서버
- GlobusOnline/GridFTP와 같은 최적화된 대용량 데이터 전송 도구를 사용하여 효율적인 전송 수행
- Performance measurement/test node
- 네트워크 성능을 지속적으로 측정하고 테스트하여 병목 현상이나 장애를 조기에 감지하고 해결하기 위한 노드
- perfSONAR와 같은 도구가 활용됩니다.
- Friction-free network path (마찰 없는 네트워크 경로)
2. Globus Online 개요
- Globus Online은 협업 연구 기관 간 대용량 데이터의 고속 전송 기능을 SaaS 방식으로 제공하는 소프트웨어 기반 클라우드 플랫폼 서비스
- 주요 특징:
- 대용량 데이터 고속 전송: 협업 연구 기관 간 페타바이트(PB)급 이상의 데이터를 빠르고 안정적으로 전송
- SaaS 방식: 별도의 인프라 구축 없이 웹 기반으로 서비스를 이용할 수 있어 편리
- 플랫폼 서비스: 핵심 데이터 전송 기능 외에도 협업 연구자들 간의 데이터 공유, 관리, 그리고 포털 연계 가능한 사용자 맞춤형 애플리케이션 개발을 지원하는 플랫폼을 제공
- GCS (Globus Connect Server) 및 GCP (Globus Connect Personal) 개념: Globus는 데이터 전송에 참여하는 종단 서버를 Globus Endpoint로 만들어주는 소프트웨어를 제공하는데, 두 가지 버전 존재
3. Globus Connect
- Globus Connect는 전송에 참여하는 종단 전송 서버 등을 Globus Endpoint로 만들어 주는 소프트웨어
- Globus Connect Server (GCS)
- GCS는 HPC 클러스터, 연구실 서버 등 대규모 데이터 환경에서 사용되는 Globus Endpoint 소프트웨어
- GCSv5 구조
- Data transfer nodes (DTN): 실제 데이터 전송이 이루어지는 노드
- Endpoint deployment 단위: 각 서버 또는 DTN을 Node로 언급하며, Endpoint는 서버 관리 및 구성을 위한 인터페이스를 제공
- Storage Connector: Endpoint가 POSIX 파일 시스템이나 특정 유형의 스토리지를 사용할 수 있도록 연결
- Storage Gateways: 스토리지 접근 정책을 제공하고, Collection들을 검색 가능한 인터페이스를 제공
- Collections: 데이터 접근 인터페이스를 제공하여 HTTP, GridFTP 및 REST API를 통한 접근을 허용. 특정 Storage Gateway와 연계되어 폴더에 계층적으로 구성된 파일들의 집합을 지정
- Mapped Collection: 로컬 계정을 보유한 사용자를 위한 컬렉션
- Guest Collection: 로컬 계정이 없더라도 사용 가능하지만, 일부 기능에 제한
- GCS 설정 및 구성:
- DTN 상에 서비스 설정: DTN 상에 Globus 서비스를 설정하고 시작하기 위해
globus-connect-server node setup
명령어를 실행.systemd
서비스를 활성화하여 시작하므로root
사용자로 수행 - Endpoint 로그인: Endpoint와 상호 작용하기 위해
globus-connect-server
명령어에서 이용될 수 있는 로컬 인증 토큰을 생성합니다. Endpoint 설정에서 해당 Endpoint의 소유자로 선택한 ID로 로그인 - Managed Endpoint 생성: Guest Collection 및 병행성/병렬성 수준을 설정하여 Managed Endpoint를 생성
- Storage Gateway 생성: ID로 접근을 제한하는 POSIX 계열의 Storage Gateway (예: DJ DTN GATEWAY)를
globus-connect-server storage-gateway create posix
명령어를 사용하여 생성 - Mapped Collection 생성: 생성된 스토리지 게이트웨이를 이용하여 특정 경로(예:
/
)를 기반으로 하는 Mapped Collection (예: DJ DTN Collection)을globus-connect-server collection create {collection id}/ "DJ DTN Collection"
명령어를 사용하여 생성 - DTN 클러스터 설정: DTN 노드의 가용성을 높이고, 하나의 Endpoint에 여러 개의 DTN을 묶어서 제공하기 위해서는 DTN 클러스터를 구성.
- DTN 상에 서비스 설정: DTN 상에 Globus 서비스를 설정하고 시작하기 위해
- Globus Connect Personal (GCP)
- Globus Connect Personal은 사용자의 편의를 위해 만들어진 개인용 Globus Endpoint 소프트웨어입니다. 대용량 데이터 전송에는 적합하지 않고, 소량의 데이터를 간편하게 전송할 때 주로 사용
4. 사용 방법
- 회원가입 (https://www.globusid.org/create)
- 이용할 엔드포인트를 찾고 실행