2025_05 KISTI 웹사이트의 체계적 보존 및 디지털 아카이빙 시스템 구축 제안

1. 제안 개요

  • KISTI 웹사이트의 체계적 보존 및 디지털 아카이빙 시스템 구축
  • 기관의 디지털 문화유산 보존을 위한 방안 수립

2. 제안 배경

  • 웹사이트가 시대상을 반영하는 중요한 디지털 사료로서 가치 보유
  • 현행 '웹사이트 총량제' 등으로 인한 이전 콘텐츠의 완전 삭제 문제
  • 유럽의 웹사이트 보존 사례( archive.geant.org ) 참고 필요
  • 과거 KREONET 뉴스서버 등 중요 디지털 자산의 소실 사례 존재
  • 한국 디지털 문화유산의 해외 의존도 증가 우려

3. 제안 내용

  • 홈페이지 개편 전 웹사이트 전체 클론 작업 실시
    • httrack 등의 크롤링 도구 활용
    • 컨테이너 기반 패키징 및 읽기 전용 보존
  • 체계적인 디지털 아카이빙 시스템 구축
  • 정기적인 웹사이트 스냅샷 저장 체계 수립
  • 보존 가치가 있는 디지털 자산 선별 및 관리 기준 마련

4. 기대 효과

  • 기관의 역사적 기록 보존 및 미래 연구 자료 확보
  • 한국 과학기술 발전 과정의 디지털 증거 보존
  • 웹 기반 문화유산의 자주적 보존 체계 확립
  • 미래 과학사 연구를 위한 귀중한 사료 확보
  • 기관의 디지털 자산 관리 역량 강화

claude-3.5-sonnet-v2 으로 요약함

A. 원본글

오래된 웹사이트 보존 필요

우리는 온라인 세상에서 살아가고 있습니다. 과거의 홈페이지 콘텐츠는 그 시대의 생활상을 유추할 수 있는 중요한 단서가 됩니다.

예를 들어, 2100년의 과학사(科學史)학자가 2025년의 KISTI를 이해하고자 한다면 어떻게 해야 할까요? 당시의 웹사이트가 정지된 형태로라도 보존되어 있다면, 이를 탐색하는 것이 가장 직접적인 방법이 될 것입니다.

웹사이트 역시 우리가 보존해야 할 디지털 사료입니다.

온라인에는 ‘웨이백 머신(Wayback Machine)’이라는 웹 아카이빙 서비스가 있습니다. 이 서비스는 봇이 웹을 크롤링해 웹사이트의 사본을 저장하고 보존합니다. 하지만 우리는 종종 홈페이지를 개편하면서 이전 콘텐츠를 완전히 삭제해버리곤 합니다. ‘웹사이트 총량제’ 같은 제도적 이유로 말이죠.

한편, 유럽에서는 웹사이트를 체계적으로 보존하는 시도가 이루어지고 있습니다. 예: https://archive.geant.org

KISTI 공식 홈페이지를 대대적으로 개편하기 전에, 크롤러를 통해 HTML로 clone 해 두었으면 합니다. httrack 과 같은 소프트웨어로 가능합니다. 혹은 웹사이트를 컨테이너로 패키징하고, 데이터베이스와 파일 시스템을 읽기 전용(read-only)으로 설정해 보존하는 방식도 좋은 대안이 될 수 있습니다.

2005년에 유네스코한국위원회는 '우리가 보존해야 할 인터넷 사이트' 31곳을 선정했습니다 - https://www.mk.co.kr/news/all/3795080 . 이 때 KISTI 와 관련있는 한 사이트도 있었습니다. 하지만 20년이 지난 지금 사라졌습니다.

국내 최초의 뉴스서버(유즈넷)는 지질자원연구원 모 박사님에 의해 KREONET의 서버에 설치되었습니다. 뉴스서버는 서로를 복제하며 운영되었고, 국내에서 가장 마지막까지 운영되었던 뉴스서버는 KAIST 유즈넷 news.kaist.ac.kr 이었고, 이 사이트가 '우리가 보존해야 할 인터넷 사이트'로 지정이 되었지만, KAIST 서버 개편과 함께 유즈넷의 아카이브가 사라졌습니다.

다행히(?) 전세계의 유즈넷은 구글 그룹스가 복제하여 가지고 있고, 다음글이 최초의 글로 남아 있기는 합니다. https://groups.google.com/g/han.net.kreonet/c/-3oOmqQkcMA

다만 우리의 디지털 문화유산이 해외 기업의 서버에 남아있다는 점이 너무나 안타깝습니다.