AWS의 공개 데이터 세트는 AWS 클라우드 기반 애플리케이션에 완벽히 통합되는 공개 데이터 세트의 중앙 리포지토리 역할을 합니다. AWS는 커뮤니티를 위해 공개 데이터 세트를 무료로 호스팅합니다. 모든 AWS 서비스와 마찬가지로, 사용자는 애플리케이션에 사용하는 컴퓨팅 및 스토리지에 대해서만 비용을 지불합니다.
이전에는 인간 게놈 및 미국 인구조사 데이터 매핑 같은 대규모 데이터 세트를 검색하고, 다운로드하고, 가공하고, 분석하려면 짧아도 몇 시간, 길면 며칠까지 걸렸습니다. 하지만 이제는 단 몇 분이면 Amazon Elastic Compute Cloud(Amazon EC2) 인스턴스에서 데이터 세트에 액세스해 데이터 처리 작업을 시작할 수 있습니다. 전체 AWS 에코시스템을 활용해 다른 AWS 사용자와 쉽게 협업할 수도 있습니다. 예를 들면, 도구와 애플리케이션으로 서버 이미지를 제작하거나 이미 구축되어 있는 서버 이미지를 사용해 데이터 세트를 분석하면 됩니다. 전문 공개 데이터 세트 포럼에서 베스트 프랙티스와 솔루션을 두고 다른 사용자와 의견을 나눌 수도 있습니다.
이렇게 중요하고 유용한 데이터를 Amazon EC2 같은 비용 효율적인 서비스로 호스팅하면서 AWS는 다양한 분야의 연구자들과 기업들이 원하는 대로 신속하게 혁신을 이룰 수 있기를 기대합니다.
AWS는 앞으로도 계속해서 사용 가능한 공개 도메인 및 비독점 데이터 세트를 추가해 나갈 계획입니다. 현재 사용 가능한 데이터 세트는 아래 나와 있습니다. Linux/UNIX 스냅샷은 ISO9660 또는 EXT3 형식이고, Windows 스냅샷은 NTFS 형식입니다.
공개 데이터 세트 리소스 센터에서 전체 데이터 세트 목록을 확인할 수 있습니다.
다음과 같은 공개 데이터 세트가 가장 자주 사용되는 예입니다.
고급 공개 데이터 세트들을 Amazon EC2에서 Amazon Elastic Block Store(Amazon EBS) 스냅샷으로 무료 호스팅하고 있습니다. Amazon EC2 고객은 개인 Amazon EBS 볼륨을 만들어 이 데이터에 액세스한 다음 공개 데이터 세트 스냅샷을 바로 사용할 수 있습니다. 또한 자신의 Amazon EC2 인스턴스를 사용해 개인 볼륨에 바로 액세스하여 원하는 대로 수정하고, 컴퓨팅할 수 있습니다. 컴퓨팅 및 스토리지 리소스 사용료는 종량 과금제입니다. 가능한 경우, 연구자들도 Inquiry by BioTeam 같은 도구로 사전 구성된 Amazon 머신 이미지(AMI)를 사용하여 분석을 수행할 수 있습니다.
다음 세 단계만 간단히 수행하면 AWS에서 공개 데이터 세트를 사용할 수 있습니다.
ElasticFox Getting Started Guide에 편리한 FireFox 플러그인 ElasticFox를 사용해 인스턴스를 시작하고, Amazon EBS 볼륨을 만드는 방법이 간단하게 나와 있습니다. Amazon EC2 시작 안내서를 참조해도 괜찮습니다.
궁금한 점이 있거나 공개 데이터 세트 커뮤니티에 참여하고 싶다면 공개 데이터 세트 포럼을 방문해 주십시오.
보유하고 있는 공개 도메인이나 비독점 데이터 세트가 유용해서 AWS 커뮤니티에도 소개해 주고 싶다면 아래 요청을 보내 주십시오. AWS 팀에서 검토 후 연락을 드릴 것입니다. 리포지토리에 있는 데이터 세트는 대개 1GB에서 1TB(Amazon EBS 볼륨 한도 기준) 정도지만 당사에 요청해 주시면 더 큰 데이터 세트도 호스팅해 드릴 수 있습니다. 다만 고객에게 해당 데이터를 무료 배포할 수 있는 권한이 있어야 합니다.
요청하려면 제출 양식을 작성해서 보내 주십시오. 당사 팀이 요청한 공개 데이터 세트에 관해 연락을 드릴 것입니다. 또한 보유하고 계신 데이터 세트를 데이터 리포지토리에 공개하는 과정도 안내해 드립니다.