AWS는 누구나 무료로 액세스할 수 있는 다양한 퍼블릭 데이터 세트를 호스팅합니다.

이전에는 위성 이미지나 게놈 데이터와 같은 대규모 데이터 세트를 검색하고, 다운로드하고, 가공하고, 분석하는 데 몇 시간 또는 며칠이 걸렸습니다. AWS에서 데이터를 공개적으로 제공하면서, 누구나 데이터를 다운로드하거나 저장할 필요 없이 어떤 볼륨의 데이터도 분석할 수 있게 되었습니다. 이러한 데이터 세트는 Amazon EC2, Amazon Athena, AWS LambdaAmazon EMR을 비롯하여 AWS 컴퓨팅 및 데이터 분석 제품을 사용하여 분석할 수 있습니다.

Earth on AWS를 통해 AWS에서 제공하는 지역 데이터 사용에 대해 자세히 알아보십시오.

  • Landsat on AWS: Landsat 8 위성에서 생성하는 지구 상의 모든 육지에 대한 위성 이미지를 지속적으로 수집합니다.
  • Sentinel-2 on AWS: Sentinel-2 위성에서 생성하는 지구 상의 모든 육지에 대한 위성 이미지를 지속적으로 수집합니다.
  • GOES on AWS: GOES는 북미 지역의 연속 날씨 이미지와 기상 및 우주 환경 데이터에 대한 모니터링을 제공합니다.
  • SpaceNet on AWS: 컴퓨터 시각 알고리즘 개발 분야의 혁신을 촉진할 수 있는 상업 위성 이미지와 레이블된 교육 데이터의 코퍼스입니다.
  • OpenStreetMap on AWS: OSM은 자원자들이 만들고 유지 관리하는 편집 가능한 무료 세계 지도입니다. 일반 OSM 데이터 아카이브는 Amazon S3에서 제공합니다.
  • MODIS on AWS: 미국 지질 조사국과 NASA에서 관리하는 MODIS(Moderate Resolution Imaging Spectroradiometer)의 제품을 선택할 수 있습니다.
  • Terrain Tiles: 기본 지형 높이를 제공하는 글로벌 데이터 세트로서, 사용 편의성을 위해 타일링되어 있으며 S3에서 제공합니다.
  • NAIP: 미국에서 농작물 재배 기간에 캡처한 1미터 항공 이미지입니다.
  • NEXRAD on AWS: NEXRAD(Next Generation Weather Radar) 네트워크의 실시간 데이터 및 아카이브 데이터입니다.
  • NASA NEX: NASA에서 관리하는 지구 과학 데이터 세트 모음으로, 기후 변화 프로젝션 및 지구 표면의 위성 이미지를 포함하고 있습니다.
  • District of Columbia LiDAR: 워싱턴 DC의 LiDAR 포인트 클라우드 데이터입니다.
  • EPA Risk-Screening Environmental Indicators: EPA의 RSEI(Risk-Screening Environmental Indicators) 모델의 상세한 공기 모델 결과입니다.
  • HIRLAM Weather Model: HIRLAM(High Resolution Limited Area Model)은 핀란드 기상 연구소에서 관리하는 종관 및 중규모의 기상 예측 운용 모델입니다.

클라우드상의 게놈에 대해 자세히 알아보십시오.

  • 1000 Genomes Project: 인간 유전적 변이 상세 지도입니다.
  • TCGA on AWS: Cancer Genomics Cloud를 통해 자격이 있는 연구원에게 제공되는 TCGA(Cancer Genome Atlas)의 원시 및 처리된 유전체, 전사체 및 후생유전자 데이터입니다.
  • ICGC on AWS: ICGC(International Cancer Genome Consortium)를 통해 자격이 있는 연구원에게 제공되는 전체 게놈 서열 데이터입니다.
  • 3000 Rice Genome on AWS: 3,024개 쌀 품종의 게놈 서열입니다.
  • Genome in a Bottle(GIAB): 임상 시험을 위해 전체 인간 게놈 서열을 번역할 수 있는 몇몇 참조 게놈입니다.

AWS 기반 인공 지능 및 기계 학습에 대해 자세히 알아보십시오.

  • Common Crawl : 50억 개가 넘는 웹 페이지로 구성된 웹 크롤링 데이터 코퍼스입니다.
  • Amazon Bin Image Dataset: 운영 중인 Amazon 물류 센터의 제품을 설명하는 500,000개가 넘는 bin JPEG 이미지 및 관련 JSON 메타데이터 파일입니다.
  • GDELT: 전 세계 모든 국가의 방송, 간행물 및 웹 뉴스를 모니터링하는 2.5억 개 이상의 레코드로서 매일 업데이트됩니다.
  • Multimedia Commons: 오디오 기능, 시각 기능 및 주석이 포함된 동영상과 이미지 모음으로 거의 1억 개에 육박합니다.
  • Google Books Ngrams: Google Books n-gram 코퍼스가 포함된 데이터 세트입니다.
  • SpaceNet on AWS: 컴퓨터 시각 알고리즘 개발 분야의 혁신을 촉진할 수 있는 상업 위성 이미지와 레이블된 교육 데이터의 코퍼스입니다.
  • Deutsche Börse Public Dataset: Deutsche Börse의 증권 시장 시스템에서 파생되는 실시간 데이터로, 무료 공개 데이터입니다.
  • IRS 990 Filings on AWS: 2011년부터 현재까지 IRS에 신고된 특정 전자 990 양식의 데이터로 시스템에서 읽을 수 있는 데이터입니다.
  • ACS PUMS on AWS: 미국 통계국 ACS(American Community Survey) PUMS(Public Use Microdata Sample)가 RDF(Resource Description Framework) 데이터 모델을 사용하여 링크된 데이터 형식으로 제공됩니다.
  • USAspending.gov on AWS: USAspending.gov 데이터베이스에는 계약서, 보조금, 대출, 직원 급여 등 연방 정부의 지불에 대한 모든 데이터가 포함되어 있습니다.