A AWS hospeda vários conjuntos de dados públicos que qualquer pessoa pode acessar gratuitamente.

Antigamente, grandes bancos de dados, como imagens de satélite ou dados genômicos, necessitavam de várias horas para serem localizados, baixados, personalizados e analisados. Quando os dados são disponibilizados publicamente na AWS, qualquer pessoa pode analisar qualquer volume de dados sem que eles mesmos precisem baixá-los e armazená-los. Esses bancos de dados podem ser analisados usando os produtos computacionais e de análise de dados da AWS, como o Amazon EC2, o Amazon Athena, o AWS Lambda e o Amazon EMR.

Saiba mais sobre como trabalhar com dados geoespaciais na AWS ao acessar a iniciativa Terra na AWS.

  • Landsat na AWS: uma coleção atualizada constantemente de imagens de satélite que cobrem toda a superfície terrestre do nosso planeta e que são geradas pelo satélite Landsat 8.
  • Sentinel-2 na AWS: uma coleção atualizada constantemente de imagens de satélite que cobrem toda a superfície terrestre do nosso planeta e que são geradas pelo satélite Sentinel-2.
  • GOES na AWS: o GOES disponibiliza imagens meteorológicas contínuas, bem como o monitoramento de dados ambientais meteorológicos e espaciais em toda a América do Norte.
  • SpaceNet na AWS: uma compilação de imagens de satélites comerciais e dados de treinamento classificados para fomentar inovações no desenvolvimento de algoritmos de visão computacional.
  • OpenStreetMap na AWS: o OSM é um mapa mundial gratuito e editável, criado e mantido por voluntários. Os arquivamentos de dados regulares do OSM são disponibilizados no Amazon S3.
  • MODIS na AWS: selecione produtos do MODIS (Moderate Resolution Imaging Spectroradiometer – Espectrorradiômetro de imagens de resolução moderada) gerenciados pela U.S. Geological Survey e pela NASA.
  • Terrain Tiles: oferecido junto com o S3, é um conjunto de dados global que disponibiliza alturas de terreno sem vegetação apresentadas lado a lado para fácil utilização.
  • NAIP: 1 metro de imagens aéreas capturadas durante as estações de cultivo agrícola nos Estados Unidos Continentais.
  • NEXRAD na AWS: dados em tempo real e de arquivamento da rede NEXRAD (Next Generation Weather Radar – Radar meteorológico de próxima geração).
  • NASA NEX: uma coleção de conjuntos de dados científicos da Terra mantida pela NASA, que inclui projeções climáticas e imagens de satélite da superfície do planeta.
  • District of Columbia LiDAR: dados da nuvem de pontos do LiDAR para Washington, DC.
  • Modelo Risk-Screening Environmental Indicators da EPA: resultados detalhados do modelo aéreo do RSR (Risk-Screening Environmental Indicators – Indicadores ambientais de verificação de riscos) da EPA.
  • HIRLAM Weather Model: o HIRLAM (High Resolution Limited Area Model) é um modelo de previsão meteorológico sinóptico e de mesoescala gerenciado pelo Finnish Meteorological Institute.

Saiba mais sobre a genômica na nuvem.

  • 1000 Genomes Project: um mapa detalhado da variação genética humana.
  • TCGA na AWS: dados de genomas brutos e processados, transcriptômicos e epigenômicos do TCGA (The Cancer Genome Atlas – Atlas do genôma do câncer) disponíveis para pesquisadores qualificados por meio da Cancer Genomics Cloud.
  • ICGC na AWS: dados de sequências de genomas completos disponíveis para pesquisadores qualificados por meio do ICGC (The International Cancer Genome Consortium – Consórcio internacional do gênoma do câncer).
  • Projeto 3000 Rice Genome na AWS: sequência genômica de 3.024 variedades de arroz.
  • Genome in a Bottle (GIAB): vários genomas de referência para permitir a tradução do sequenciamento do genoma humano inteiro em um contexto clínico.

Saiba mais sobre inteligência artificial e aprendizado de máquina na AWS.

  • Common Crawl: um corpus de dados de rastreamento web composto por mais de 5 bilhões de páginas da web.
  • Amazon Bin Image Dataset: mais de 500 mil imagens JPEG/bin e arquivos JSON de metadados correspondentes que descrevem os produtos em uma central de atendimento a pedidos da Amazon em operação.
  • GDELT: mais de 250 milhões de registros que monitoram as notícias transmitidas via rádio, televisão, jornais, revistas e online de praticamente todos os cantos de cada país, atualizadas diariamente.
  • Multimedia Commons: uma coleção de quase 100 milhões de imagens e vídeos com recursos audiovisuais e anotações.
  • Google Books Ngrams: um conjunto de dados contendo os corpora de n-gram do Google Books.
  • SpaceNet na AWS: uma compilação de imagens de satélites comerciais e dados de treinamento classificados para fomentar a inovação no desenvolvimento de algoritmos de visão computacional.
  • Declarações do formulário 990 da Receita Federal dos EUA na AWS: dados de leitura óptica de determinados formulários 990 eletrônicos declarados junto à Receita Federal dos EUA de 2011 até o momento atual.
  • ACS PUMS na AWS: a PUMS (Public Use Microdata Sample – Amostra de microdados de uso público) da ACS (American Community Survey – Pesquisa a Comunidades nos EUA) do U.S. Census está disponível em um formato de dados vinculados usando o modelo de dados RDF (Resource Description Framework – Estrutura da descrição do recurso)
  • USAspending.gov na AWS: banco de dados USAspending.gov, que inclui dados sobre todas as despesas do governo federal, incluindo contratos, concessões, empréstimos e salários de funcionários, entre outros.