A AWS hospeda uma variedade de conjuntos de dados públicos que qualquer um pode acessar gratuitamente.

Anteriormente, os grandes conjuntos de dados, como o mapeamento do Genoma Humano, necessitaram de horas ou dias para localização, download, personalização e análise. Agora, qualquer pessoa pode acessar esses conjuntos de dados e analisá-los usando instâncias do Amazon EC2 ou clusters do Amazon EMR (Hadoop hospedado). Hospedando esses dados importantes onde podem ser processados de maneira rápida e fácil com recursos computacionais elásticos, a AWS espera gerar mais inovação, mais rapidamente.

Clique aqui para obter uma lista detalhada dos conjuntos de dados disponíveis. Alguns exemplos de Conjuntos de dados públicos populares são:

  • NASA NEX: uma coleção de conjuntos de dados científicos da Terra mantida pela NASA, incluindo projeções climáticas e imagens de satélite da superfície do planeta
  • Common Crawl Corpus: um corpus de dados de rastreamento da web composto por mais de 5 bilhões de páginas da web
  • 1000 Genomes Project: uma mapa detalhado da variação genética humana
    Google Books Ngrams: um conjunto de dados contendo os livros n-gram da Google
  • US Census Data: dados demográficos dos EUA dos censos de 1980, 1990 e 2000 no país
  • Freebase Data Dump: um depósito de dados de fatos e afirmações atuais no sistema Freebase, um banco de dados aberto, abrangendo milhões de tópicos

Os conjuntos de dados são hospedados em dois formatos possíveis: snapshots do Amazon Elastic Block Store (Amazon EBS) e/ou buckets do Amazon Simple Storage Service (Amazon S3).

Para acessar um conjunto de dados hospedado como um snapshot do Amazon EBS: crie uma conta da AWS, inicie uma instância do Amazon EC2 e crie um volume do Amazon EBS usando o ID de snapshot indicado no catálogo acima. O Guia de Conceitos Básicos do ElasticFox fornece uma descrição simples de como iniciar uma instância e criar um volume do Amazon EBS usando o ElasticFox, um plugin prático do FireFox. Ou, veja o Guia de Conceitos Básicos do Amazon EC2.

Para acessar um conjunto de dados hospedado no Amazon S3: você pode fazer solicitações de HTTP simples, use ferramentas de linha de comando e SDKs da AWS (Ruby, Java, Python, .NET, PHP, etc.), faça download dos dados usando o Amazon EC2 ou use o Hadoop para processar dados com o Amazon EMR.

Se você tiver qualquer dúvida ou se deseja participar da comunidade de Conjuntos de dados públicos, visite o nosso fórum de Conjuntos de dados públicos.

Se você tiver um conjunto de dados que acha interessante para a comunidade da AWS, envie este formulário. A equipe da AWS analisará seu formulário e lhe dará uma resposta se o considerar adequado. Você deve ter o direito de tornar esses dados disponíveis sem custo, e se seu conjunto de dados for selecionado, você precisará fornecer uma descrição dele, uma descrição do seu esquema e o código modelo que mostra como um usuário pode analisar os dados.