Conjuntos de dados públicos na AWS

 

A AWS hospeda uma variedade de conjuntos de dados públicos que qualquer um pode acessar gratuitamente.

Anteriormente, os grandes conjuntos de dados, como o mapeamento do Genoma Humano, necessitaram de horas ou dias para localização, download, personalização e análise. Agora, qualquer pessoa pode acessar esses conjuntos de dados e analisá-los usando instâncias do Amazon EC2 ou clusters do Amazon EMR (Hadoop hospedado). Hospedando esses dados importantes onde podem ser processados de maneira rápida e fácil com recursos computacionais elásticos, a AWS espera gerar mais inovação, mais rapidamente.

Conjuntos de dados públicos disponíveis na AWS

Clique aqui para obter uma lista detalhada dos conjuntos de dados disponíveis. Alguns exemplos de Conjuntos de dados públicos populares são:

  • NASA NEX: uma coleção de conjuntos de dados científicos da Terra mantida pela NASA, incluindo projeções climáticas e imagens de satélite da superfície do planeta
  • Common Crawl Corpus: um corpus de dados de rastreamento da web composto por mais de 5 bilhões de páginas da web
  • 1000 Genomes Project: uma mapa detalhado da variação genética humana
    Google Books Ngrams: um conjunto de dados contendo os livros n-gram da Google
  • US Census Data: dados demográficos dos EUA dos censos de 1980, 1990 e 2000 no país
  • Freebase Data Dump: um depósito de dados de fatos e afirmações atuais no sistema Freebase, um banco de dados aberto, abrangendo milhões de tópicos

Como ele funciona

Os conjuntos de dados são hospedados em dois formatos possíveis: snapshots do Amazon Elastic Block Store (Amazon EBS) e/ou buckets do Amazon Simple Storage Service (Amazon S3).

Para acessar um conjunto de dados hospedado como um snapshot do Amazon EBS: crie uma conta da AWS, inicie uma instância do Amazon EC2 e crie um volume do Amazon EBS usando o ID de snapshot indicado no catálogo acima. O Guia de Conceitos Básicos do ElasticFox fornece uma descrição simples de como iniciar uma instância e criar um volume do Amazon EBS usando o ElasticFox, um plugin prático do FireFox. Ou, veja o Guia de Conceitos Básicos do Amazon EC2.

Para acessar um conjunto de dados hospedado no Amazon S3: você pode fazer solicitações de HTTP simples, use ferramentas de linha de comando e SDKs da AWS (Ruby, Java, Python, .NET, PHP, etc.), faça download dos dados usando o Amazon EC2 ou use o Hadoop para processar dados com o Amazon EMR.

Se você tiver qualquer dúvida ou se deseja participar da comunidade de Conjuntos de dados públicos, visite o nosso fórum de Conjuntos de dados públicos.

Como compartilhar um conjunto de dados públicos na AWS

Se você tiver um conjunto de dados que acha interessante para a comunidade da AWS, envie este formulário. A equipe da AWS analisará seu formulário e lhe dará uma resposta se o considerar adequado. Você deve ter o direito de tornar esses dados disponíveis sem custo, e se seu conjunto de dados for selecionado, você precisará fornecer uma descrição dele, uma descrição do seu esquema e o código modelo que mostra como um usuário pode analisar os dados.