Conjuntos de datos públicos en AWS

 

AWS aloja distintos conjuntos de datos públicos a los que cualquiera puede acceder de forma gratuita.

Anteriormente, grandes conjuntos de datos tales como la correspondencia del genoma humano requerían horas o días para localizarse, descargarse, personalizarse y analizarse. Ahora, cualquiera puede acceder a estos conjuntos de datos y analizarlos utilizando instancias de Amazon EC2 o clústeres de Amazon EMR (Hadoop alojado). Al alojar estos datos importantes en una ubicación en la que se pueden procesar de forma rápida y sencilla con recursos de informática elásticos, AWS espera habilitar una mayor innovación con mayor rapidez.

Conjuntos de datos públicos disponibles en AWS

Haga clic aquí para ver una lista detallada de conjuntos de datos disponibles. Aquí tiene algunos ejemplos de conjuntos de datos públicos populares:

  • NEX de la NASA: colección de conjuntos de datos de geociencia mantenida por la NASA, que incluye proyecciones de cambios climáticos e imágenes por satélite de la superficie de la Tierra
  • Corpus de rastreo común: corpus de datos de rastreo web formado por más de 5 mil millones de páginas web
  • Proyecto 1¬000 genomas: mapa detallado de la variación genética humana
    Ngrams de Google Books: conjunto de datos que contiene corpus de n-grams de Google Books
  • Datos del censo de EE.UU.: datos demográficos de EE.UU. de los censos de 1980, 1990 y 2000
  • Volcado de datos de Freebase: volcado de datos de todos los hechos y afirmaciones actuales en el sistema de Freebase, una base de datos abierta que abarca millones de temas

Cómo funciona

Los conjuntos de datos se alojan en dos formatos posibles: instantáneas de Amazon Elastic Block Store (Amazon EBS) o depósitos de Amazon Simple Storage Service (Amazon S3).

Para acceder a un conjunto de datos alojado como una instantánea de Amazon EBS: inscríbase en una cuenta de AWS, lance una instancia de Amazon EC2 y cree un volumen de Amazon EBS utilizando el ID de instantánea incluido en el catálogo anterior. La Guía de primeros pasos de ElasticFox contiene un manual sencillo de cómo ejecutar una instancia y crear un volumen Amazon EBS utilizando ElasticFox, un cómodo complemento para FireFox. O también puede consultar la Guía de primeros pasos de Amazon EC2.

Para acceder a un conjunto de datos alojado en Amazon S3: puede realizar solicitudes HTTP sencillas, utilizar herramientas de línea de comandos de AWS y los SDK (Ruby, Java, Python, .NET, PHP, etc.), descargar los datos utilizando Amazon EC2 o usar Hadoop para procesar los datos con Amazon EMR.

Si tiene algún tipo de pregunta o desea participar en nuestra comunidad de Conjuntos de datos públicos, visite nuestro Foro de Conjuntos de datos públicos.

Cómo compartir un conjunto de datos públicos en AWS

Si tiene un conjunto de datos que cree que sería interesante para la comunidad de AWS, envíe este formulario. El equipo de AWS revisará el envío y se pondrá en contacto con usted si considera que el conjunto es adecuado. Debe tener derecho a hacer públicos los datos de forma gratuita, y si se selecciona el conjunto de datos, deberá proporcionar una descripción de este, una descripción de su esquema y un código de muestra que detalle cómo se podrían analizar los datos.