AWS hospeda distintos conjuntos de datos públicos a los que cualquiera puede obtener acceso de forma gratuita.

Anteriormente, grandes conjuntos de datos tales como el mapeo del genoma humano requerían horas o días para localizarse, descargarse, personalizarse y analizarse. Ahora, cualquiera puede obtener acceso a estos conjuntos de datos mediante el repositorio de datos centralizado de AWS y analizarlos utilizando instancias de Amazon EC2 o clústeres de Amazon EMR (Hadoop hospedado). Al hospedar estos datos importantes en una ubicación en la que se pueden procesar de forma rápida y sencilla con recursos de informática elásticos, AWS espera habilitar una mayor innovación con mayor rapidez.

A continuación se incluyen algunos ejemplos de conjuntos de datos públicos populares:

  • Landsat en AWS: una recopilación continua de imágenes de satélites de resolución moderada de toda la superficie de la Tierra realizadas por el satélite Landsat 8.
  • SpaceNet en AWS: Un corpus de imágenes de satélites comerciales y datos de capacitación etiquetados para fomentar la innovación en el desarrollo de algoritmos de visión informática.
  • Terrain Tiles: un conjunto de datos global que proporciona alturas del suelo de la tierra, en mosaico para un uso sencillo y provisto en S3.
  • GDELT: más de 250 millones de registros que monitorizan las noticias transmitidas, impresas y publicadas en la web de todos los rincones del mundo y se actualizan todos los días.
  • NAIP: imágenes aéreas a 1 metro capturadas durante las temporadas de cultivo en EE.UU. continental.
  • Registros 990 de IRS en AWS: datos de lectura automática de ciertos formularios 990 electrónicos registrados con IRS de 2011 a la actualidad
  • NEXRAD en AWS: datos de archivo y en tiempo real de la red Next Generation Weather Radar (NEXRAD).
  • NEX de la NASA: recopilación de conjuntos de datos de geociencia mantenida por la NASA, que incluye proyecciones de cambios climáticos e imágenes por satélite de la superficie de la Tierra.
  • Cuerpo de rastreo común: cuerpo de datos de rastreo web formado por más de 5 000 millones de páginas web.
  • TCGA en AWS: datos genómicos, transcriptónicos y epigenómicos (procesados y sin procesar) de The Cancer Genome Atlas (TCGA), disponibles para investigadores cualificados a través de Cancer Genomics Cloud
  • ICGC en AWS: datos de secuencias completas de genoma, disponibles para investigadores cualificados a través de The International Cancer Genome Consortium (ICGC)
  • Proyecto 1 000 genomas: mapa detallado de la variación genética humana
  • 3 000 Rice Genome en AWS: secuencia del genoma de 3 024 variedades de arroz
  • Genome in a Bottle (GIAB): varios genomas de referencia que facilitan la traducción de toda la secuencia del genoma humano a la práctica clínica
  • Multimedia Commons: recopilación de casi 100 millones de imágenes y vídeos con características visuales, de audio y anotaciones.
  • Ngrams de Google Books: conjunto de datos que contiene cuerpos de n-grams de Google Books.

Aquí puede encontrar una lista de otros conjuntos de datos públicos.

Los conjuntos de datos públicos se hospedan en dos formatos posibles: snapshots de Amazon Elastic Block Store (Amazon EBS) o buckets de Amazon Simple Storage Service (Amazon S3).

Para obtener acceso a un conjunto de datos públicos hospedado en Amazon S3: puede realizar solicitudes HTTP sencillas, utilizar herramientas de línea de comandos y SDK (Ruby, Java, Python, .NET, PHP, etc.) de AWS, descargar los datos utilizando Amazon EC2 o usar Hadoop para procesar los datos con Amazon EMR.

Para obtener acceso a un conjunto de datos hospedado como un snapshot de Amazon EBS: inscríbase en una cuenta de AWS, lance una instancia de Amazon EC2 y cree un volumen de Amazon EBS con el ID de snapshot incluido en el catálogo anterior. O también puede consultar la guía de introducción de Amazon EC2.

Si tiene alguna duda o desea participar en nuestra comunidad de conjuntos de datos públicos, envíe un correo electrónico a opendata@amazon.com.