AWS héberge de nombreux ensembles de données publics auxquels tout le monde peut accéder gratuitement.

La localisation, le téléchargement, la personnalisation et l'analyse de grands ensembles de données, comme les images satellites et les données génomiques, prenait autrefois plusieurs heures, voire plusieurs jours. Quand des données sont publiquement disponibles sur AWS, tous les utilisateurs peuvent en analyser le volume souhaité sans avoir à les télécharger ou à les stocker eux-mêmes. Ces ensembles de données peuvent être analysés avec les services de calcul et d'analyse de données d'AWS, notamment Amazon EC2, Amazon Athena, AWS Lambda et Amazon EMR.

Pour en savoir plus sur l'exploitation de données géospatiales sur AWS, consultez la page Earth on AWS.

  • Landsat on AWS : ensemble actuel d'images satellites de la Terre prises par le satellite Landsat 8.
  • Sentinel-2 on AWS : ensemble actuel d'images satellites de la Terre prises par le satellite Sentinel-2.
  • GOES on AWS : les satellites GOES fournissent des images météorologiques en continu et surveillent les données météorologiques et spatiales dans toute l'Amérique du Nord.
  • SpaceNet sur AWS : corpus d'images satellites commerciales et de données de formation étiquetées pour favoriser les innovations dans le développement d'algorithmes de vision par ordinateur.
  • OpenStreetMap sur AWS : OSM est une carte gratuite et modifiable du monde, créée et mise à jour par des bénévoles. Des archives de données OSM régulières sont mises à disposition dans Amazon S3.
  • MODIS sur AWS : sélection de résultats du radiomètre MODIS (Moderate Resolution Imaging Spectroradiometer) géré par l'Institut d'études géologiques des États-Unis et la NASA.
  • Terrain Tiles : ensemble de données mondiales fournissant des altitudes de terrains nus, divisé en mosaïque pour une utilisation facile et fourni sur S3.
  • NAIP : imagerie aérienne capturée avec une précision d'un mètre pendant la saison des cultures agricoles sur le territoire des États-Unis.
  • NEXRAD on AWS : données en temps réel et d'archive du réseau NEXRAD (Next Generation Weather Radar).
  • NASA NEX : collection d'ensembles de données portant sur les sciences de la Terre, entretenue par la NASA, composée notamment de projections en matière de changement climatique et d'images satellites de la surface de la Terre.
  • Données lidar du district de Columbia : nuages de points lidar pour la ville de Washington, DC.
  • Indicateurs environnementaux de détection des risques de l'EPA : résultats de modélisations aériennes détaillées produits par le modèle RSEI (Risk-Screening Environmental Indicators) de l'EPA, l'agence américaine de protection de l'environnement.
  • HIRLAM Weather Model : HIRLAM (High Resolution Limited Area Model) est un modèle opérationnel de prédiction météorologique. Aussi bien adapté à la méso-échelle qu'à l'échelle synoptique, il est maintenu par l'Institut météorologique de Finlande.

En savoir plus sur la génomique dans le cloud.

  • Projet 1000 Genomes : cartographie détaillée des variations génétiques humaines.
  • TCGA sur AWS : données génomiques, transcriptomiques et épigénomiques brutes et traitées, provenant du Cancer Genome Atlas (TCGA) et mises à la disposition de chercheurs qualifiés via le Cancer Genomics Cloud.
  • ICGC sur AWS : données de séquençage génomique mises à la disposition de chercheurs qualifiés via l'International Cancer Genome Consortium (ICGC).
  • Projet 3000 Rice Genome sur AWS : séquençage du génome de 3 024 variétés de riz.
  • Genome in a Bottle (GIAB) : plusieurs génomes de référence permettant la transformation u séquençage du génome humain complet en pratique clinique.

En savoir plus sur l'intelligence artificielle et l'apprentissage automatique sur AWS.

  • Common Crawl : corpus de données d'indexation Web composé de plus de 5 milliards de pages Web.
  • Ensemble de données d'images de bacs Amazon : plus de 500 000 images JPEG de bacs et de fichiers de métadonnées JSON correspondants décrivant les produits d'un centre de distribution Amazon en cours d'activité.
  • GDELT : plus d'un quart de milliard d'enregistrements surveillant les émissions, les publications et les actualités sur le Web dans le monde entier, dans presque chaque recoin de chaque pays, mis à jour au quotidien.
  • Multimedia Commons : collection de presque 100 millions d'images et de vidéos, avec différentes fonctionnalités audiovisuelles et de nombreuses annotations.
  • Google Books Ngrams : ensemble de données contenant des corpus Google Books n-gram.
  • SpaceNet sur AWS : corpus d'images satellites commerciales et de données de formation étiquetées pour favoriser les innovations dans le développement d'algorithmes de vision par ordinateur.
  • Déclarations IRS 990 sur AWS : données lisibles par machine de certains formulaires électroniques 990 déposés auprès de l'IRS depuis 2011
  • ACS PUMS sur AWS : les PUMS (Public Use Microdata Sample) de l'agence de recensement américaine ACS (American Community Survey) sont disponibles sous la forme d'un format de données lié avec le modèle RDF (Resource Description Framework).
  • USAspending.gov on AWS : la base de données USAspending.gov comprend des données sur toutes les dépenses réalisées par le gouvernement fédéral américain, notamment les contrats, les subventions, les prêts et les salaires.