In AWS sono presenti diversi set di dati pubblici in hosting accessibili gratuitamente a tutti.

Completare la localizzazione, il download, la personalizzazione e l'analisi di set di dati di grandi dimensioni come le immagini raccolte da satelliti o i dati di genomica in precedenza richiedeva diverse ore o giorni. Nel momento in cui i dati vengono resi pubblicamente disponibili in AWS, chiunque può analizzare qualsiasi volume di dati senza doverli scaricare e memorizzare in locale. Questi set di dati possono essere analizzati utilizzando prodotti di analisi ed elaborazione dati di AWS, ad esempio Amazon EC2, Amazon Athena, AWS Lambda e Amazon EMR.

Ulteriori informazioni su come utilizzare i dati geospaziali in AWS sono disponibili alla pagina Pianeta Terra e AWS.

  • Landsat on AWS: una raccolta aperta di immagini satellitari relativa alle terre emerse, raccolte dal satellite Landsat 8.
  • Landsat on AWS: una raccolta aperta di immagini satellitari relativa alle terre emerse, raccolte dal satellite Sentinel-2.
  • GOES on AWS: GOES fornisce immagini meteorologiche e monitoraggio delle condizioni meteo continue e dati spaziali su tutto il Nord America.
  • SpaceNet on AWS: una raccolta di immagini satellitari di carattere commerciale e dati di training per promuovere l'innovazione nello sviluppo di algoritmi visivi computerizzati.
  • OpenStreetMap on AWS: OSM è una mappa gratuita e modificabile della terra, creata e gestita da volontari. Gli archivi dati di OSM sono regolarmente disponibili in Amazon S3.
  • MODIS on AWS: prodotti selezionati provenienti dal Moderate Resolution Imaging Spectroradiometer (MODIS), gestito da U.S. Geological Survey e NASA.
  • Terrain Tiles: un set di dati globale che fornisce curve di livello di immagini aeree suddivise in riquadri per semplicità e caricate in S3.
  • NAIP: immagini aeree con definizione di 1 metro acquisite durante la stagione vegetativa negli Stati Uniti continentali.
  • NEXRAD on AWS: dati di archivio e in tempo reale provenienti dalla rete Next Generation Weather Radar (NEXRAD).
  • NASA NEX: una raccolta di set di dati di scienze della Terra gestita dalla NASA, comprendente proiezioni relative ai cambiamenti climatici e immagini satellitari della superficie terrestre.
  • District of Columbia LiDAR: dati point cloud LiDAR per Washington, DC.
  • EPA Risk-Screening Environmental Indicators: risultati del modello aereo dettagliato derivante dal modello Risk-Screening Environmental Indicators (RSEI) di EPA.
  • Modello meteorologico HIRLAM: l'High Resolution Limited Area Model o HIRLAM è un modello di previsione meteo a scala sinottica operazionale e a mesoscala gestito dal Finnish Meteorological Institute.

Ulteriori informazioni sono disponibili alla pagina relativa a genomica nel cloud.

  • 1000 Genomes Project: mappa dettagliata della variabilità genetica umana.
  • TCGA on AWS: dati genomici, trascrittomici ed epigenomici grezzi ed elaborati provenienti dal programma The Cancer Genome Atlas (TCGA), a disposizione dei ricercatori qualificati tramite il Cancer Genomics Cloud.
  • ICGC on AWS: dati di sequenziamento di interi genomi a disposizione dei ricercatori qualificati tramite il Consorzio internazionale per il genoma del cancro (ICGC, International Cancer Genome Consortium).
  • 3000 Rice Genome on AWS: sequenza del genoma di 3.024 varietà di riso.
  • Genome in a Bottle (GIAB): genomi di riferimento per utilizzare il sequenziamento del genoma umano nella pratica clinica.

Ulteriori informazioni su intelligenza artificiale e apprendimento automatico in AWS.

  • Common Crawl : un corpus di dati provenienti da analisi Web, formato da oltre 5 miliardi di pagine Web.
  • Amazon Bin Image Dataset: più di 500.000 immagini JPEG bin con relativi metadati JSON che descrivono prodotti in un Amazon Fulfillment Center.
  • GDELT: oltre 250.000 record per il monitoraggio di notiziari TV, Web e giornali da quasi ogni angolo del pianeta, aggiornati quotidianamente.
  • Multimedia Commons: una collezione di quasi 100 milioni di immagini e video con contenuti e annotazioni audiovisivi.
  • Google Books Ngrams: set di dati contenenti corpus di n-grammi Google Books.
  • SpaceNet on AWS: una raccolta di immagini satellitari di carattere commerciale e dati di training per promuovere l'innovazione nello sviluppo di algoritmi visivi computerizzati.
  • IRS 990 Filings on AWS: dati leggibili a macchina da alcuni moduli elettronici 990 per l'agenzia delle entrate statunitense compilati dopo il 2011.
  • ACS PUMS on AWS: i dati dello U.S. Census American Community Survey (ACS) relativi a Public Use Microdata Sample (PUMS) sono disponibili in un formato dati collegato utilizzando il modello di dati Resource Description Framework (RDF).
  • USAspending.gov on AWS: il database di USAspending.gov contiene informazioni su tutte le spese del governo federale, inclusi contratti, finanziamenti, prestiti, stipendi e molto altro.