На AWS размещены разнообразные публичные пакеты данных, бесплатный доступ к которым имеет любой пользователь.

Раньше на поиск, загрузку, настройку и анализ больших пакетов данных, таких как спутниковые изображения или геномные данные, требовались часы и даже дни. С появлением публичных данных на AWS любой пользователь может проанализировать любой объем данных, при этом ему не придется их загружать и хранить. Эти пакеты данных можно анализировать с помощью продуктов AWS для вычислений и анализа данных, в частности Amazon EC2, Amazon Athena, AWS Lambda и Amazon EMR.

Узнайте больше о геопространственных данных на AWS на странице Наша планета на AWS.

  • Landsat на AWS: постоянно пополняющаяся коллекция спутниковых изображений всех территорий Земли; изображения выполнены спутником Landsat 8.
  • Sentinel-2 на AWS: постоянно пополняющаяся коллекция спутниковых изображений всех территорий Земли; изображения выполнены спутником Sentinel-2.
  • GOES на AWS: GOES обеспечивает непрерывную метеорологическую съемку и мониторинг метеорологических данных и данных космической среды по всей Северной Америке.
  • SpaceNet на AWS: собрание изображений с коммерческих спутников и маркированные учебные данные для стимулирования инноваций в развитии алгоритмов машинного зрения.
  • OpenStreetMap в AWS: OSM – бесплатная карта мира с возможностью редактирования, разработка и поддержка которой осуществляется усилиями волонтеров. Периодическая архивация данных OSM осуществляется с помощью сервиса Amazon S3.
  • MODIS на AWS: отдельные продукты из пакета данных спектрорадиометра с умеренной разрешающей способностью (MODIS), управляемого Геологической службой США и НАСА.
  • Terrain Tiles: глобальный пакет данных о высоте рельефа, разбитого для простоты использования на участки; предоставляется в S3.
  • NAIP: аэроснимки континентальной части США с разрешением 1 метр, сделанные во время вегетационного периода сельскохозяйственных культур.
  • NEXRAD на AWS: данные в режиме реального времени и архивные данные сети метеорадаров нового поколения (NEXRAD).
  • NASA NEX: коллекция научных данных о Земле, поддерживаемая НАСА; включает прогнозы изменения климата и спутниковые снимки поверхности Земли.
  • LiDAR в округе Колумбия: данные LiDAR по облаку точек для г. Вашингтон, округ Колумбия.
  • Анализ экологических индикаторов на предмет риска, предоставляемый Агентством по охране окружающей среды (EPA): детализированная модель воздушной среды, рассчитанная в рамках модели анализа экологических индикаторов на предмет риска (RSEI) EPA.
  • Модель погоды HIRLAM. HIRLAM (High Resolution Limited Area Model, модель высокого разрешения для ограниченной области) – это модель оперативного и среднемасштабного прогноза погоды, поддерживаемая Финским метеорологическим институтом (Finnish Meteorological Institute).

Узнайте больше о геномике в облаке.

  • Проект «1000 геномов»: подробная карта генетических вариаций человека.
  • TCGA на AWS: исходные и обработанные геномные, транскриптомные и эпидемиологические данные из Атласа ракового генома (TCGA), доступные квалифицированным исследователям через облако Cancer Genomics.
  • ICGC на AWS: данные последовательности полного генома, доступные квалифицированным исследователям посредством Международного консорциума генома рака (ICGC).
  • 3000 геномов риса на AWS: геномные последовательности 3024 сортов риса.
  • Проект «Геном в бутылке» (GIAB): несколько эталонных геномов, позволяющих выполнить трансляцию секвенирования полного генома человека для использования в клинической практике.

Узнайте больше об искусственном интеллекте и машинном обучении на AWS.

  • Common Crawl: фонд данных, полученных при работе в Интернете поискового робота; включает более 5 миллиардов веб-страниц.
  • Пакет данных Amazon Bin Image: более 500 000 изображений ячеек в формате JPEG и соответствующие им файлы метаданных в формате JSON, описывающие продукцию в действующем фулфилмент-центре Amazon.
  • GDELT: свыше 250 миллионов записей, отражающих мировые новости из теле-, радио-, интернет- и печатных источников со всех уголков всех стран мира; обновляются ежедневно.
  • Multimedia Commons: коллекция, состоящая примерно из 100 миллионов изображений и видео с аудио- и визуальными компонентами и аннотациями.
  • Google Books Ngrams: пакет данных, содержащий N-граммы собраний книг Google Books.
  • SpaceNet на AWS: собрание изображений с коммерческих спутников и маркированные учебные данные для стимулирования инноваций в развитии алгоритмов машинного зрения.
  • 990 документов IRS на AWS: машиночитаемые данные по 990 электронным формам, размещенным Федеральной налоговой службой США (IRS) с 2011 г. по настоящее время.
  • ACS PUMS на AWS: пакет данных Public Use Microdata Sample (PUMS), формируемый в рамках исследования американского сообщества (ACS) на базе бюро переписи населения США; доступен в виде связанных данных с использованием модели Resource Description Framework (RDF).
  • USAspending.gov в AWS. База данных USAspending.gov, содержащая данные обо всех расходах федерального правительства, включая контракты, гранты, ссуды, зарплаты сотрудников и т.д.