AWS では、誰でも無料でアクセスできるさまざまなパブリックデータセットを提供しています。

衛星画像やゲノムデータなどの大規模なデータセットの検索、ダウンロード、カスタマイズ、分析には、以前は数時間から数日を要していました。 データが AWS でパブリックに利用可能になると、誰でも任意のボリュームのデータを、自分でダウンロードしたり保存したりすることなく分析できます。 これらのデータセットは、AWS コンピューティングおよび Amazon EC2Amazon AthenaAWS LambdaAmazon EMR などのデータ分析製品を使用して分析できます。

AWS で地理空間データを処理する方法の詳細については、AWS から眺める地球をご覧ください。

  • AWS でのランドサット: ランドサット 8 号衛星により作成中の地球全土の衛星画像コレクション
  • AWS でのセンチネル 2: センチネル 2 号衛星により作成中の地球全土の衛星画像コレクション
  • AWS での GOES データ: GOES では、北米全域の気象画像、気象観測、宇宙環境データを継続的に提供しています。
  • AWS での SpaceNet: コンピュータビジョンアルゴリズムの開発における革新を促進するために衛星画像とラベリングされたトレーニングデータを集めたコーパス。
  • AWS の OpenStreetMap: OSM は、ボランティアによって作成、管理されている、編集可能な世界地図です。通常の OSM データアーカイブは Amazon S3 で利用できます。
  • AWS での MODIS: アメリカ地質調査所および NASA が管理する MODIS (Moderate Resolution Imaging Spectroradiometer: 中分解能撮像分光放射計) の製品
  • 地勢タイル: 世界各地の地表の標高などの地勢を示すデータセット。簡単に使用できるようタイル化されており、S3 で提供される
  • NAIP: 米国本土で農作物の成長期に撮影される地上分解能 1 メートルの航空画像
  • AWS での NEXRAD: 次世代気象レーダー (NEXRAD) ネットワークからのリアルタイムデータとアーカイブデータ
  • NASA NEX: NASA が保守管理する地球の科学的データセットのコレクション。気候変化予測や地表の衛星画像などが含まれる
  • District of Columbia LiDAR: ワシントン D.C. の LiDAR ポイントクラウドデータ
  • EPA リスクスクリーニング環境指標: EPA のリスクスクリーニング環境指標 (RSEI) モデルからの詳細な大気モデリング結果
  • HIRLAM 天気モデル: HIRLAM (High Resolution Limited Area Model) は、フィンランド気象研究所が管理する総観およびメソスケールの運用気象予測モデルです。

クラウドでのゲノムの詳細については以下をご覧ください。

  • 1000 ゲノムプロジェクト: 人の遺伝的多様性の詳細なマップ
  • AWS での TCGA: がんゲノムアトラス (TCGA) からの未処理および処理済みのゲノム、トランスクリプトミクス、およびエピゲノミクスのデータで、がんゲノムクラウドを介して認定された研究者のみが利用可能
  • AWS での ICGC: ゲノム配列全体のデータで、国際がんゲノムコンソーシアム (ICGC) を介して認定された研究者のみが利用可能
  • AWS での 3000 のイネゲノム: 3,024 のイネ品種のゲノム配列
  • Genome in a Bottle (GIAB): 全ヒトゲノム配列の臨床診療への転換を可能にする、いくつかのリファレンスゲノム

AWS での人工知能および機械学習の詳細については以下をご覧ください。

  • 共通クロール: 50 億を超えるウェブページから構成されるウェブクロールデータのコーパス
  • Amazon の箱のイメージデータセット: 運用中の Amazon フルフィルメントセンターの製品を説明する、500,000 箱超の JPEG イメージおよび対応する JSON メタデータファイル
  • GDELT: 世界中のすべての国のほぼすべての地域で放送、印刷、およびウェブ配信されているニュースをモニタリングした 2 億 5,000 万件近い記録。毎日更新される
  • マルチメディアコモンズ: オーディオビジュアル機能と注釈を備えた 1 億近い画像と動画のコレクション
  • Google ブックスの N-gram: Google ブックスの N-gram コーパスを含むデータセット
  • AWS での SpaceNet: コンピュータビジョンアルゴリズムの開発における革新を促進するために衛星画像とラベリングされたトレーニングデータを集めたコーパス
  • IRS 990 Filings on AWS: 2011 年から現在まで IRS に提出された、特定の電子的な 990 形式から抽出した機械可読データ
  • AWS での ACS PUMS: U.S. Census American Community Survey (ACS) の公用マイクロデータサンプル (PUMS) が Resource Description Framework (RDF) データモデルを使用した、リンクされているデータ形式で利用可能
  • AWS の USAspending.gov: USAspending.gov データベース。契約、助成金、ローン、従業員の給与など、連邦政府のすべての支出に関するデータが含まれています。