AWS では、誰でも無料でアクセスできるさまざまなパブリックデータセットを提供しています。

以前は、ヒト遺伝子のマッピングなどの大規模なデータセットの検索、ダウンロード、カスタマイズ、分析に、何時間、場合によっては何日もかかっていました。現在では、誰でも AWS の集中データリポジトリからそのようなデータセットにアクセスし、Amazon EC2 インスタンスまたは Amazon EMR (ホスト型 Hadoop) クラスターを使用して分析できます。AWS で提供されているこの重要なデータは伸縮自在なコンピューティングリソースを使って簡単に短時間で処理できるため、より多くのイノベーションが、より短期間で実現することが期待されます。

よく利用されているパブリックデータセットには以下のようなものがあります。

  • AWS でのランドサット: ランドサット 8 号衛星により作成中の地球全土の衛星画像コレクション (解像度は中程度)
  • AWS での SpaceNet: コンピュータビジョンアルゴリズムの開発における革新を促進するために衛星画像とラベリングされたトレーニングデータを集めたデータベース
  • 地勢タイル: 世界各地の地表の標高などの地勢を示すデータセット。簡単に使用できるようタイル化されており、S3 で提供される
  • GDELT: 世界中のすべての国のほぼすべての地域で放送、印刷、およびウェブ配信されているニュースをモニタリングした 2 億 5,000 万件近い記録。毎日更新される
  • NAIP: 米国本土で農作物の成長期に撮影される地上分解能 1 メートルの航空画像
  • IRS 990 Filings on AWS: 2011 年から現在まで IRS に提出された、特定の電子的な 990 形式から抽出した機械可読データ
  • AWS での NEXRAD: 次世代気象レーダー (NEXRAD) ネットワークからのリアルタイムデータとアーカイブデータ
  • NASA NEX: NASA が保守管理する地球の科学的データセットのコレクション。気候変化予測や地表の衛星画像などが含まれる
  • 共通クロールコーパス: 50 億を超えるウェブページから構成されるウェブクロールデータのコーパス
  • AWS での TCGA: がんゲノムアトラス (TCGA) からの未処理および処理済みのゲノム、トランスクリプトミクス、およびエピゲノミクスのデータで、がんゲノムクラウドを介して認定された研究者のみが利用可能
  • AWS での ICGC: ゲノム配列全体のデータで、国際がんゲノムコンソーシアム (ICGC) を介して認定された研究者のみが利用可能
  • 1000 ゲノムプロジェクト: 人の遺伝的多様性の詳細なマップ
  • AWS での 3000 のイネゲノム: 3,024 のイネ品種のゲノム配列
  • Genome in a Bottle (GIAB): 全ヒトゲノム配列の臨床診療への転換を可能にする、いくつかのリファレンスゲノム
  • マルチメディアコモンズ: オーディオビジュアル機能と注釈を備えた 1 億近い画像と動画のコレクション
  • Google ブックスの N-gram: Google ブックスの N-gram コーパスを含むデータセット

その他のパブリックデータセットのリストについては、こちらをご覧ください。

パブリックデータセットは、Amazon Elastic Block Store (Amazon EBS) スナップショットと Amazon Simple Storage Service (Amazon S3) バケットのいずれかのフォーマットで提供されます。

Amazon S3 で提供されるパブリックデータセットを利用するには、シンプルな HTTP リクエストを実行する、AWS のコマンドラインツールや SDK (Ruby、Java、Python、.NET、PHP など) を使用する、Amazon EC2 を使用してデータをダウンロードする、または Hadoop を使用して Amazon EMR でデータを処理するといった方法があります。

Amazon EBS スナップショットとして提供されるデータセットを利用するには、AWS アカウントにサインアップして、Amazon EC2 インスタンスを作成し、上記のカタログにあるスナップショット ID を使用して Amazon EBS ボリュームを作成します。または、Amazon EC2 入門ガイドをご覧ください。

質問がある場合、またはパブリックデータセットコミュニティに参加を希望する場合は、メールで opendata@amazon.com までご連絡ください。