Amazon Web Services ブログ

AWS Data Exchange – データ製品の検索、登録、および使用について

私たちが暮らす世界は、データ集約型、そしてデータ駆動型に依存しています。 どんな種類の組織でも、データの収集、保存、処理、分析を行い、そのデータを使って意思決定プロセスの通知や改善を行っています。AWS Cloud は、こうした活動すべてに適しています。膨大な量のストレージ、あらゆるケールのコンピューティング能力へのアクセス、多くの異なる種類の分析ツールを実現しています。

たいていの組織では、内部でデータを生成したり操作したりするだけでなく、データセットを生成し、それを一般の人々や業界内で共有しています。2008 年に AWS パブリックデータセット (研究者、アナリスト、および開発者のページング) を立ち上げることで、こうした動きを奨励しようと最初の一歩を踏み出しました。この取り組みは Registry of Open Data on AWS (新しくは Registry of Open Data on AWS (RODA)) に発展し、現在 118 件の興味深いデータセットが含まれ、常に追加されています。

新しくなった AWS Data Exchange
本日、弊社は AWS Data Exchange を立ち上げ、次の一歩を踏み出しました。AWS Marketplaceにこれを追加したことで、80 件を超えるデータプロバイダからの 1,000 件を超えるライセンス可能なデータ製品が含まれることになります。金融サービス、ヘルスケア/ライフサイエンス、地理空間、天気、マッピングなどのカテゴリでは、無料と有料のサービスを含むさまざまなカタログがあります。

データサブスクライバーの場合、これらの製品をすばやく見つけて調達し、使用を開始できます。データプロバイダーなら、独自の製品を簡単にパッケージ化し、ライセンス供与と配信が可能です。両者の観点から Data Exchange を見て、いくつか重要な詳細を確認しましょう。

詳細を見る前に、重要な用語をいくつか定義します。

データプロバイダー – 共有する複数のデータ製品を持つ組織。

データサブスクライバー – データプロバイダーのデータ製品の利用を考えている AWS のお客様。

データ製品 – データセットのコレクション。

データセット – リビジョンごとにグループ化したデータ資産のコンテナ。

リビジョン – ある時点での複数のデータ資産のコンテナー。

データ資産 – 任意の形式の実際のデータ。

データサブスクライバーのための AWS Data Exchange
データサブスクライバーの場合、[View product catalog] をクリックし、Discover data セクション (AWS Data Exchange コンソール内) より開始します。

製品は、たくさんのベンダーが載っているリストから入手できます。

検索語を入力して [Search] をクリックし、結果を絞り込んで無料料金プランのある製品のみを表示できます。

検索用語に一致し無料の料金プランのある、特定のベンダーの製品を検索することもできます。

2 つ目のものが興味深く、関連性があるように見えるので、「5 Digit Zip Code Boundaries US (TRIAL)」をクリックして詳細を確認します。

私のアプリでこれを使用できるようなので、試してみましょう。[Continue to subscribe] をクリックします。詳細を確認し、データサブスクリプション契約を読んでから、[Subscribe] をクリックします。

サブスクリプションが数分以内に有効になり、[Subscriptions] のリストで確認できます。

次に、セットを S3 バケットにダウンロードして、見てみましょう。データセットをクリックして、[Revisions] を見つけます。

リビジョンをクリックすると、探しているアセット (実際のデータを含む) が表示されます。

目的のアセットを選択し、[Export to Amazon S3] をクリックします。次にバケットを選択し、[Click Export] をクリックして続行します。

これで、データをバケットにコピーするジョブが作成されます (ここで、追加の IAM アクセス許可が必要です。詳細については、Access Control のドキュメントをご参照ください)。

ジョブが非同期で実行され、Data Exchange からバケットにデータをコピーします。ジョブは、先ほど示したようにインタラクティブに作成することも、プログラムで作成することもできます。データがバケットに格納されると、任意の方法でアクセスして処理できます。たとえば、AWS Lambda 関数を使用して ZIP ファイルを解析し、その結果を用いて Amazon DynamoDB テーブルを更新できます。または、 AWS Glue クローラを実行してデータを Glue カタログに取り込み、Amazon Athena クエリを実行して、Amazon QuickSight ダッシュボードで結果を視覚化できます。

自動更新オプションを使用すると、サブスクリプションは 1〜36 か月継続します。サブスクリプション料金は、毎月 AWS アカウントに請求されます。

データプロバイダーのための AWS Data Exchange
次に、「データプロバイダー」側からの公開プロセスの基本をご紹介しましょう (ユーザーガイドには、より詳細なウォークスルーが含まれています)。データのライセンスを取得するには、利用規約に同意する必要があります。また、アプリケーションが AWS によって承認される必要があります。

申請して承認された後、最初のデータセットを作成することから開始します。ナビゲーションの [Data sets] をクリックし、データセットを作成します。

自分のデータセットを説明し、オプションでタグを付け、[Create] をクリックします。

次に [Create revision] をクリックし、データセットの最初のリビジョンを作成します。

コメントを追加し、[Create] をクリックする前にオプションでリビジョンにタグを付けます。

既存の S3 ロケーションからデータをコピーするか、デスクトップからアップロードできます。

2 つ目のオプションを選択し、ファイルを選択すると、インポートジョブの完了後にインポート済みアセットとして表示されます。すべてを確認し、リビジョンの [Finalize] をクリックします。

私のデータセットはすぐに使用できる準備が整っています。このデータセットを使用して、複数の製品を作成できます。

コンソールには、主要な手順の概要が表示されます。

製品の公開料金情報を設定します。

AWS Data Exchange を使用すると、個々の顧客向けのプライベートな料金プランを作成できます。また、既存の顧客は自身のサブスクリプションサービスを作成することで、製品の既存の (AWS Data Exchange 以前の) ライセンスを一緒に持ち込むことができます。

AWS Data Exchange が提供するデータサブスクリプション契約 (DSA) を使用するか、それを自分の基盤として使用するか、あるいは既存の契約をアップロードできます。

AWS Data Exchange API を使って、データセットとそれらのリビジョンを作成、更新、一覧表示、および管理することが可能です。CreateDataSetUpdataSetListDataSetsCreateRevisionUpdateAsset および CreateJob が関数に含まれています。

知っておくべきこと
Data Exchange について知っておくべきことをいくつかご説明します。

サブスクリプションの検証 – データプロバイダーは追加情報を要求し、サブスクリプションを検証することもできます。その場合、コンソールが情報の提供を求め、プロバイダーは 45 日以内に確認と、承認または拒否を行います。

プロバイダーには次が表示されます。

リビジョンと通知 – データプロバイダーはいつでもデータセットをリビジョンできます。データコンシューマーは、サブスクライブしている製品が更新されるたびに CloudWatch イベントを受け取ります。これを使用してジョブを起動し、アセットの最新リビジョンを取得します。この種類のシステムを実装していて、テストイベントがいくつか必要な場合は、Heartbeat 製品を探してサブスクライブしてください。

データカテゴリーとタイプ – 特定のデータカテゴリーは AWS Data Exchange で許可されていません。個人を特定するために使用できる情報がデータ製品に含まれていない場合がありますが、その情報が既に合法的に一般公開されている場合は除きます。許可されるデータカテゴリに関する詳細なガイドラインについては、「Publishing Guidelines」をご覧ください。

データプロバイダーの場所 – データプロバイダーは、米国または EU 加盟国に拠点を置く合法的な組織である必要があります。

今すぐご利用いただけます
AWS Data Exchange はご利用可能です。今日からすぐに使用を開始できます。興味深いデータを所有していて、それを公開したい場合は、ここから始めてください。開発者の場合は、製品カタログを参照し、製品に価値をもたらすデータを見つけ出しましょう。

Jeff