Amazon Web Services ブログ

Amazon DataZone の概要とアップデート

Amazon DataZone は、アマゾンウェブサービス(AWS)、オンプレミス、およびサードパーティのソース全体に保存されているデータを迅速かつ簡単にカタログ化、発見、共有、管理できるようにするデータ管理サービスです。2023 年 10 月に一般的提供を開始してから、継続して機能強化を続けています。

本ブログでは、Amazon DataZone の概要と、最近のアップデートや活用事例、簡単にはじめるための方法について簡単にご紹介します。詳細な情報のリンクも併せて記載しているので、ご興味がある方は、そちらの情報を確認いただき、理解を深めてください。

Amazon DataZone の概要と特徴

データ活用を進めていくにあたって、利用者は必要なデータを素早く発見して利用できることを求める一方で、管理者は適切な権限管理ルールに則り統制された環境を求めています。つまり、アジリティとガバナンスの両立が求められるわけですが、Amazon DataZone は、そのような要件を実現するソリューションです。

Amazon DataZone のコアコンポーネントは、図 1 に示す通り以下を提供します。

  • 組織の境界を越えてデータを共有、検索するための Amazon DataZone ポータル
  • ビジネス的な意味を蓄積し・共有するためのビジネスデータカタログ
  • プロジェクトを作成してデータやツールなどの環境を、必要な人がアクセス可能になるまで IT 作業不要で実現する仕組み
  • プロジェクト単位でだれがどのデータにアクセスできるかのアクセスコントロールと監査

図1 : Amazon DataZone のコアコンポーネント

Amazon DataZone の詳細については、AWS Black Belt Online Seminar – Amazon DataZone Overview より確認いただけます。
PDF : https://pages.awscloud.com/rs/112-TZM-766/images/AWS-Black-Belt_2023_Amazon-DataZone-Overview_1231_v1.pdf

動画 : https://www.youtube.com/watch?v=WGFJZNv2nDw(デモのパートはこちらからです)

2024 年の主要アップデート

Amazon DataZone のアップデート情報については、ユーザガイドの What is new in Amazon DataZone? で紹介しています。どれもデータ活用に役立つ機能ですが、その中からピックアップしていくつかご紹介します。

 

主要アップデートサマリ

ここで取り上げる Amazon DataZone アップデートを表 1 にまとめます。

日付 アップデート サマリ(ニーズ)
2024/4/3 AWS Glue Data Quality との統合 ・データ品質も参考にデータの利用判断をしたい
2024/6/14 高度な検索フィルタリング機能 ・効率的、かつ直感的にデータポータルから必要なデータを探したい
2024/6/17 カスタムブループリント ・既存リソースを Amazon DataZone に統合したい
2024/6/27 データリネージビジュアライゼーション機能(プレビュー) ・自分が作成したデータを誰が利用しているかを追跡したい
・データの出所を確認して分析に利用しているのが適切なデータか把握したい
2024/7/2 きめ細かなアクセス制御 ・共有するデータを行レベルおよび列レベルでデータをきめ細かく制御したい
2024/8/5 データプロダクトによるグループ化 ・共有するデータをグループ化してデータ共有のプロセスを簡素化したい
・特定のユースケースに必要なすべてのデータを簡単に見つけたい
2024/8/12 ドメインユニットと承認ポリシー ・ビジネスユニットやチームに関連するデータやプロジェクトを整理、作成、見つけたい
2024/10/17 AWS IAM Identity Center アカウントインスタンスのサポート ・AWS Organizations の組織インスタンスではなく、アカウントインスタンスを用いてユーザ管理、あるいは外部 IdP との SSO を実現したい
2024/10/18 プロジェクト内のメンバーに新しい肩書を追加 ・より細かくプロジェクト内のユーザーへの権限を制御したい
2024/10/30 Athena JDBC ドライバーによる認証をサポート ・Tableau、Power BI などのBI および分析ツールを使用して Amazon DataZone プロジェクトのサブスクライブ済みデータレイクアセットにクエリを実行したい
2024/11/8 ユーザレベルのサブスクリプション料金の撤廃など料金アップデート ・より費用対効果の高いデータ管理およびデータガバナンス機能を利用したい
2024/11/25 データアクセスワークフローの強制的なメタデータルールのサポート ・コンシューマーによるアクセス要求の際に重要な情報を強制的に入力させることによりガバナンスを強化したい
2024/12/3 データリネージビジュアライゼーション機能(一般提供開始) ・自分が作成したデータを誰が利用しているかを追跡したい
・データの出所を確認して分析に利用しているのが適切なデータか把握したい
2024/12/3 Amazon SageMaker Data and AI Goverance の発表 ・Amazon SageMaker Lakehouse にあるデータや AI のデータの発見、ガバナンス、コラボレーションを簡単にしたい

 表1 : 主要アップデートサマリ

ここからは、それぞれのアップデートについて紹介します。

 

Amazon DataZone と AWS Glue Data Quality の統合を開始(2024/4/3)

AWS Glue Data Quality との統合が開始され、Amazon DataZone データポータルから、AWS Glue Data Quality の品質スコアを確認できるようになりました。また、API を使用して外部システムから品質スコアをインポートすることができます。これにより、データアナリストやデータエンジニアなどのデータコンシューマーは分析に使用するデータをデータポータルから検索する際に、データ品質スコアも参考に利用判断することができます。

図2 : Amazon DataZone データポータルで確認できるデータ品質(抜粋)

詳細については、以下のブログで解説しています。
https://aws.amazon.com/blogs/big-data/amazon-datazone-now-integrates-with-aws-glue-data-quality-and-external-data-quality-solutions/

 

高度な検索フィルタリング機能を導入(2024/6/14)

Amazon DataZone はビジネスデータカタログとして、組織全体で同じ定義が使用されるようにビジネス用語集を作成し、アセットに付与することができます。ビジネスカタログから必要なデータを検索するにあたって、ビジネス用語集からの検索機能を強化しました。具体的には、用語集の表示形式(図 4 左側)、「AND」「OR」検索(同図中央)、検索結果の調整に役立てられる選択したフィルターの要約(同図右上のオレンジ枠)です。これによって、コンシューマーはより効率的、かつ直感的にデータポータルから必要なデータを探すことができます。

図3 : データ用語集からのデータ検索

詳細については、以下のブログで解説しています。
https://aws.amazon.com/blogs/big-data/amazon-datazone-enhances-data-discovery-with-advanced-search-filtering/

 

AWS サービス向けのカスタムブループリント設定を開始(2024/6/17)

Amazon DataZone は、カスタムブループリント設定により、既存の AWS IAM ロールや、Amazon S3 などの AWS サービスを使用して Amazon DataZone を設定できるようになりました。これにより、既存の Amazon S3 データレイクや Amazon Redshift データウェアハウス、AWS Glue ETL ジョブなどの AWS リソースを Amazon DataZone に統合できるようになるので、ガバナンスが強化されます。

図4 : 管理者によるカスタムブループリントのセットアップワークフロー

詳細については、以下のブログで解説しています。
https://aws.amazon.com/blogs/big-data/amazon-datazone-announces-custom-blueprints-for-aws-services/

 

データリネージビジュアライゼーション機能の開始(プレビュー)(2024/6/27)

Amazon DataZone ではデータリネージのプレビューが導入され、お客様が OpenLineage 対応システムまたは API からのリネージイベントを視覚化し、ソースから使用までのデータ移動を追跡できるようになりました。これによって、データエンジニアなどのデータプロデューサーは、自分が作成したデータを誰が利用しているかを追跡するのに役立ちます。一方、データコンシューマーはデータの出所を確認することができるので、分析に利用しているのが適切なデータであるかどうかを把握するのに役立ちます。

図5 : Amazon DataZone データポータルで確認できるデータリネージ

詳細については、以下のブログで解説しています。
https://aws.amazon.com/jp/blogs/news/introducing-end-to-end-data-lineage-preview-visualization-in-amazon-datazone/

以下のブログでは、AWS Glue テーブルと ETL ジョブ、Amazon Redshift、Amazon Managed Workflows for Apache Airflow (MWAA) からリネージをキャプチャする方法について、CloudFormation スタック起動して確認することができます。
https://aws.amazon.com/jp/blogs/news/amazon-datazone-introduces-openlineage-compatible-data-lineage-visualization-in-preview/

 

きめ細かなアクセス制御の導入(2024/7/2)

Amazon DataZone で、きめ細かなアクセス制御が導入され、データ所有者が行レベルおよび列レベルでデータをきめ細かく制御できるようになりました。例えば、テーブルに複数の地域のデータが含まれている場合、行フィルターを作成して、別々のプロジェクトに対して別々の地域の行へのアクセスを付与できます。さらに、列フィルターを使用すると、個人を特定できる情報 (PII) を含む列など、特定の列へのアクセスを制限して、必要かつ機密性の低いデータへのアクセスのみをデータコンシューマーに許可できます。

図6 : Amazon DataZone ポータルでの列フィルターの作成

詳細については、以下のブログで解説しています。
https://aws.amazon.com/jp/blogs/news/enhance-data-security-with-fine-grained-access-controls-in-amazon-datazone/

 

データプロダクトによるビジネスユースケースベースのグループ化を提供(2024/8/5)

Amazon DataZone で、特定のユースケースに必要なデータアセットをデータプロダクトとしてグループ化できるようになりました。例えば、マーケティングキャンペーンデータ、パイプラインデータ、顧客データといったマーケティング分析に必要となるデータをマーケティング分析というデータプロダクトとしてまとめることができます。データプロデューサーは、データプロダクトにビジネスコンテキストを追加し Amazon DataZone ポータルに公開することで、データコンシューマーはマーケティング分析に必要なすべてのデータを簡単に見つけることができます。

図7 : データプロダクトによるデータ共有プロセスの簡素化

詳細については、以下のブログとビデオで解説しています。
https://aws.amazon.com/blogs/big-data/introducing-data-products-in-amazon-datazone-simplify-discovery-and-subscription-with-business-use-case-based-grouping/
https://www.youtube.com/watch?v=MaXgOi0S0SQ

 

ドメインユニットと承認ポリシーを発表(2024/8/12)

Amazon DataZone で、ビジネスユニットやチームレベルでドメインを作成し、ビジネスニーズに応じてポリシーを管理できるようになりました。企業などの組織においては、複数のビジネスユニットやチームが階層型に構成されているケースが少なくありませんが、新しく導入されたドメインユニットにより実現できます。Amazon DataZone 管理者は、ドップレベルのドメイン配下に営業部門、マーケティング部門といったドメインユニットを作成し、ドメインユニットのオーナーを割り当てることができます。管理者やオーナーは、ドメインユニットに対するプロジェクトの作成や用語集、リソースの使用といったアクセスポリシーも設定できます。これにより、Amazon DataZone ユーザーは、ドメイン単位でカタログを参照や検索したり、特定のビジネスユニットが作成したデータをサブスクライブできます。

図8 : ABC Corpにおけるドメインユニットの例、ドメイン単位に承認ポリシーを設定できる

詳細については、以下のブログとビデオで解説しています。
https://aws.amazon.com/blogs/big-data/organize-content-across-business-units-with-enterprise-wide-data-governance-using-amazon-datazone-domain-units-and-authorization-policies/
https://www.youtube.com/watch?v=wGPzoPz1K4k

 

AWS IAM Identity Center アカウントインスタンスのサポート(2024/10/17)

Amazon DataZone で、AWS Organizations を設定していなくても、単一の AWS アカウントで AWS IAM Identity Center を有効できるようになりました。Amazon DataZone 管理者は AWS IAM Identity Center の有効化にあたって、組織インスタンスとアカウントインスタンスから選択することができます。これにより、AWS Organization の管理アカウントにアクセスできない場合でも、AWS IAM Identity Center のアカウントインスタンスを作成して、Amazon DataZone で該当インスタンスを有効化することによって、AWS IAM Identity Center によるユーザ管理や、Okta や Active Directory などの IdP と SSO を設定することができます。

 

プロジェクト内のメンバーに新しい肩書を追加(2024/10/18)

Amazon DataZone で、プロジェクト内に追加するユーザー向けの肩書(権限ロール)に、従来の Owner, Contributor に加えてConsumer, Viewer, Steward が追加され、より細かくプロジェクト内のユーザーへの権限を制御できるようになりました。

これまで、プロジェクトにユーザーを追加する際にはそのユーザーを Owner もしくは Contributor として登録する必要があり、すべてのユーザーは Amazon DataZone 上で行うほとんどすべてのタスクを等しく行うことができました。今回、新たに追加された 3 つの肩書きにより、異なる役割をもつ多くの関係者をプロジェクトに追加して運用することがしやすくなりました。

表2 :肩書きと操作権限

Athena JDBC ドライバーによる認証をサポート(2024/10/30)

Amazon DataZone は Athena JDBC ドライバーによる認証をサポートするようになりました。これにより、データコンシューマーは、Tableau、Domino、Power BI、MS Excel、SQL Workbench などの一般的な BI および分析ツールを使用して、Amazon DataZone 内のプロジェクトのサブスクライブ済みデータレイクアセットにクエリを実行できるようになりました。

図9 : これまでの Amazon DataZone データポータルのクエリエディタによるデータアクセス(上段)と、Athena JDBC ドライバによる BI および分析ツールからのアクセス(下段)

詳細については、以下のブログとビデオで解説しています。
https://aws.amazon.com/jp/blogs/big-data/expanding-data-analysis-and-visualization-options-amazon-datazone-now-integrates-with-tableau-power-bi-and-more/
https://www.youtube.com/watch?v=dFsoldpcF9M

Tableau Desktop の詳細なセットアップ手順については以下のブログで解説しています。
https://aws.amazon.com/jp/blogs/big-data/streamline-ai-driven-analytics-with-governance-integrating-tableau-with-amazon-datazone/

 

ユーザレベルのサブスクリプション料金の撤廃など料金アップデート(2024/11/8)

Amazon DataZone の価格設定が更新され、これまで請求されていた設定されたユーザーごとに対する毎月のサブスクリプション料金が請求されなくなりました。更新前は、500 ユーザまではユーザあたり月額 9 ドル/月の費用が発生していましたが無料になりました。このほか、メタデータストレージ価格の 1GB あたり 0.417 ドルから 0.40 ドルへの引き下げと、いくつかの Amazon DataZone API への無料アクセスも導入されました。

この変更により、Amazon DataZone は、使用したリソースに対してのみ課金される従量課金制モデルが提供されるようになりました。データ活用の推進により Amazon DataZone の登録ユーザ数が増加しても、お客様にとってはより利用しやすく、費用対効果の高いサービスになりました。

料金の詳細については、料金ページをご確認ください(英語ページが正となります)。

データアクセスワークフローの強制的なメタデータルールのサポート(2024/11/25)

データコンシューマーからデータプロデューサーに対するアクセスリクエストの際に、強制的なメタデータルールをサポートするようになりました。例えば、データコンシューマーが機密のファイナンスデータへのアクセスを要求したい際に、特定のコンプライアンス関連のメタデータを義務付けることができます。これにより、組織固有の独自のワークフローを実現しやすくすると共に、ガバナンスとコンプライアンスを強化することができます。

詳細については、以下のブログとビデオで解説しています。
https://aws.amazon.com/jp/blogs/big-data/enhance-data-governance-with-enforced-metadata-rules-in-amazon-datazone/
https://www.youtube.com/watch?v=4zEjwiea45U

データリネージビジュアライゼーション機能(一般提供開始)(2024/12/3)

2024/6 にプレビューが開始されたデータリネージビジュアライゼーションが一般提供開始となりました。
プレビューからのアップデートとして、同日に一般提供が開始された AWS Glue 5.0 では、Spark ジョブが実行中にリネージの情報を自動的に収集して、イベントを Amazon DataZone に送付して管理することができます。

詳細については、以下のブログで解説しています。
https://aws.amazon.com/jp/blogs/aws/announcing-the-general-availability-of-data-lineage-in-the-next-generation-of-amazon-sagemaker-and-amazon-datazone/

Amazon SageMaker Data and AI Goverance の発表(2024/12/3)

AWS re:Invent 2024 で、データ、分析、AI の統合プラットフォームである次世代 Amazon SageMaker が発表されました。次世代 Amazon SageMaker は、Amazon SageMaker Unified Studio (プレビュー)、Amazon SageMaker Lakehouse、Amazon SageMaker Data and AI Governance といった AI と分析に関する新機能が1つのプラットフォームに統合されています。Amazon SageMaker Data and AI Governance は、Amazon DataZone 上に構築されています。

詳細については、以下のサービス紹介ページやブログで解説しています。
https://aws.amazon.com/sagemaker/data-ai-governance/
https://aws.amazon.com/blogs/aws/introducing-the-next-generation-of-amazon-sagemaker-the-center-for-all-your-data-analytics-and-ai/

 

Amazon DataZone の活用事例

フォルクスワーゲンが複数のデータレイクにわたるデータアクセスを合理化した取り組み(2024/6/18)

フォルクスワーゲン AG(VW)と AWS は 2019 年に戦略的パートナーシップを結び、デジタルプロダクションプラットフォーム(DPP)を共同開発するための戦略的パートナーシップを結びました。生産と物流の効率を 30% 向上させながら、生産コストを同程度削減する DPP の取り組みを進めていくにつれて、顕在化した以下課題に対して、Amazon DataZone を使用して効率的なデータアクセスを実現したかについて解説しています。

  • 複数の独立したデータレイクに保存されているデータの共有
  • 共有されたデータから利用可能なデータを発見してデータアクセスをリクエストするワークフローの円滑化

記事はシリーズ構成となっており、パート 1 について公開されています。
https://aws.amazon.com/blogs/big-data/how-volkswagen-streamlined-access-to-data-across-multiple-data-lakes-using-amazon-datazone-part-1/

ATPCO のイノベーションを加速させる取り組み(2024/7/25)

ATPCO は航空会社が旅行会社などが顧客に適切なオファーを適切なタイミングで提供できるよう支援する航空小売業で、データ主導の意思決定を強化することを目指しています。同僚と話し合って潜在的なデータ資産を見つける状況から、Amazon DataZone などの AWS サービスを利用して、誰が何にアクセスできるのかを適切に管理しながら、すべての事業部門が高品質なデータを発見できるようにしてイノベーションを加速させる方法について解説しています。

解説にあたっては、ユースケースとして、航空券データ、価格データ、匿名化された顧客マスタといったデータソースと Amazon DataZone によるソリューション概要図も紹介しています。

図10 : ソリューション概要図

詳細については以下のブログで解説しています。
https://aws.amazon.com/blogs/big-data/how-atpco-enables-governed-self-service-data-access-to-accelerate-innovation-with-amazon-datazone/

フォルクスワーゲンオートヨーロッパが Amazon DataZone を使用してデジタルトランスフォーメーションを加速した取り組み (2024/10/31)

フォルクスワーゲングループの工場であるフォルクスワーゲン・オートヨーロッパは、最先端のテクノロジーを活用してデジタル化への取り組みを強化するためデータ主導型の工場を目指していましたが、数日から数週間かかるデータアクセスまでのリードタイム、データコピーによる共有が引き起こす重複した作業やデータガバナンスの欠如とデータ品質の問題といった課題を抱えていました。この課題に対して、オンラインショッピング体験のような、データを利用するユーザーが分かりやすい仕様やビジネスコンテキスト、関連する属性を備えた高品質で安全なデータを閲覧してアクセスできるデータマーケットプレイスを構想し、ソリューションとして Amazon DataZone を使用したデータメッシュアーキテクチャを選択しました。ソリューションにより、データアクセス時間が数週間から数分に短縮されています。

ブログでは、ソリューションのキーとなるケイパビリティとアーキテクチャに加えて、データオーナー(データプロデューサー)、データエンジニア(データコンシューマー)、データソリューション管理者といった役割のユーザーが、データソリューションをどのように利用するかのユーザージャーニーについて紹介しています。

図 11 : ソリューションのキーとなるケイパビリティ(能力)

図 12 : ソリューションのアーキテクチャ

詳細については以下のブログで解説しています。
https://aws.amazon.com/jp/blogs/big-data/how-volkswagen-autoeuropa-built-a-data-mesh-to-accelerate-digital-transformation-using-amazon-datazone/

(関連)データガバナンス事例祭り 〜AWS で実現するモダンな取り組み〜 (2024/11/7)

Amazon DataZone を含む AWS の Analytics サービスを活用してデータガバナンスの取り組みを推進している会社より、取り組み事例を Webinar で登壇いただきました。Amazon DataZone の事例としては、富士通様よりデータドリブン経営を実現する全社データ利活用プラットフォーム「OneData」の取り組みを紹介いただきました。

富士通様も含む発表動画と登壇資料といった詳細については、以下の開催報告ブログで解説しています。
https://aws.amazon.com/jp/blogs/news/aws-japan-data-governance-festival/

はじめるには

Amazon DataZone のベーシックな機能を体験できるハンズオンとして Amazon DataZone ハンズオン(ベーシック) がありますが、ありますが、解説記事が builders.flash で公開されています。
https://aws.amazon.com/jp/builders-flash/202411/amazon-datazone-hands-on/

Amazon DataZone のコアコンポーネントを AWS CDK を用いて効率的にデプロイして管理する方法について以下のブログで解説しています。記事では、ドメイン、データポータル、ビジネスデータカタログなどの構築手順と、既存の AWS Glue データベースを Amazon DataZone のデータソースとして公開する方法が紹介されています。
https://aws.amazon.com/blogs/big-data/streamline-your-data-governance-by-deploying-amazon-datazone-with-the-aws-cdk/

まとめ

本ブログでは、Amazon DataZone の概要と、最近のアップデートや活用事例について紹介しました。

生成 AI が注目されていますが、差別化となるデータの重要性がますます高まっています。データを迅速かつ簡単にカタログ化、発見、共有、管理できるようにするデータ管理サービスである Amazon DataZone により、アジリティとガバナンスの両立しながら、データ活用を進めていくことができます。

本ブログが、皆さまのデータ活用の取り組みのお役に立てれば幸いです。

更新履歴

  • 2024/7/29 新規作成
  • 2024/8/19 データプロダクトと、ドメインユニットと承認ポリシーを追加
  • 2024/10/23 AWS IAM Identity Center アカウントインスタンスのサポートと、プロジェクト内メンバーの新しい肩書きを追加
  • 2024/11/7 Athena JDBC ドライバのサポートと事例を追加すると共に、Amazon DataZone ハンズオン(ベーシック) の解説記事のリンク(builders.flash)を追加
  • 2024/11/11 料金アップデートを追加
  • 2024/11/13 データガバナンス事例を追加
  • 2024/12/16 主に AWS re:Invent 2024 期間中のアップデートを追加

本ブログは、ソリューションアーキテクトの平井が作成しました。