Amazon Web Services ブログ
Amazon DataZone の概要とアップデート
Amazon DataZone は、アマゾンウェブサービス(AWS)、オンプレミス、およびサードパーティのソース全体に保存されているデータを迅速かつ簡単にカタログ化、発見、共有、管理できるようにするデータ管理サービスです。2023 年 10 月に一般的提供を開始してから、継続して機能強化を続けています。
本ブログでは、Amazon DataZone の概要と、最近のアップデートや活用事例、簡単にはじめるための方法について簡単にご紹介します。詳細な情報のリンクも併せて記載しているので、ご興味がある方は、そちらの情報を確認いただき、理解を深めてください。
Amazon DataZone の概要と特徴
データ活用を進めていくにあたって、利用者は必要なデータを素早く発見して利用できることを求める一方で、管理者は適切な権限管理ルールに則り統制された環境を求めています。つまり、アジリティとガバナンスの両立が求められるわけですが、Amazon DataZone は、そのような要件を実現するソリューションです。
Amazon DataZone のコアコンポーネントは、図 1 に示す通り以下を提供します。
- 組織の境界を越えてデータを共有、検索するための Amazon DataZone ポータル
- ビジネス的な意味を蓄積し・共有するためのビジネスデータカタログ
- プロジェクトを作成してデータやツールなどの環境を、必要な人がアクセス可能になるまで IT 作業不要で実現する仕組み
- プロジェクト単位でだれがどのデータにアクセスできるかのアクセスコントロールと監査
図1 : Amazon DataZone のコアコンポーネント
Amazon DataZone の詳細については、AWS Black Belt Online Seminar – Amazon DataZone Overview より確認いただけます。
動画 : https://www.youtube.com/watch?v=WGFJZNv2nDw(デモのパートはこちらからです)
2024 年の主要アップデート
Amazon DataZone のアップデート情報については、ユーザガイドの What is new in Amazon DataZone? で紹介しています。どれもデータ活用に役立つ機能ですが、その中からピックアップしていくつかご紹介します。
主要アップデートサマリ
ここで取り上げる Amazon DataZone アップデートを表 1 にまとめます。
日付 | アップデート | サマリ(ニーズ) |
---|---|---|
2024/4/3 | AWS Glue Data Quality との統合 | ・データ品質も参考にデータの利用判断をしたい |
2024/6/14 | 高度な検索フィルタリング機能 | ・効率的、かつ直感的にデータポータルから必要なデータを探したい |
2024/6/17 | カスタムブループリント | ・既存リソースを Amazon DataZone に統合したい |
2024/6/27 | データリネージビジュアライゼーション機能(プレビュー) | ・自分が作成したデータを誰が利用しているかを追跡したい ・データの出所を確認して分析に利用しているのが適切なデータか把握したい |
2024/7/2 | きめ細かなアクセス制御 | ・共有するデータを行レベルおよび列レベルでデータをきめ細かく制御したい |
2024/8/5 | データプロダクトによるグループ化 | ・共有するデータをグループ化してデータ共有のプロセスを簡素化したい ・特定のユースケースに必要なすべてのデータを簡単に見つけたい |
2024/8/12 | ドメインユニットと承認ポリシー | ・ビジネスユニットやチームに関連するデータやプロジェクトを整理、作成、見つけたい |
表1 : 主要アップデートサマリ
ここからは、それぞれのアップデートについて紹介します。
Amazon DataZone と AWS Glue Data Quality の統合を開始(2024/4/3)
AWS Glue Data Quality との統合が開始され、Amazon DataZone データポータルから、AWS Glue Data Quality の品質スコアを確認できるようになりました。また、API を使用して外部システムから品質スコアをインポートすることができます。これにより、データアナリストやデータエンジニアなどのデータコンシューマーは分析に使用するデータをデータポータルから検索する際に、データ品質スコアも参考に利用判断することができます。
図2 : Amazon DataZone データポータルで確認できるデータ品質(抜粋)
詳細については、以下のブログで解説しています。
高度な検索フィルタリング機能を導入(2024/6/14)
Amazon DataZone はビジネスデータカタログとして、組織全体で同じ定義が使用されるようにビジネス用語集を作成し、アセットに付与することができます。ビジネスカタログから必要なデータを検索するにあたって、ビジネス用語集からの検索機能を強化しました。具体的には、用語集の表示形式(図 4 左側)、「AND」「OR」検索(同図中央)、検索結果の調整に役立てられる選択したフィルターの要約(同図右上のオレンジ枠)です。これによって、コンシューマーはより効率的、かつ直感的にデータポータルから必要なデータを探すことができます。
図3 : データ用語集からのデータ検索
詳細については、以下のブログで解説しています。
https://aws.amazon.com/blogs/big-data/amazon-datazone-enhances-data-discovery-with-advanced-search-filtering/
AWS サービス向けのカスタムブループリント設定を開始(2024/6/17)
Amazon DataZone は、カスタムブループリント設定により、既存の AWS IAM ロールや、Amazon S3 などの AWS サービスを使用して Amazon DataZone を設定できるようになりました。これにより、既存の Amazon S3 データレイクや Amazon Redshift データウェアハウス、AWS Glue ETL ジョブなどの AWS リソースを Amazon DataZone に統合できるようになるので、ガバナンスが強化されます。
図4 : 管理者によるカスタムブループリントのセットアップワークフロー
詳細については、以下のブログで解説しています。
https://aws.amazon.com/blogs/big-data/amazon-datazone-announces-custom-blueprints-for-aws-services/
データリネージビジュアライゼーション機能の開始(プレビュー)(2024/6/27)
Amazon DataZone ではデータリネージのプレビューが導入され、お客様が OpenLineage 対応システムまたは API からのリネージイベントを視覚化し、ソースから使用までのデータ移動を追跡できるようになりました。これによって、データエンジニアなどのデータプロデューサーは、自分が作成したデータを誰が利用しているかを追跡するのに役立ちます。一方、データコンシューマーはデータの出所を確認することができるので、分析に利用しているのが適切なデータであるかどうかを把握するのに役立ちます。
図5 : Amazon DataZone データポータルで確認できるデータリネージ
詳細については、以下のブログで解説しています。
https://aws.amazon.com/jp/blogs/news/introducing-end-to-end-data-lineage-preview-visualization-in-amazon-datazone/
以下のブログでは、AWS Glue テーブルと ETL ジョブ、Amazon Redshift、Amazon Managed Workflows for Apache Airflow (MWAA) からリネージをキャプチャする方法について、CloudFormation スタック起動して確認することができます。
https://aws.amazon.com/blogs/big-data/amazon-datazone-introduces-openlineage-compatible-data-lineage-visualization-in-preview/
きめ細かなアクセス制御の導入(2024/7/2)
Amazon DataZone で、きめ細かなアクセス制御が導入され、データ所有者が行レベルおよび列レベルでデータをきめ細かく制御できるようになりました。例えば、テーブルに複数の地域のデータが含まれている場合、行フィルターを作成して、別々のプロジェクトに対して別々の地域の行へのアクセスを付与できます。さらに、列フィルターを使用すると、個人を特定できる情報 (PII) を含む列など、特定の列へのアクセスを制限して、必要かつ機密性の低いデータへのアクセスのみをデータコンシューマーに許可できます。
図6 : Amazon DataZone ポータルでの列フィルターの作成
詳細については、以下のブログで解説しています。
https://aws.amazon.com/blogs/big-data/enhance-data-security-with-fine-grained-access-controls-in-amazon-datazone/
データプロダクトによるビジネスユースケースベースのグループ化を提供(2024/8/5)
Amazon DataZone で、特定のユースケースに必要なデータアセットをデータプロダクトとしてグループ化できるようになりました。例えば、マーケティングキャンペーンデータ、パイプラインデータ、顧客データといったマーケティング分析に必要となるデータをマーケティング分析というデータプロダクトとしてまとることができます。データプロデューサーは、データプロダクトにビジネスコンテキストを追加し Amazon DataZone ポータルに公開することで、データコンシューマーはマーケティング分析に必要なすべてのデータを簡単に見つけることができます。
図7 : データプロダクトによるデータ共有プロセスの簡素化
詳細については、以下のブログとビデオで解説しています。
https://aws.amazon.com/blogs/big-data/introducing-data-products-in-amazon-datazone-simplify-discovery-and-subscription-with-business-use-case-based-grouping/
https://www.youtube.com/watch?v=MaXgOi0S0SQ
ドメインユニットと承認ポリシーを発表(2024/8/12)
Amazon DataZone で、ビジネスユニットやチームレベルでドメインを作成し、ビジネスニーズに応じてポリシーを管理できるようになりました。企業などの組織においては、複数のビジネスユニットやチームが階層型に構成されているケースが少なくありませんが、新しく導入されたドメインユニットにより実現できます。Amazon DataZone 管理者は、ドップレベルのドメイン配下に営業部門、マーケティング部門といったドメインユニットを作成し、ドメインユニットのオーナーを割り当てることができます。管理者やオーナーは、ドメインユニットに対するプロジェクトの作成や用語集、リソースの使用といったアクセスポリシーも設定できます。これにより、Amazon DataZone ユーザーは、ドメイン単位でカタログを参照や検索したり、特定のビジネスユニットが作成したデータをサブスクライブできます。
図8 : ABC Corpにおけるドメインユニットの例、ドメイン単位に承認ポリシーを設定できる
詳細については、以下のブログとビデオで解説しています。
https://aws.amazon.com/blogs/big-data/organize-content-across-business-units-with-enterprise-wide-data-governance-using-amazon-datazone-domain-units-and-authorization-policies/
https://www.youtube.com/watch?v=wGPzoPz1K4k
Amazon DataZone の活用事例
フォルクスワーゲンが複数のデータレイクにわたるデータアクセスを合理化した取り組み(2024/6/18)
フォルクスワーゲン AG(VW)と AWS は 2019 年に戦略的パートナーシップを結び、デジタルプロダクションプラットフォーム(DPP)を共同開発するための戦略的パートナーシップを結びました。生産と物流の効率を 30% 向上させながら、生産コストを同程度削減する DPP の取り組みを進めていくにつれて、顕在化した以下課題に対して、Amazon DataZone を使用して効率的なデータアクセスを実現したかについて解説しています。
- 複数の独立したデータレイクに保存されているデータの共有
- 共有されたデータから利用可能なデータを発見してデータアクセスをリクエストするワークフローの円滑化
記事はシリーズ構成となっており、パート 1 について公開されています。
ATPCO のイノベーションを加速させる取り組み(2024/7/25)
ATPCO は航空会社が旅行会社などが顧客に適切なオファーを適切なタイミングで提供できるよう支援する航空小売業で、データ主導の意思決定を強化することを目指しています。同僚と話し合って潜在的なデータ資産を見つける状況から、Amazon DataZone などの AWS サービスを利用して、誰が何にアクセスできるのかを適切に管理しながら、すべての事業部門が高品質なデータを発見できるようにしてイノベーションを加速させる方法について解説しています。
解説にあたっては、ユースケースとして、航空券データ、価格データ、匿名化された顧客マスタといったデータソースと Amazon DataZone によるソリューション概要図も紹介しています。
図7 : ソリューション概要図
詳細については以下のブログで解説しています。
https://aws.amazon.com/blogs/big-data/how-atpco-enables-governed-self-service-data-access-to-accelerate-innovation-with-amazon-datazone/
はじめるには
Amazon DataZone のベーシックな機能を体験できるハンズオンとして Amazon DataZone ハンズオン(ベーシック) がありますが、Amazon DataZone のコアコンポーネントを AWS CDK を用いて効率的にデプロイして管理する方法について以下のブログで解説しています。
記事では、ドメイン、データポータル、ビジネスデータカタログなどの構築手順と、既存の AWS Glue データベースを Amazon DataZone のデータソースとして公開する方法が紹介されています。
まとめ
本ブログでは、Amazon DataZone の概要と、最近のアップデートや活用事例について紹介しました。
生成 AI が注目されていますが、差別化となるデータの重要性がますます高まっています。データを迅速かつ簡単にカタログ化、発見、共有、管理できるようにするデータ管理サービスである Amazon DataZone により、アジリティとガバナンスの両立しながら、データ活用を進めていくことができます。
本ブログが、皆さまのデータ活用の取り組みのお役に立てれば幸いです。
更新履歴
- 2024/7/29 新規作成
- 2024/8/19 データプロダクトと、ドメインユニットと承認ポリシーを追加
—
本ブログは、ソリューションアーキテクトの平井が作成しました。