Amazon Web Services ブログ

Amazon SageMaker のメタデータ必須化ルールによるガバナンスの強化

本記事は 2025 年 3 月 28 日 に公開された「Enhance governance with metadata enforcement rules in Amazon SageMaker」を翻訳したものです。

次世代の SageMaker は、広く採用されている AWS の機械学習と分析機能を統合し、あらゆるデータへの統一アクセスを備えた一貫した操作体験を提供します。Amazon SageMaker Lakehouse はデータへの統一アクセスをサポートし、Amazon DataZone を基盤とする Amazon SageMaker Catalog は、企業のセキュリティニーズに応えるカタログとガバナンス機能を提供します。Amazon SageMaker Catalog はメタデータルールをサポートするようになり、データ公開およびサブスクリプションワークフロー全体でメタデータ標準を必須化できるようになりました。

ルールとは、Amazon SageMaker Unified Studio ポータル内のユーザーワークフロー (カタログへのアセット公開、データアクセス申請など) 全体にわたって、特定のメタデータ要件を必須化する仕組みです。たとえば、メタデータ必須化ルールは、サブスクリプションリクエストの作成や、データアセットやデータプロダクトをカタログに公開する際に必要な情報を指定し、組織標準との整合性を確保します。さらに、メタデータルールを使ってアセットサブスクリプション向けのカスタム承認ワークフローも作成できます。収集したメタデータを使ってアクセス判断や自動履行を SageMaker の外側で実現できます。

メタデータ運用を標準化することで、Amazon SageMaker Catalog はコンプライアンス要件への対応、監査準備の強化、アクセスワークフローの効率化と統制の向上を支援します。Amazon Shipping Tech もこの機能を活用しているお客様の 1 社で、データエコシステム全体でのカタログ化、発見、共有、ガバナンスに SageMaker Catalog を利用しています。

「私たちは、組織全体でデータ発見を推進する分析エコシステムを構築していますが、一貫したメタデータがなければ、最も価値のあるデータでも活用されないままになってしまいます。今回の機能により、適切なガバナンスのもとで、より多くのチームがメタデータ整備に積極的に貢献できるようになります。データプロデューサー向けに明確な基準を設定しつつ、サブスクリプションで必要な情報の収集を効率化でき、追加のテンプレートは不要です。標準的なメタデータ属性を必須化することで、検出性を高め、各申請にコンテキストを付与し、分析と生成 AI ソリューションの支援を強化できます」

— Saurabh Pandey, Principal Data Engineer at Amazon Shipping Tech

ユースケース例

メタデータルールは以下のようなユースケースで役立ちます。

  • 自動車会社のプロデューサーが、組織のデータカタログに新しいデータセットを公開しようとしています。自動車ドメインのオーナーは、プロデューサーに対して Model Year、Region、Compliance Status などのメタデータフィールドを含めるよう要求しています。データセット公開前に、事前定義された基準に従って各フィールドが正しく入力されているか自動チェックされます。
  • あるコンシューマーが SageMaker のデータアセットへのアクセスを申請しています。組織基準を満たし、監査・レポート要件に対応するため、サブスクリプションリクエストを完了し、プロジェクト目的を含む詳細フォームを記入し、金融データプロダクトのサブスクリプション申請のために事前承認とコンプライアンス研修のエビデンスを示すメールリンクを添付する必要があります。データオーナーはリクエストを確認し、必要なメタデータがすべて提供されているかチェックしてアクセスを許可します。

主なメリット

メタデータ必須化ルールの主なメリットは以下のとおりです。

  • ドメイン (ユニット) オーナーによる制御の強化 – 管理者は、サブスクリプションおよび公開ワークフローに追加のメタデータフィールドを必須化でき、データ利用者は入力が必須になります。厳密なレビューと組織コンプライアンスの徹底が可能です。
  • カスタムワークフローのサポート – データコンシューマーから必要なメタデータを取得し、非管理アセットのサブスクリプション履行向けにカスタムワークフローを作成できます。取得したメタデータを使って、アクセス設定や特定のビジネス要件への対応が可能です。

本記事では、2 つのワークフローを紹介します。特定のドメイン向けにメタデータ必須化ルールを設定し、カタログでアセットまたはデータプロダクトを公開するワークフローと、特定のドメイン向けにメタデータ必須化ルールを設定し、ドメイン内のプロジェクトが所有するアセットまたはデータプロダクトをサブスクライブするワークフローです。

ソリューション概要: 公開時のメタデータ必須化

本ソリューションでは、公開時のメタデータ必須化の設定と、サブスクリプション時のメタデータ必須化の設定の 2 つのワークフローを順を追って説明します。

前提条件

本記事の内容を実践するには、ドメインオーナーまたはドメインユニットオーナー権限で SageMaker Unified Studio ドメインをセットアップしておく必要があります。手順は 開始方法 ガイドを参照してください。

公開向けメタデータ必須化の設定

本セクションでは、ドメイン管理者として特定のドメインにメタデータルールを設定する方法を紹介します。また、ルールが適用された状態で、カタログにアセットやデータプロダクトを公開したときの動作も説明します。

マーケティングチーム用ドメインユニットの作成

ドメイン管理者として、以下の手順を実施します。

  1. SageMaker Unified Studio コンソールで、Govern ドロップダウンメニューから Domain units を選択します。

  2. CREATE DOMAIN UNIT を選択します。

  3. 次のスクリーンショットの情報を入力し、CREATE DOMAIN UNIT を選択します。

以下のスクリーンショットのようにドメインユニットが表示されます。

Marketing ドメインユニットでのメタデータフォーム作成ポリシーの有効化

以下の手順を実施します。

  1. Marketing ドメインユニットの AUTHORIZATION POLICIES タブに移動し、Metadata form creation policy を選択します。

  2. ADD POLICY GRANT を選択します。

  3. All projects in a domain unit を選び、ポリシー付与を追加します。
  4. メタデータフォームを作成できる特定のプロジェクトを選ぶこともできます。
  5. ADD POLICY GRANT を選択します。

Marketing ドメインユニット用のポリシーが作成されたことを確認できます。

公開前にアセットへ必須化するメタデータフォームの作成

メタデータフォームを作成するには、以下の手順を実施します。

  1. publish-1 プロジェクトで、ナビゲーションペインの Project catalog の下にある Metadata entities を選択します。
  2. Metadata forms タブで CREATE METADATA FORM を選択します。

  3. 表示名、技術名、説明を入力します。
  4. CREATE METADATA FORM を選択します。

  5. フォーム作成後、CREATE FIELD を選んで、公開するすべてのアセットに含めるフィールドを必須化できます。

  6. 次のスクリーンショットのとおりに情報を入力します。
  7. 公開前に必須となるフィールドのため、SearchableRequiredPublishing を選択します。
  8. CREATE FIELD を選択します。

  9. 次のスクリーンショットのとおり、もう 1 つフィールドを追加します。

Publishing アクション付きで作成した両方のフィールドは、カタログへの公開前に値の入力が必須になります。

アセット公開のルールの作成

以下の手順を実施します。

  1. publish-1 プロジェクトで、ナビゲーションペインの Domain Management の下にある Domain units を選択します。
  2. Marketing ドメインユニットを選択します。

  3. Rules タブで ADD を選択します。

  4. 次のスクリーンショットの情報でルール設定を作成し、前の手順で作成したメタデータフォームを追加します。
  5. アセットタイプとプロジェクトで必須化のスコープを選択できます。
  6. ADD RULE を選択してルールを作成します。

公開必須化ルール publish_rules が作成されました。

Marketing ドメインユニットでのプロジェクトの作成

Marketing ドメインユニットに publish-1 という名前のプロジェクトを作成します。プロジェクト作成の方法は、プロジェクトの作成 を参照してください。

プロジェクト内でのアセットの作成

ルールは、SageMaker Catalog が管理するアセットまたはカスタムアセットに対して機能します。アセットを作成するには、以下の手順を実施します。

  1. publish-1 プロジェクトで、ナビゲーションペインの Project catalog の下にある Assets を選択します。
  2. Create ドロップダウンメニューで Create asset を選択します。

  3. アセット名と説明を入力し、Next を選択します。

本ソリューションでは、Amazon Simple Storage Service (Amazon S3) オブジェクトコレクションを作成します。

  1. Asset typeS3 object collection を選択します。
  2. S3 location ARN に、S3 オブジェクトの Amazon Resource Name (ARN) を入力します。
  3. Next を選択します。

  4. CREATE を選択します。

アセット marketing_campaign_asset が作成されました。この時点ではまだインベントリアセットであり、カタログには公開されていません。

公開ルールの必須化

アセットの詳細には、必須フォーム Publish_form に必要な値が不足していると表示されます。

必須フィールドを入力せずに公開しようとすると、以下のスクリーンショットのように公開メタデータルールの必須化によるエラーが発生します。

解決するには、メタデータフォームの値を編集して必要な情報を入力します。

フィールドに情報を入力し、SAVE を選択します。

ここで PUBLISH ASSET を選択すると、アセットがカタログに公開されます。

ルールで必須化されたフィールドが入力された状態で、アセットが公開されたことを確認できます。

サブスクリプションリクエスト向けメタデータ必須化の設定

本セクションでは、ドメイン管理者として特定のドメインにメタデータルールを設定する方法を紹介します。また、ルールが適用された状態で、アセットやデータプロダクトをサブスクライブするときの動作も説明します。

アセットサブスクリプション用ルールの作成

以下の手順を実施します。

  1. 前のセクションで使ったプロジェクトに移動し、ナビゲーションペインの Project catalog の下にある Metadata entities を選択します。
  2. Metadata forms タブで CREATE METADATA FORM を選択し、新しいフォームを作成します。

  3. フォーム名と説明を入力し、CREATE METADATA FORM を選択します。

  4. CREATE FIELD を選択し、Enabled をオンにして、フォームにフィールドを追加します。

  5. アクセス申請時にサブスクライバーがユースケースを説明するためのフィールドを追加します。

アセットサブスクリプション用ルールの作成

以下の手順を実施します。

  1. プロジェクトページで、ナビゲーションペインの Domain Management の下にある Domain units を選択します。
  2. Marketing ドメインユニットを選択します。

公開ルールはすでに存在します。

  1. Rules タブで ADD を選択し、新しいルールを追加します。

  2. 新しいルールの詳細を入力します。
  3. アクションに Subscription request を指定します。
  4. 前の手順で作成したメタデータフォーム (Subscribe_form) を追加します。
  5. 次のスクリーンショットのとおりに必須化のスコープとプロジェクトを選択します。
  6. ADD RULE を選択します。

サブスクリプション必須化ルールが作成されました。

アセットのサブスクライブ

アセットをサブスクライブする手順は以下のとおりです。

  1. プロジェクトページでマーケティングアセットに移動します。
  2. SUBSCRIBE を選択します。

サブスクライブフォームが申請に添付され、ユーザーが情報を入力できるようになります。

データコンシューマーがサブスクリプションリクエストを送信すると、データプロデューサーは Use Case などの提供されたメタデータとともにリクエストを受け取ります。プロデューサーはアクセスを許可する前にリクエストを確認できます。

クリーンアップ

追加料金の発生を避けるため、Amazon SageMaker ドメインを削除してください。手順は ドメインの削除 を参照してください。

まとめ

本記事では、メタデータルールの概要と、異なるドメインをまたいでアセットの公開とサブスクリプションに適用する方法を紹介しました。

Amazon SageMaker のメタデータ必須化ルールにより、ドメインユニットオーナーはデータ利用者向けに明確なメタデータ要件を設定でき、カタログの健全性向上とアクセス申請プロセスの効率化を実現できます。組織は自社のメタデータ標準との整合性を保ち、カスタムワークフローを実装し、一貫したガバナンス付きのデータワークフロー体験を提供できます。

本機能は、Amazon SageMaker が現在利用可能な AWS 商用リージョンでサポートされています。メタデータルールを始めるには、以下を参照してください。

著者について

Pradeep Misra

Pradeep Misra

AWS のプリンシパル分析ソリューションアーキテクトです。Amazon 社内の部門を横断して、最新の分散分析プラットフォームや AI/ML プラットフォームソリューションの設計を担当しています。データ、分析、AI/ML を使ってお客様の課題を解決することに情熱を注いでいます。仕事以外では、新しい場所を訪れたり、新しい料理を試したり、家族とボードゲームを楽しんだりしています。また、娘たちと一緒に科学実験をしたり、レゴを組み立てたり、アニメを見たりするのも好きです。

Ramesh H Singh

Ramesh H Singh

ワシントン州シアトルの AWS でシニアプロダクトマネージャーテクニカル (External Services) を務めており、現在は Amazon SageMaker チームに所属しています。最先端の技術でエンタープライズのお客様が重要な目標を達成できるよう、高性能な ML/AI および分析プロダクトの構築に情熱を注いでいます。LinkedIn でつながりましょう。

Sandhya Edupuganti

Sandhya Edupuganti

Amazon DataZone (別名 SageMaker Catalog) を牽引するシニアエンジニアリングリーダーです。シアトルメトロエリアを拠点とし、Amazon で 17 年以上にわたって、Amazon Advertising、Amazon-Retail、Latam-Expansion、AWS Analytics における戦略的な取り組みを主導してきました。


この記事は Kiro が翻訳を担当し、Solutions Architect の Woosuk Choi がレビューしました。