Amazon Web Services ブログ

Amazon SageMaker Catalog でのビジネス用語集分類ルールの必須化

本記事は 2025 年 11 月 20 日 に公開された「Enforce business glossary classification rules in Amazon SageMaker Catalog」を翻訳したものです。

組織のデータカタログは急速に拡大しており、各チームで一貫したメタデータ基準を維持することは依然として課題です。ビジネス用語集は、Customer ProfileTransactionConfidential Data といった企業共通の言葉を定義しますが、アセットはこれらの分類が付かないまま公開されることが多く、メタデータの不整合や検出性の低下を招いています。

この課題に対処するため、Amazon SageMaker Catalog で、アセットレベルでの用語集タームの分類 (タグ付け) に対するメタデータ必須化ルールがサポートされました。管理者はアセットに特定のビジネスタームや分類を含めることを必須化でき、データプロデューサーはアセットを公開する前に、指定された用語集タームや分類を付与しなければなりません。カタログ全体でメタデータの一貫性を確保し、効果的なデータ発見とガバナンスに必要なビジネスコンテキストをアセットに持たせることができます。

本機能は、アセット公開時のメタデータフィールド必須化の既存機能を拡張するものです。用語集タームの検証まで対象が広がり、ビジネス言語と技術的なデータアセットの結びつきが強化されます。

本記事では、SageMaker Catalog でビジネス用語集の分類ルールを必須化する方法を紹介します。

メタデータ必須化が重要な理由

よくあるガバナンス上の課題は、エンタープライズカタログに入るアセットに対して、タグ付けと分類が標準化されていないことです。必須化の仕組みがないと、データプロデューサーが必須のビジネスターム (データ機密度レベルやプロダクトドメインなど) を付けずにアセットを公開してしまうおそれがあります。結果として、メタデータの不整合が業務ユーザーを混乱させ、検索やフィルタリング結果の信頼性が低下し、手動クリーンアップや下流でのコンプライアンスリスクを招きます。

SageMaker Catalog は公開時にメタデータを自動で検証し、以下のメリットを提供します。

  • 公開前に、承認されたビジネスタームでアセットが分類される。
  • 内部の用語集と分類基準への準拠を検証でサポート
  • 一貫したタグ付けにより検索精度が高まり、ノイズが減る
  • 不完全または誤ったタグが付いたアセットが利用者に渡らない

メタデータ必須化の仕組み

Amazon SageMaker Unified Studio コンソールで、管理者は CatalogGovernanceRules に移動し、アセット公開ワークフローを対象とするメタデータルールを作成します。ルールでは、必須の用語集タームや分類フィールド (たとえば Business UnitPII CategoryData Sensitivity) を指定できます。ルールは組織全体、または特定のドメインやプロジェクト内に適用できます。

プロデューサーがアセットを公開しようとすると、SageMaker Catalog はアセットに必須の用語集タームや分類が含まれているかをチェックします。必須メタデータが不足している場合、公開アクションは失敗し、明確なエラーメッセージが表示されます。メタデータを追加すると、アセットを正常に公開できます。

タグ付けの必須化により、公開されたアセットは一貫したビジネス用語で検索・フィルタリングでき、アナリストや業務ユーザーにとってカタログの使いやすさが向上します。

ソリューション概要

本記事では、金融サービスのユースケースを取り上げます。例として、ある金融サービス企業が、プロジェクトから公開するすべてのデータセットに Finance 用語集を付けることを必須とするルールを定義します。

  • タグを付けずに新しいデータセットを公開しようとするデータプロデューサーは、検証エラーを受け取る
  • 適切な分類を付与すると、データセットは正常に公開される。
  • アナリストはカタログをフィルタリングして Finance のデータセットのみを見つけたり、同じ用語集タームで一貫してタグ付けされたアセットを結合したりできる

以下のセクションでは、ソリューションの設定手順を順を追って説明します。特定のプロジェクトから公開するすべてのアセットに、Finance という事業部タグを付けることを必須とするルールを作成します。

前提条件

本ソリューションをテストするには、ドメインオーナーまたはドメインユニットオーナー権限で SageMaker Unified Studio ドメインをセットアップしておく必要があります。また、アセットとカタログアセットを公開するための既存のプロジェクトも必要です。作成手順は 開始方法 ガイドを参照してください。

本例では、financial_analysis という名前のプロジェクトとテストテーブルを作成しました。テーブル作成の手順は Amazon SageMaker Unified Studio での Amazon S3 Tables の開始方法 を参照してください。サンプルデータを SageMaker Catalog に取り込み、ビジネスメタデータを生成するには、プロジェクトカタログでの Amazon Redshift 用 Amazon SageMaker Unified Studio データソースの作成 を参照してください。

用語集の作成とタームの追加

新しい用語集を作成してタームを追加する手順は以下のとおりです。

  1. SageMaker Unified Studio の Discover メニューで Glossaries を選択します。

  2. Create glossary を選択します。

  3. 名前、所有プロジェクト、説明 (任意) など、用語集の詳細を入力します。
  4. Glossary restrictionEnabled をオンにします。
  5. Create を選択します。

  6. Business Unit Details 用語集に Finance タームを作成します。

用語集タームを必須化するルールの作成

用語集タームを定義するルールを作成する手順は以下のとおりです。

  1. Govern メニューで Domain units を選択します。

  2. Rules タブで Add を選択します。

  3. カタログに公開するすべてのアセットに Finance タグを付けるため、Finance プロジェクトの公開ルールを追加します。
  4. Add rule を選択します。



    次のスクリーンショットは、新しいルールの設定内容を示しています。

必須化ルールに基づくアセットの公開

必須化ルールに基づいてアセットを公開する手順は以下のとおりです。

  1. financial_analysis プロジェクトページで、アセットに移動します。
  2. Glossary terms セクションで Add terms を選択します。



    必要なタームを追加せずに Publish を選択すると、Finance タームを割り当てる必要があることを伝えるエラーが発生します。

  3. Finance を選択して必須タームを追加します。

  4. Publish asset を選択します。

次のスクリーンショットは、公開されたアセットと用語集で必須となるタームを示しています。

まとめ

用語集タームのメタデータ必須化ルールにより、SageMaker Catalog は組織によるデータアセットの公開と管理に、より強力な統制と一貫性をもたらします。公開前に承認済みのビジネス分類を必須化することで、各チームはアセットを企業のメタデータ標準に沿わせることができ、共有カタログのガバナンス、検出性、信頼性を高められます。手動の負荷を増やさずにカタログガバナンスをスケールでき、コンプライアンスと品質を公開ワークフローに直接組み込めます。

用語集タームのメタデータ必須化ルールは、SageMaker Catalog が利用可能な AWS リージョンで提供されています。本機能の使い方は、ユーザーガイドを参照してください。

著者について

Ramesh Singh

Ramesh Singh

Ramesh は、ワシントン州シアトルの AWS でシニアプロダクトマネージャーテクニカル (External Services) を務めており、現在は Amazon SageMaker チームに所属しています。最先端の技術でエンタープライズのお客様が重要な目標を達成できるよう、高性能な ML/AI および分析プロダクトの構築に情熱を注いでいます。

Pradeep Misra

Pradeep Misra

Pradeep は、Amazon SageMaker Unified Studio を担当する AWS の UX デザイナーです。お客様の声に耳を傾け、課題に焦点を当てて直感的なユーザー体験を作ることに情熱を注いでいます。仕事以外では、ドライブや食の探求、アート、スケッチ、個人プロジェクトに取り組むのが好きです。また、デザインコースの講師としてデザイナー志望者に知見を共有しています。

Pradyut Singh

Pradyut Singh

Pradyut は、AWS のプリンシパルアナリティクス&アプライド AI ソリューションアーキテクトです。データ、分析、AI/ML を使ってお客様の課題を解決することに情熱を注いでいます。仕事以外では、新しい場所を訪れたり、新しい料理を試したり、家族とバドミントンをしたりするのが好きです。また、娘たちと一緒に科学実験をしたり、レゴを組み立てたり、アニメを見たりするのも好きです。

Manny Pelaez

Manny Pelaez

AWS のソフトウェア開発エンジニアで、Amazon SageMaker チームでデータおよび AI サービスを担当しています。仕事以外では旅行が好きで、長距離のロードトリップで多様な料理を味わい、新しい場所を見つけるのを楽しんでいます。


この記事は Kiro が翻訳を担当し、Solutions Architect の Woosuk Choi がレビューしました。