Amazon Web Services ブログ

Amazon SageMaker データと AI ガバナンスを使用してデータと AI を安全に発見、管理し、共同作業を実現

12 月 3 日、データ、分析、AI の統合プラットフォームである次世代の Amazon SageMaker を発表しました。Amazon SageMaker には、広く採用されている AWS の機械学習と分析機能が統合されています。この発表には、データと AI アセットの管理を合理化する一連の機能である Amazon SageMaker Data and AI Governance が含まれています。

データチームは、組織全体でデータや AI モデルを見つけ、アクセスし、共同作業を行う際に、しばしば課題に直面します。関連アセットを発見し、その背景を理解して、適切なアクセスを取得するプロセスは複雑で時間がかかり、生産性とイノベーションを妨げる可能性があります。

SageMaker Data and AI Governance は、データと AI アセットのカタログ化、発見、管理を一元的に行うことで、包括的な機能セットを提供します。Amazon DataZone 上に構築された SageMaker Catalog を中心としており、Amazon SageMaker Unified Studio (プレビュー) からアクセスできる一元化されたリポジトリを提供しています。カタログは SageMaker プラットフォームに直接組み込まれ、既存の SageMaker ワークフローやツールとシームレスに統合できるため、エンジニア、データサイエンティスト、アナリストは、高度な検索機能を通じて承認されたデータやモデルを安全に見つけて使用できます。SageMaker プラットフォームを使用すると、ユーザーはガードレールを使用して AI モデルを保護し、責任ある AI ポリシーを実装できます。

SageMaker の主なデータおよび AI ガバナンス機能は次のとおりです。

  1. エンタープライズ対応ビジネスカタログ – ビジネスコンテキストを追加し、組織内の全員がデータと AI アセットを検出できるようにするために、自動メタデータ生成を使用してカタログをカスタマイズできます。自動メタデータ生成では、機械学習 (ML) を使用して、データアセットと、それらのアセット内の列のビジネス名を自動的に生成します。メタデータのキュレーション機能が改善され、複数のビジネス用語集の用語をアセットにアタッチしたり、用語集の用語をアセット内の個別の列にアタッチしたりできるようになりました。
  2. データおよび AI ワーカー向けのセルフサービス – データの自律性を提供して、ユーザーがデータを公開および利用できるようにするために、API を使用してあらゆるタイプのアセットをカスタマイズし、カタログに取り込むことができます。データパブリッシャーは、サポートされているデータソースからデータソースを実行したり、手動でファイルを公開したりすることで、メタデータの検出を自動化できます。また、データセットがカタログに取り込まれると、生成 AI が生成するデータ記述を使用してメタデータを自動的に充実させることができます。その後、データ利用者はファセット検索を使用して、データをすばやく見つけて理解し、アクセスを要求できます。
  3. データとツールへのアクセスの簡素化 – ビジネス目的に基づいてデータと AI アセットを管理するために、プロジェクトはビジネスユースケースベースの論理コンテナとして機能します。プロジェクトを作成し、特定のビジネスユースケースに基づいてユーザー、データ、分析ツールをグループ化して共同作業できます。プロジェクト内では、分析および AI ツールやストレージなどの必要なインフラストラクチャをプロジェクトメンバーに提供する環境を作成して、プロジェクトメンバーが新しいデータを簡単に生成したり、アクセス権のあるデータを利用したりできるようにすることができます。これは、ニーズに応じて複数の機能や分析ツールを同じプロジェクトに追加することを支援します。
  4. 統制されたデータとモデル共有 – データプロデューサーは、コンシューマーがアクセスをリクエストし、データ所有者が承認することを可能にするサブスクリプション承認ワークフローを使用して、データへのアクセスを所有および管理します。公開時にアセットにアタッチされるサブスクリプション条件を設定したり、AWS マネージドのデータレイクと Amazon Redshift のサブスクリプション付与のフルフィルメントを自動化したりできるようになりました (他のソースのために Amazon EventBridge イベントを利用してカスタマイズすることもできます)。
  5. すべてのアプリケーションでの一貫したレベルの AI 安全性の実現 – Amazon Bedrock Guardrails は、ユースケース固有のポリシーに基づいてユーザー入力と基盤モデル (FM) の応答を評価するのに役立ち、基盤となる基盤モデルに関係なく追加の保護手段を提供します。AWS AI ポートフォリオには、TensorFlow Hub、PyTorch Hub、Hugging Face、MxNet GluonCV などのモデルハブからの事前トレーニング済みのモデルを含む、何百もの組み込みアルゴリズムが用意されています。SageMaker Python SDK を使用して組み込みアルゴリズムにアクセスすることもできます。組み込みアルゴリズムは、データ分類 (画像、テキスト、表) や感情分析などの一般的な ML タスクに対応します。

既存のプロセスとのシームレスな統合のため、SageMaker Data and AI Governance は API サポートを提供し、プログラムによるアクセスによるセットアップと構成を可能にします。

Amazon SageMaker Data and AI Governance の使用方法
このデモンストレーションでは、事前設定済みの環境を使用します。Amazon SageMaker Unified Studio (プレビュー) コンソールに移動します。このコンソールでは、すべてのデータと AI ユースケースの統合開発エクスペリエンスが提供されます。ここで、共有ワークスペースとして機能するプロジェクトを作成および管理できます。これらのプロジェクトにより、チームメンバーは共同でデータを操作し、ML モデルを開発できるようになります。

まず、ナビゲーションバーの [管理] メニューから始めましょう。

ドメインユニットおよび認可ポリシーと呼ばれる新しいデータガバナンス機能により、ビジネスユニットレベルおよびチームレベルの組織を作成し、ビジネスニーズに合わせてポリシーを管理できます。ドメインユニットを追加すると、ビジネスユニットまたはチームに関連するデータアセットやプロジェクトを整理、作成、検索、検索できます。認可ポリシーを使用すると、プロジェクトと用語集を作成するためのアクセスポリシーを設定できます。

ドメインユニットは、データアセットの公開や Amazon SageMaker 内のコンピューティングリソースの利用などの重要なアクションに対するセルフサービスガバナンスにも役立ちます。プロジェクトを選択し、左側のナビゲーションペインの [データソース] タブに移動します。このセクションを使用して、データアセットをビジネスデータカタログに公開するための新しいデータソースを追加したり、既存のデータソースを管理したりして、すべてのユーザーが検索できるようにすることができます。

トップページに戻り、[データカタログ] を選択することで引き続き確認を続けます。データカタログは、ユーザーが組織内の複数のデータソースから利用可能なすべてのデータアセットを検索および検索できる一元化されたハブとして機能します。このカタログは、Amazon Simple Storage Service (Amazon S3)Amazon RedshiftAWS Glue など、さまざまなデータソースに接続します。

セマンティック検索機能を使用すると、自然言語クエリを使用して関連するデータアセットを迅速かつ効率的に見つけることができるため、データ発見がより直感的になります。検索データ領域に領域にイベントを入力します。

AWS Glue テーブルや Amazon Redshift などのアセットタイプに基づいてフィルターを適用できます。

Amazon Q Developer 統合により、会話型言語を使用してデータを操作できるため、ユーザーはデータアセットを簡単に見つけて理解できるようになります。「イベントに関連するデータセットを表示」や「収益に関連するデータセットを表示」などのサンプルコマンドを使用できます。 詳細ビューには、AI が生成した説明、データ品質指標、データリネージなど、各データセットに関する包括的な情報が表示され、データの内容と出所を理解するのに役立ちます。

サブスクリプションプロセスには制御されたアクセスメカニズムが実装されており、ユーザーはデータアクセスの必要性を正当化して、適切なデータガバナンスとセキュリティを確保する必要があります。[サブスクライブ] を選択してアクセスをリクエストします。

ポップアップウィンドウで、プロジェクトを選択し、「アクセスが必要」などのリクエストの理由を入力して、[リクエスト] を選択します。リクエストはデータ所有者に送信されます。

この最後のステップでは、構造化された承認ワークフローを通じてデータアクセスが適切に管理され、データセキュリティとコンプライアンス要件が維持されます。所有者の承認プロセス中、データ所有者は通知を受け取り、アクセスの承認または拒否を選択する前にリクエストの詳細を確認できます。その後承認されると、リクエスト者はデータテーブルにアクセスできるようになります。

今すぐご利用いただけます
Amazon SageMaker Data and AI Governance は、データと AI アセット管理の改善を検討している組織に大きなメリットをもたらします。このソリューションは、構造化された承認ワークフローを通じてセキュリティとコンプライアンスを提供すると同時に、データと AI アセットのカタログ化、発見、管理のための包括的な機能を提供することで、データサイエンティスト、エンジニア、アナリストがリソースの発見とアクセスにおける課題を克服するのに役立ちます。

料金の情報については、Amazon SageMaker の料金をご覧ください。

Amazon SageMaker データと AI ガバナンスの使用を開始するには、Amazon SageMaker ドキュメントをご覧ください。

– Esra

原文はこちらです。