投稿日: Dec 1, 2021
Amazon SageMakerでは、 機械学習(ML)のリネージトラッキング機能が強化され、MLのワークフローにおけるデータ、特徴、モデルなどのアーティファクトのリネージを追跡し、照会することができるようになりました。これによりお客様は、データ準備からモデルデプロイまでのワークフロー全体を網羅したエンドツーエンドのリネージグラフを1つのクエリで取得することができます。この特徴により、ワークフローのステップごとにリネージ情報を取得し、それらを手作業でつなぎ合わせるような、未分化な作業が不要になります。また、あるステップをフォーカルポイントとして定義し、そのフォーカルポイントの上流または下流にあるステップのリネージを照会することで、ワークフローのセグメントのリネージ情報を取得することができます。例えば、お客様はモデルを中心的なエンティティとして定義し、そのモデルをトレーニングするために特徴が抽出されたraw データセットの場所を検索することができます。
また、新しい特徴としては、複数のAWSアカウントにまたがるワークフローステップのリネージ情報を追跡できるようになりました。組織のすべてのリソースを整理するために、さまざまなペルソナ(データサイエンティスト、MLエンジニアなど)に複数のアカウントを作成することは、DevOpsの一般的なプラクティスです。この機能を有効にするには、 AWS RAMを使用して、AWSアカウント間でリネージリソースを共有する必要があります。AWS RAMは、オペレーションのオーバーヘッドを削減し、共有リソースの可視化を実現します。一度設定すれば、お客様はリネージクエリーAPIを使用して、複数のAWSアカウントにまたがる様々なアーティファクトの関係を追跡することができます。
機械学習のリネージ情報は、モデルガバナンスの向上、アーティファクトの旧バージョンの再現、ワークフローのトラブルシューティングの効率化などに活用できます。まず、SageMaker StudioまたはSDKを使用して新しいMLモデルをトレーニングし、リネージクエリAPIを使用してリネージ情報を追跡します。詳細については、クロスアカウントグラフに基づくリネージ追跡 と リネージクエリAPIとのドキュメントページをご覧ください。