Amazon SageMaker AI と MLflow を使用して生成 AI 開発を加速する

MLflow 3.0 を使用して、機械学習と生成 AI のライフサイクルを大規模かつ効率的に管理する

Amazon SageMaker と MLFlow を併用する理由

Amazon SageMaker には、機械学習 (ML) と生成 AI を実験するためのマネージド MLflow 機能が用意されています。この機能により、データサイエンティストは SageMaker の MLflow をモデルのトレーニング、登録、およびデプロイに簡単に利用できます。管理者は、安全でスケーラブルな MLflow 環境を AWS にすばやくセットアップできます。データサイエンティストと機械学習デベロッパーは、機械学習の実験を効率的に追跡し、ビジネス上の問題に適したモデルを見つけることができます。

Amazon SageMaker AI と MLflow 3.0 を併用するメリット

データサイエンティストは、MLflow を使用して、基盤モデルの微調整中に生成されたすべてのメトリクスを追跡し、モデルを評価し、サンプルデータでモデルをテストし、MLflow UI で各モデルの出力を並べて比較し、それぞれのユースケースに適したモデルを登録できます。モデルを登録すると、ML エンジニアはそのモデルを SageMaker 推論にデプロイできます。
MLflow のホストに必要なインフラストラクチャを管理する必要はありません。データサイエンティストは、管理者がインフラストラクチャのオーバーヘッドを気にすることなく、MLflow のオープンソース機能をすべて使用できます。これにより、データサイエンス環境を設定する際の時間とコストを節約できます。MLflow は Amazon Identity and Access Management (IAM) と統合されているため、MLflow 追跡サーバー用のロールベースのアクセスコントロール (RBAC) を設定できます。
MLflow に登録されたモデルは、関連する Amazon SageMaker Model Card を使って Amazon SageMaker Model Registry に自動的に登録されます。これにより、データサイエンティストは、コンテキストを切り替えることなく、モデルを ML エンジニアに移して本番環境にデプロイできます。ML エンジニアは、カスタムコンテナを構築したり MLflow モデルアーティファクトを再パッケージ化したりすることなく、MLflow から SageMaker エンドポイントにモデルをデプロイできます。
MLflow プロジェクトが発展するにつれて、SageMaker AI のお客様は、AWS が提供するインフラストラクチャ管理を享受しながら、MLFlow コミュニティによるオープンソースのイノベーションの恩恵を受けることができます。
フルマネージド型 MLflow 3.0 のトレース機能により、お客様は生成 AI 開発のあらゆる段階で入力、出力、メタデータを記録できるため、チームはバグや予期しない動作の原因をすばやく特定できます。フルマネージド MLflow 3.0 は、各モデルとアプリケーションバージョンの記録を維持することで、AI の応答をソースコンポーネントに結び付けるトレーサビリティを提供し、開発者は問題を生成した特定のコード、データ、パラメータまで問題を直接すばやく追跡できます。

どこからでも実験を追跡する

ML テストは、Amazon SageMaker Studio のローカルノートブック、IDE、クラウドベースのトレーニングコード、マネージド IDE など、さまざまな環境で実行されます。SageMaker AI と MLflow を使用すると、希望の環境を使用してモデルをトレーニングしたり、MLflow で実験を追跡したり、MLFlow UI を直接または SageMaker Studio を通じて起動して分析したりできます。

ログ実験

MLflow 3.0 で生成 AI 開発を加速

基盤モデル構築は反復的なプロセスです。何百ものトレーニングイテレーションにより、最適なモデル精度を実現する最適なアルゴリズム、アーキテクチャ、パラメータを見つける必要があります。フルマネージド MLflow 3.0 では、生成 AI 実験を追跡し、モデルパフォーマンスを評価し、実験から本番までのモデルや AI アプリケーションの動作についてより深いインサイトを得ることができます。単一のインターフェースで、トレーニングジョブの進捗状況を視覚化し、実験中に同僚と共同作業を行い、各モデルとアプリケーションのバージョン管理を行うことができます。MLflow 3.0 は、生成 AI 開発のあらゆる段階で入力、出力、メタデータを記録する高度なトレース機能を提供することから、バグや予期しない動作の原因をすばやく特定できます。

MLflow で生成 AI 開発を加速

ML 実験のメタデータを一元的に管理する

実験を評価する

複数のイテレーションから最適なモデルを特定するには、モデルのパフォーマンスを分析および比較する必要があります。MLflow には、散布図、棒グラフ、ヒストグラムなどの視覚化機能があり、トレーニングのイテレーションを比較できます。さらに、MLflow ではモデルの偏りや公平性を評価できます。

ML 実験を評価する

MLflow モデルを一元管理

多くの場合、複数のチームが MLflow を使用して実験を管理しますが、本番環境の候補となるのは一部のモデルだけです。組織は、すべての候補モデルを簡単に追跡し、どのモデルを本番環境に進ませるかについて情報に基づいた決定を下すための方法を必要としています。MLflow は SageMaker Model Registry とシームレスに統合されるため、組織は MLFlow に登録されているモデルが SageMaker Model Registry に自動的に表示され、ガバナンス用の SageMaker Model Card で補完されていることを確認できます。この統合により、データサイエンティストと ML エンジニアは、実験のための MLflow と、包括的なモデルリネージにより本番ライフサイクルを管理するための SageMaker Model Registry という個別のツールをそれぞれのタスクに使用できるようになります。

最新情報と結果を共有する

MLflow モデルを SageMaker エンドポイントにデプロイする

MLflow から SageMaker エンドポイントへのモデルのデプロイはシームレスに行えるため、モデルストレージ用のカスタムコンテナを構築する必要がありません。この統合により、お客様は SageMaker の最適化された推論コンテナを活用しながら、モデルのログ記録と登録に MLflow のユーザーフレンドリーなエクスペリエンスを維持できます。

ML 実験を再現および監査する