投稿日: May 28, 2021
Amazon SageMaker Autopilot は、完全な制御と可視性を維持しながら、データに基づいて最適な機械学習モデルを自動的にトレーニングおよび調整します。本日より、Autopilot は 50,000 行以下の入力データセットに対して、回帰、バイナリ分類、マルチクラス分類のすべての問題タイプでクロスバリデーションを行います。クロスバリデーションでは、トレーニングデータとバリデーションデータの間の望ましくない分裂に対するロバスト性が高まり、モデルの品質が向上します。データセットや問題の種類によるものの、モデルの品質が最大で 35% 向上する可能性があります。
Autopilot は、入力データをトレーニングセットと検証セットに自動的に分割します。今回のリリースでは、Autopilot は k分割クロスバリデーション法も使用し、最も優れた検証メトリクスを持つトライアルのクロスバリデーションモデルのアンサンブルで推論を行います。Autopilot は、各トレーニングフォールドとバリデーションフォールドが各クラスを均等に表現することで、精度を高め、利用可能なデータで最適なモデルを構築します。各モデルの最終的な検証メトリクスは、モデルのデプロイを選択する前に、Autopilot 実験の出力で確認することができます。さらに、各フォールドのトレーニングと検証メトリクスを含む詳細なクロスバリデーションの更新情報は、Amazon CloudWatch で公開されています。
自動クロスバリデーションは、現在 SageMaker Autopilot がサポートされているすべての AWS リージョンで利用可能です。まずは、ドキュメントをご覧いただくか、Amazon SageMaker Studio にアクセスして、新しい Autopilot 実験を作成してください。