投稿日: Nov 2, 2022
ハイパーパラメータのトレーニングを使用する Amazon SageMaker Autopilot の実験では、100 MB 以上のデータセットで 100 回以上のトライアルを行う場合、機械学習モデルの生成が最大で 2 倍高速化されます。Amazon SageMaker Autopilot はデータに基づいて最適な機械学習モデルを自動的に構築、トレーニング、チューニングし、ユーザーは完全な制御と可視性を維持できます。
SageMaker Autopilot は 2 つのトレーニングモード、ハイパーパラメータの最適化 (HPO) と Ensemble を提供します。HPO モードでは、SageMaker Autopilot がデータセットに最も関連性が高いアルゴリズムを選択し、ベイズ最適化を使用してモデルをチューニングするためのハイパーパラメータの最適な範囲を選択します。しかし、大規模なデータセット (100 MB 以上) の場合、ベイズ最適化による調整時間が長くなる可能性があります。本日より、SageMaker Autopilot は 100 回以上のトライアルを行う 100 MB 以上のデータセットで、最先端のハイパーバンドチューニングアルゴリズムを採用した新しいマルチフィデリティのハイパーパラメータの最適化 (HPO) 戦略を使用し、100 MB 未満のデータセットには引き続きベイズ最適化戦略を活用します。マルチフィデリティの最適化戦略を使用すると、選択した目標メトリクスに対してパフォーマンスの低いトライアルを早期に停止することで、パフォーマンスの高いトライアルのためにリソースが解放されます。これにより、大規模なデータセットの HPO トレーニングモードでの SageMaker Autopilot 実験のチューニング時間が短縮されます。
今回のリリースにより、モデルのトレーニングおよびチューニング時間は以前より最大 2 倍速くなり、最もパフォーマンスの高い機械学習モデルをより早く提供できるようになりました。AWS では、パフォーマンスの向上を評価するため、サイズが 100 MB ~ 10 GB の範囲で異なる複数の OpenML ベンチマークデータセットを使用しました。結果では、中程度の大きさのデータセット (100 MB ~ 1 GB) では 41% (平均 345 分から 203 分へ)、非常に大きなデータセット (1 GB 以上) では 48% (平均 2010 分から 1053 分へ) のランタイムの改善をそれぞれ達成しました。今回の機能強化により、既存のジョブ設定に変更を加えることなく、SageMaker Autopilot の実験をより高速で実行できるようになりました。