投稿日: Nov 29, 2023
本日、Amazon SageMaker の新しいスマートふるい分け機能のプレビュー版を発表できることをうれしく思います。この機能は、トレーニングデータをその場で自動的に検査、評価して、最も有益なデータサンプルのみから選択的に学習することで、モデルトレーニングの時間とコストを最大で 35% 削減します。既存のデータパイプラインやトレーニングスクリプトを変更することなく、スマートなデータのふるい分けを数分で開始できます。
スマートなふるい分けでは、トレーニング中のライブモデルを使用して、入力されるデータサンプルを分析します。そして、モデルの学習プロセスを改善しない低損失のサンプルを自動的に破棄します。スマートなふるい分けは、最も有益なデータサンプルのみを選択的に使用することで、深層学習モデルのトレーニングにかかる時間とコストを削減します。SageMaker の高速化された GPU インスタンスで PyTorch を使用して深層学習モデルをトレーニングするお客様は、トレーニング時間を最大で 35% 短縮できます。除外されるサンプルの損失は比較的小さいため、トレーニング済みモデルの精度への影響は最小限であるか、まったくありません。スマートなふるい分けを使い始めるには、関連するドキュメントをご覧ください。