投稿日: Dec 8, 2020
効率を高めるためにシステムリソースをリアルタイムで監視する、Amazon SageMaker Debugger の新機能について発表いたします。これらの新機能により、トレーニングジョブにリソースを再割り当てするための自動推奨を取得できるようになり、トレーニングの改善や時間とコストの削減を図ることができます。
Amazon SageMaker Debugger は、Amazon SageMaker の機能です。学習勾配や重みなどのリアルタイムメトリックをキャプチャすると同時に、トレーニングプロセスに透明性を加えることで、損失、過剰適合、過剰トレーニングなどの異常を修正して、ML モデルのトレーニングをより高速に行うことができます。SageMaker Debugger は、ルールと呼ばれる組み込み手法を提供し、90% 以上の精度でトレーニングしたにもかかわらず、ML モデルが右の信号を左として予測する理由を特定するなど、トレーニングジョブの成功に不可欠なテンソルを含む放出データを簡単に分析します。
新しいプロファイリング機能により、SageMaker Debugger は、CPU、GPU、ネットワーク、I/O、メモリなどのシステムリソースを自動的に監視し、トレーニングジョブの完全なリソース使用率ビューを提供します。トレーニングジョブ全体またはその一部をプロファイリングして、トレーニングジョブのあらゆる段階で詳細なフレームワークメトリックを出力することもできます。フレームワークメトリクスは、CPU と GPU でのステップ期間、データの読み込み、前処理、オペレーターの実行時間など、トレーニングスクリプト内から取得されるメトリクスです。SageMaker Debugger は、システムとフレームワークのメトリクスを相互に関連付けて、GPU 使用率がゼロに低下するなどの問題において根本原因を特定し、トレーニングスクリプトを調べて適切にトラブルシューティングできるようにします。プロファイリングレポートの推奨事項に基づいてリソースを再割り当てできるため、トレーニング時間が短縮され、コストが削減されます。メトリクスと洞察は、SageMaker Python SDK を使用して、プログラムで、または Amazon SageMaker Studio を介して視覚的にキャプチャおよび監視されます。