投稿日: Aug 24, 2023

大規模な深層学習ワークロード向けの高度なオブザーバビリティツールである Amazon SageMaker Profiler のプレビューを発表できることを嬉しく思います。この新機能により、モデルトレーニングのパフォーマンスを最適化するための、コンピューティングハードウェアに関連する緻密なプロファイリングインサイトにアクセスできるようになります。

コンピュータビジョン、NLP、または基盤モデルのユースケース向けに大規模な深層学習モデルを開発しているお客様にとって、必要なコンピューティングインスタンスの数とそれに関連するコストは膨大です。アクティブなカーネル時間、起動待ち時間、または GPU/CPU プロセスに関連するその他のタイムラインを可視化する必要があります。SageMaker Profiler を使用すると、GPU と CPU 使用率メトリクス、高解像度の GPU/CPU トレースプロット、カスタムアノテーション、および混合精度の使用状況の可視化を通じて、最適化の機会を特定できます。これにより、ユーザーは、リソースの使用率が不均一であることによるボトルネックを特定できます。また、トレーニング中のオーバーヘッドを減らすという点でも効率的であり、プロファイリング期間が長くなり、ワークロードごとにプロファイリングされるトレーニングインスタンスの数が増えてもサポートするという点でスケーラブルです。これにより、大規模な分散型トレーニングワークロードのハードウェアパフォーマンスを最適化しようとする際に、データサイエンティストがより信頼できるインサイトを得ることができます。

Amazon SageMaker Profiler は、デフォルトのコンピューティングインスタンスサポートを使用して、米国東部 (オハイオ)、米国東部 (バージニア北部)、米国西部 (オレゴン)、欧州 (フランクフルト)、欧州 (アイルランド) の各リージョンで利用できます。このプレビュー期間中、SageMaker Profiler はサポート対象リージョンのお客様に無料でご利用いただけます。 

詳細については、ML ブログとドキュメントページをご覧ください。