投稿日: Mar 11, 2024

EKS 用のオブザーバビリティが拡張された Amazon CloudWatch Container Insights では、NVIDIA GPU から重要なヘルスメトリクスとパフォーマンスメトリクスを自動検出して自動ダッシュボードに表示し、AI/ML ワークロードの問題の切り分けとトラブルシューティングを迅速に行えるようになりました。オブザーバビリティが拡張された Container Insights を使用すると、インフラストラクチャの状態に関するすぐに使える傾向やパターンを入手でき、ダッシュボードやアラームを手動で設定する手間が省け、時間と労力を節約できます。

Container Insights で拡張されたオブザーバビリティを使用することで、高速インスタンスの GPU とメモリが正常かどうかを簡単に把握し、トレーニングジョブのパフォーマンスを維持できるようになりました。エラーを簡単に特定し、すばやく掘り下げて根本原因を特定すると同時に、トレーニングジョブへの長期にわたる中断を最小限に抑えることができます。拡張された Container Insights は、精選されたビジュアライゼーションで高速コンピューティングオブザーバビリティを実現し、分散型トレーニングモデルによるリソースの消費効率を簡単に監視し、それに応じて割り当てを最適化できるようにします。

高速コンピューティングオブザーバビリティを使い始めるのは簡単です。CloudWatch の Observability アドオンをクラスターにインストールするか、CloudWatch Agent を手動でインストールして拡張オブザーバビリティを有効にすることで、拡張された Container Insights を導入できます。設定が完了すると、Container Insights コンソールに移動して、すぐに NVIDIA GPU テレメトリを表示できます。

NVIDIA GPU メトリクスは現在、AWS GovCloud (米国) および中国リージョンを含むすべてのパブリック AWS リージョン内の EKS 用のオブザーバビリティが拡張された Container Insights でご利用いただけます。NVIDIA GPU メトリクスは観測ベースの料金に従います。詳細については、Container Insights の料金表ページをご覧ください。その他の詳細については Container Insights ユーザーガイドをご覧ください。

04/22 - 投稿が更新され、手動で利用を開始するエクスペリエンスの説明が掲載されました。