投稿日: Apr 23, 2024

EKS 用のオブザーバビリティが拡張された Amazon CloudWatch Container Insights は、AWS アクセラレータである Trainium や Inferentia、AWS の高パフォーマンスネットワークアダプター (Elastic Fabric Adapter)、また NVIDIA GPU からの重要なヘルスメトリクスを自動的に検出できるようになりました。これらのすぐに使用できるメトリクスは、AWS によって精選された Container Insights ダッシュボードで可視化され、高速なインフラストラクチャのモニタリングや、AI ワークロードの最適化による運用効率の向上に役立てることができます。 

拡張された Container Insights を使用すると、コンピューティングとメモリのメトリクスをノード間のネットワークメトリクスと簡単に関連付けることができるようになります。これにより、レイテンシーの影響を受けやすいトレーニングジョブのモニタリングなど、EKS クラスターで実行されているタスクに対するトラフィックへの影響を把握しやすくなります。また、分散型深層学習と推論アルゴリズムによるリソース消費の効率を簡単にモニタリングできるため、リソースの割り当てを最適化したり、アプリケーションの長期にわたる中断を最小限にしたりできます。さらに、自動の可視化によりコンピューティングオブザーバビリティが高速になるため、手動でダッシュボードを作成したりアラームを設定したりする必要がなくなります。

高速コンピューティングオブザーバビリティは簡単に使い始めることができます。CloudWatch オブザーバビリティアドオンをクラスターにインストールするか、CloudWatch エージェントを手動でインストールしてオブザーバビリティを拡張することで、拡張された Container Insights を導入できます。設定が完了すると、Container Insights コンソールに移動して、すぐに高速コンピューティングテレメトリを表示できます。

高速コンピューティングオブザーバビリティは、AWS GovCloud (米国) および中国リージョンを含むすべての商用 AWS リージョンで、EKS 用の拡張された Container Insights で利用できるようになりました。高速コンピューティングのメトリクスは、測定されたメトリクスの数に基づいて請求されます。詳細については、Container Insights の料金表ページをご覧ください。その他の詳細については Container Insights ユーザーガイドをご覧ください。