Amazon ECS マネージドインスタンスが NVIDIA GPU メトリクスのサポートを開始
Amazon Elastic Container Service (Amazon ECS) では、Amazon ECS マネージドインスタンスで実行されるコンテナ化されたワークロードの NVIDIA GPU メトリクスを提供するようになりました。これらのメトリクスは、強化されたオブザーバビリティを備えた Amazon CloudWatch Container Insights で利用できます。GPU の状態とパフォーマンスを可視化でき、Amazon ECS の GPU アクセラレーションワークロードのトラブルシューティングと最適化に役立てることができます。
新しい GPU メトリクスにより、Amazon ECS マネージドインスタンスを利用しているお客様は、GPU の容量、使用率、メモリ、ハードウェアの状態、温度状態を CloudWatch で直接モニタリングできるようになりました。強化されたオブザーバビリティを備えた Container Insights を使用すると、GPU デバイスレベルを含む、これらのメトリクスをきめ細かく可視化できます。これらのメトリクスを使って、Amazon ECS マネージドインスタンスフリート全体の GPU の運用状態とハードウェアの状態を可視化できるため、GPU 容量の適切なサイズ設定や、パフォーマンス問題のトラブルシューティングを行えます。また、AI/機械学習のトレーニングや推論といった GPU アクセラレーションワークロードに影響が及ぶ前に問題を検出できるようになります。
Amazon ECS マネージドインスタンスの NVIDIA GPU メトリクスは、すべての商用 AWS リージョンの Container Insight で利用できます。使用を開始するには、Amazon ECS クラスターで、強化されたオブザーバビリティを備えた Container Insights を有効にし、Amazon ECS マネージドインスタンスのキャパシティプロバイダーを使って GPU アクセラレーション Amazon EC2 インスタンスタイプを起動します。Container Insights の料金については、Amazon CloudWatch の料金をご覧ください。詳細については、強化されたオブザーバビリティメトリクスを備えた Amazon ECS Container Insights のユーザーガイドをご覧ください。