Amazon ECS マネージドインスタンス向け GPU ヘルスモニタリングと自動修復の紹介
Amazon Elastic Container Service (Amazon ECS) では、Amazon ECS マネージドインスタンス向けに、NVIDIA GPU ヘルスモニタリングと自動修復機能が提供されるようになりました。この新機能は、重大な NVIDIA GPU ハードウェア障害を自動的に検出し、障害のあるインスタンスを置き換えるため、コンテナ化された GPU アクセラレーションワークロードの可用性と信頼性を向上させるのに役立ちます。
GenAI 推論などの GPU アクセラレーションワークロードを実行するには、障害を軽減し、中断を最小限に抑えるための専用のハードウェア管理が必要です。Amazon ECS マネージドインスタンスは、NVIDIA Data Center GPU Manager (DCGM) を使用して GPU の正常性を継続的に監視し、重大な障害が発生した場合には、障害のあるキャパシティをプロアクティブに置き換えるようになりました。ユーザーは、DescribeContainerInstances API を使用して GPU の正常性を監視し、インスタンスに障害が発生した場合には Amazon EventBridge を通じて通知を受け取ることができます。インスタンスのライフサイクルを手動で管理したいワークロードでは、キャパシティプロバイダーレベルで自動修復をオプトアウトし、独自の修復ロジックで GPU エラーイベントを処理できます。
GPU ヘルス自動修復は、サポートされている NVIDIA GPU インスタンスタイプ上で実行されているすべての Amazon ECS マネージドインスタンスで、追加料金なしでデフォルトで有効になっています。この機能は、すべての AWS 商用リージョンで利用できます。詳細については、Amazon ECS デベロッパーガイドを参照してください。