Amazon EKS がクラスターあたり最大 10 万のワーカーノードをサポート可能に

投稿日: 2025年7月15日

Amazon EKS は本日、1 つのクラスター内で最大 10 万個のワーカーノードをサポート可能になったことを発表しました。これにより、1 つのクラスターで超大規模な AI/機械学習トレーニングと推論ワークロードを実行できます。Amazon EC2 の新世代高速コンピューティングインスタンスタイプでは、10 万個のワーカーノードが単一クラスターにおいて、Trn2 インスタンスの場合は最大 160 万個の Trainium チップをサポートし、P5 および P6 インスタンスの場合は 80 万個の NVIDIA GPU をサポートします。これにより、すべてのコンピューティングアクセラレータを単一のクラスター内で使用する必要のある超大規模な AI/機械学習ワークロードを実行できます。こうしたワークロードは複数のクラスターに簡単に分散できません。

何兆ものパラメータを持つ最先端の AI モデルは、コンテキストの理解、推論、複雑なタスクの解決において大幅に向上した能力を発揮します。こうしたますます強力になっていくモデルを構築して運用するには、単一のクラスター内で膨大な数のコンピューティングアクセラレータを使用する必要があります。そのような膨大な数のコンピューティングアクセラレータを一元的に利用できることによって、これまで以上に強力な AI モデルを構築して展開し、トレーニングワークロードと推論ワークロード間でコンピューティングアクセラレータを効率的に共有することでコストを削減し、複数のクラスターをまたいで機能するようには設計されていない既存の AI/機械学習ツールとフレームワークをシームレスに使用できるようになるという大きなメリットが得られます。

詳細については、こちらのローンチに関するブログ記事を参照してください。