Amazon SageMaker HyperPod が EFA のみのネットワークインターフェイスをサポートするようになりました
Amazon SageMaker HyperPod は、クラスターインスタンスグループ向けに、EFA のみのネットワークインターフェイスをサポートするようになりました。これにより、IP ネットワーク用の従来の Elastic Network Adapter (ENA) を使用せずに、専用の Elastic Fabric Adapter (EFA) デバイスを設定できるようになりました。SageMaker HyperPod は、AI/ML モデル開発専用のインフラストラクチャであり、組み込みの耐障害性とクラスターの自動復旧を備えた回復力のある高性能環境を提供します。EFA のみのサポートを利用することで、VPC の IP アドレスが枯渇するリスクを回避しながら AI/ML クラスターをさらに拡張できます。
大規模な分散トレーニングワークロードを実行する場合、ノード間の通信帯域幅はトレーニングのパフォーマンスにとって重要です。SageMaker HyperPod クラスターインスタンスは複数の EFA 対応ネットワークインターフェイスをサポートしますが、これらを標準の EFA インターフェイスタイプで構成すると、EFA デバイスと ENA デバイス (IP ネットワーク用) の両方が各インターフェイスに接続されます。ノード内の一部のインターフェイスのみが IP ネットワークを必要とする場合でも同様です。EFA インターフェイスタイプでは、接続された ENA デバイスごとにサブネット内の IP アドレスが必然的に消費され、IP アドレスの枯渇につながる可能性があります。それにより、1 つのサブネット内にデプロイできるノードの数が制限されることがあります。本リリースにより、HyperPod クラスターインスタンスグループのネットワークインターフェイスを構成する際に「efa-only」を設定できるようになりました。このオプションを選択すると、ENA デバイスを接続せずに EFA トラフィック専用のネットワークインターフェイスを割り当てることができ、低遅延、高スループットのノード間通信用 EFA インターフェイスの数を最大化できます。EFA のみのインターフェイスは IP アドレスを必要としないため、IP アドレスの枯渇に直面することなく、同一サブネット内でより大規模なクラスターへの拡張が可能になります。この構成は、ノード間の通信帯域幅が重要でありながら、すべてのインターフェイスに専用の IP ネットワークが必要でない大規模な分散トレーニングジョブに特に役立ちます。
EFA のみを選択するには、CreateCluster/UpdateCluster API を使用して HyperPod クラスターを作成または更新するときに、ClusterNetworkInterface の設定で「efa-only」を指定します。EFA のみのオプションは、Amazon SageMaker HyperPod がサポートされているすべての AWS リージョンで利用できます。詳細については、Amazon SageMaker API リファレンスの「ClusterNetworkInterface」を参照してください。