投稿日: Mar 26, 2021
Amazon Elastic Kubernetes Service (EKS) は Elastic Fabric Adapter (EFA) のサポートの提供を開始しました。これにより、アプリケーションが、EKS 管理下の Kubernetes クラスターによって提供されるスケーラビリティおよび柔軟性、伸縮性を備えたオンプレミスの機械学習トレーニングクラスターのパフォーマンスを達成することが可能となります。
強力な GPU インスタンスを使用して、多数のノードへのクラスターのスケールを簡単に行うことができるため、Kubernetes は分散型機械学習アプリケーションの主要なプラットフォームとなりました。大規模環境では、ネットワーク帯域幅が分散型ワークロードの障害となる可能性があります。Elastic Fabric Adapter (EFA) は Amazon EC2 インスタンス用のネットワークインターフェイスで、これを使用すると、AWS 上で高いレベルのノード間通信を必要とするアプリケーションを実行できます。新しくリリースされた EFA デバイスのプラグインを活用して、Kubernetes 上の分散型トレーニングアプリケーションに EFA を簡単に統合できるようになりました。このプラグインを使用すると、EFA デバイスの発見およびそれらをリクエストしたポットへのマウントを自動化できます。これにより、ML トレーニングジョブが水平方向に拡大するにつれて帯域幅を追加し、モデルサイズの増加に常に対応することが可能になります。モデルのトレーニング時間をさらに改善するために複数の EFA デバイスを備えた P4d など、最新の EC2 GPU ベースのインスタンスタイプを最大限に活用できるようになりました。