投稿日: May 10, 2021
Amazon SageMaker は、機械学習モデルのトレーニング用に Elastic Fabric Adapter (EFA) のサポートを開始しました。EFA は、AWS 上で大規模なノード間通信を高いレベルで必要とするようなアプリケーションの実行を可能にする、Amazon EC2 インスタンスのためのネットワークインターフェイスです。EFA は、追加費用なしで SageMaker の分散トレーニングを大幅に高速化できます。例えば、32 ml.p4d.24xlarge インスタンスで SageMaker の分散データ並列ライブラリを使用して BERT 自然言語処理モデルをトレーニングしました。トレーニングは、Elastic Network Adapter (ENA) と比較して EFA で最大 130% 高速に行われました。
分散トレーニングにより、デベロッパーとデータサイエンティストはモデルをより速くトレーニングし、モデルの質を向上させることができます。お客様がSageMaker 分散トレーニングライブラリを使用するのは、このライブラリが大規模な深層学習モデルとデータセットをトレーニングするための高速で簡単な方法を提供するためです。EFA 独自のオペレーティングシステムバイパスネットワーキングメカニズムは、インスタンス間通信のパフォーマンスを向上させ、SageMaker での分散トレーニングをさらに高速化します。
SageMaker で EFA を使用するために追加費用をお支払いいただく必要はありません。SageMaker の EFA は現在、ml.p3dn.24xlarge、ml.p4d.24xlarge、および ml.c5n.18xlarge インスタンスでサポートされています。TensorFlow および PyTorch Deep Learning Containers を使用する SageMaker 分散トレーニングジョブは、お客様側でのアクションを必要とすることなく、自動的に EFA を利用します。EFA は、最小限の設定変更で VPC またはカスタム Docker イメージを使用するトレーニングジョブ向けに有効にできます。
Amazon SageMaker での EFA サポートの詳細については、SageMaker 分散トレーニングライブラリのドキュメント、またはコンテナで EFA を使用してトレーニングを実行する方法をご覧ください。使用を開始するには、Amazon SageMaker コンソールにログインします。