投稿日: Dec 1, 2021
本日、Amazon SageMaker Training Compiler を発表します。これは、GPU インスタンスをより効率的に使用することで、深層学習 (DL) モデルのトレーニングを最大 50% 高速化できる SageMaker の新機能です。
自然言語処理 (NLP) およびコンピュータビジョン (CV) のタスク向けの最先端の DL モデルは、トレーニングに数千 GPU 時間かかる可能性のある数十億のパラメータを備えた複雑な多層ニューラルネットワークです。これらのモデルを微調整することでさえ、時には数日かかることがあり、多額のコストがかかり、イノベーションが遅くなります。このプロセスを加速するために、既存のトレーニングスクリプトに対する変更を最小限に抑えながら、SageMaker Training Compiler をご利用いただけるようになりました。SageMaker Training Compiler は、SageMaker の最新バージョンの PyTorch と TensorFlow に統合されており、これらのフレームワークの内部で機能するため、有効にしたときにワークフローに他の変更を加える必要はありません。
SageMaker Training Compiler は、DL モデルを高水準言語表現からハードウェアに最適化された命令に変換することでトレーニングを加速します。より具体的には、SageMaker Training Compiler のコンパイルは、ハードウェアリソースをより効率的に使用し、その結果、モデルをより高速にトレーニングするために、グラフレベルの最適化 (演算子の融合、メモリ計画、および代数の単純化)、データフローレベルの最適化 (レイアウト変換、共通部分式除去)、ならびにバックエンドの最適化 (メモリレイテンシー隠蔽、ループ指向の最適化) を実行します。この加速されたトレーニングプロセスから返されるモデルアーティファクトは、これらのトレーニング最適化を有効にしない場合と同じです。
SageMaker Training Compiler は、Hugging Face の最も人気のある NLP DL モデルでテストされています。これには、bert-base-cased、bert-base-uncased、distilbert-base-uncased、distilbert-base-uncased-finetuned-sst-2-english、gpt2、roberta-base、roberta-large、bert-base-chinese、および xlm-roberta-base が含まれます。SageMaker Training Compiler を使用する場合、これらのモデルのトレーニングは最大 50% 高速化されます。