Amazon S3 Connector for PyTorch が分散チェックポイントのサポートを開始

投稿日: 2024年11月22日

Amazon S3 Connector for PyTorch が分散チェックポイント (DCP) をサポートするようになり、Amazon S3 にチェックポイントを書き込む時間が短縮されました。DCP は、複数のトレーニングプロセスから機械学習 (ML) モデルを並行して保存およびロードするための PyTorch 機能です。PyTorch は、ML モデルの構築とトレーニングに使用されるオープンソースの ML フレームワークです。

分散型のトレーニングジョブは多くの場合、数時間から数日かけて実行され、フォールトトレランスを向上させるためにチェックポイントが頻繁に書き込まれます。たとえば、大規模な基盤モデルをトレーニングするジョブは、多くの場合、数日間実行され、数百ギガバイトのサイズのチェックポイントが生成されます。DCP を Amazon S3 Connector for PyTorch と一緒に使用すると、この大量のチェックポイントを Amazon S3 に書き込む時間を短縮して、コンピューティングリソースの利用状況を維持でき、最終的にはコンピューティングコストを下げることができます。

PyTorch 用 Amazon S3 コネクタはオープンソースプロジェクトです。使用を開始するには、GitHub ページにアクセスしてください。