投稿日: Nov 22, 2023
PyTorch 用 Amazon S3 コネクタでは、Amazon S3 のデータにアクセスしたり、データを保存したりする PyTorch トレーニングジョブに対して高いスループットを実現できます。PyTorch は、機械学習モデルを構築し、トレーニングするために AWS のお客様によって広く使用されているオープンソースの機械学習フレームワークです。PyTorch 用 Amazon S3 コネクタでは、S3 の読み取りリクエストと LIST リクエストを自動的に最適化し、トレーニングワークロードのデータ読み込みとチェックポイントのパフォーマンスを向上させます。PyTorch 用 Amazon S3 コネクタを使用すると、Amazon EC2 インスタンスストレージに保存するよりも、機械学習トレーニングモデルのチェックポイントを最大 40% 速く保存できます。
PyTorch 用 Amazon S3 コネクタには、PyTorch のデータセットプリミティブの新しい実装が用意されています。この実装を使用して、Amazon S3 からトレーニングデータを読み込むことができます。ランダムデータアクセスパターン用のマップスタイルのデータセットと、順次データアクセスパターン用の反復可能スタイルのデータセット両方がサポートされています。また、PyTorch 用 Amazon S3 コネクタには、最初にローカルストレージに保存し、カスタムコードを記述して Amazon S3 にアップロードしなくても、Amazon S3 に直接チェックポイントを保存したり読み込んだりできるチェックポイントインターフェイスも用意されています。
PyTorch 用 Amazon S3 コネクタはオープンソースプロジェクトです。使用を開始するには、GitHub ページにアクセスしてください。