投稿日: Jul 17, 2018
Amazon SageMaker が TensorFlow コンテナ内蔵型のパイプ入力モードのサポートを開始しました。パイプ入力モードは TensorFlow データセット構成を使用して、データを直接 Amazon Simple Storage Service (Amazon S3) から トレーニングインスタンス上の TensorFlow コンテナへストリーミングします。
この機能で、トレーニングジョブの開始時間を高速化し、スループットを向上させ、使用するディスク領域を削減し、その結果として Amazon SageMaker 上であってもモデルのトレーニングに要するコストを押し下げます。たとえば、今年すでに Amazon SageMaker アルゴリズムのパイプ入力モードを使用するで実施済みの内部ベンチマークでは、開始時間は 78GB のトレーニングデータセット上で最大 87% 削減しながら、一部のベンチマークではスループットが 2 倍高速化しました。トレーニング時間全体では最大 35% 削減という結果でした。
データはパイプ入力モード以前は、ファイル入力モードを使って、Amazon S3 から、トレーニングインスタンスにアタッチされた Amazon Elastic Block Store (Amazon EBS) ボリュームに読み込まれていました。これには、モデルアーティファクトとトレーニングの全データセットを保存するためのディスク領域が必要でした。ファイル入力モードは、メモリに完全にフィットするデータセットで複数のエポックを実行するトレーニングジョブには今でも有用です。どちらの入力モードも、小規模の実験的なトレーニングジョブからペタバイト規模の分散型トレーニングジョブまで、さまざまなユースケースをカバーしています。
Amazon SageMaker で TensorFlow コンテナ向けのパイプ入力モードを利用できる AWS リージョンは、米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、欧州 (アイルランド)、欧州 (フランクフルト)、アジアパシフィック (東京)、アジアパシフィック (ソウル)、アジアパシフィック (シドニー) です。詳細に関しては、Amazon SageMaker のドキュメントを参照してください。