投稿日: May 24, 2018

現在、内蔵型のAmazon SageMakerアルゴリズムを使ってトレーニングジョブを実行でき、パイプ入力モードによって最大35%の高速化が実現します。パイプ入力モードを使うことで、トレーニングジョブはAmazon Simple Storage Service (Amazon S3)から、トレーニングインスタンス上のアルゴリズムコンテナに直接ストリーミングされるため、トレーニングジョブの起動時間が短くなり、スループットが向上します。たとえば、ベンチマークでは、78GBのファイルで起動時間が最大10分向上し、一部のベンチマークではスループットが2倍速くなったことを示しました。

最適な速度を実現するために、トレーニングデータで最適化されたprotocufのrecordIOフォーマットを使用した場合に、ほとんどのAmazon SageMakerアルゴリズムは最高の動作を示します。このフォーマットを使用すると、パイプ入力モードをサポートしているアルゴリズムのトレーニング時に、パイプ入力モードを最大限活かすことができます。パイプ入力モード以前、すべてのデータは、ファイル入力モードを使って、Amazon S3から、トレーニングインスタンスに取り付けられたAmazon Elastic Block Store (Amazon EBS)ボリュームに読み込まれていました。この場合、最終的なモデルアーティファクトとトレーニングの全データセットを保存するためのディスク領域が必要でした。アルゴリズムが複数のエポックを要求し、トレーニングデータセットが小さくてメモリが十分に足りている場合に、今でもファイル入力モードが好まれますが、パイプ入力モードの方が大きなデータセットの処理に優れています。

パイプ入力モードは、Amazon SageMaker で本日より、米国東部 (バージニア北部)、米国東部 (オハイオ)、欧州 (アイルランド)、および米国西部 (オレゴン) の AWS リージョンで利用できます。Amazon SageMakerアルゴリズムのパイプ入力モードの詳細については、文書にアクセスしください。また、パイプ入力モード機能の使い方については、ブログの投稿をお読みいただき、ファイル入力モードのベンチマークをご確認ください。