投稿日: Nov 5, 2018

Amazon SageMaker の組み込みアルゴリズムで、CSV フォーマットのデータセット向けにパイプモードがサポートされるようになりました。これにより、Amazon Simple Storage Service (S3) から SageMaker へのデータストリーミングが最大 40% 高速化され、同時に機械学習 (ML) モデルのトレーニングも行えます。この新しい機能強化により、パイプモード使用によるパフォーマンス向上のメリットが、今年リリース済みの protobuf recordIO フォーマットに加えて CSV フォーマットのトレーニングデータセットにも拡大されます。

Amazon SageMaker では、ファイルモードとパイプモードという 2 つの方式でのトレーニングデータ転送がサポートされています。ファイルモードでは、トレーニングデータは、モデルのトレーニングに先立って、トレーニングインスタンスに配置されて、暗号化された EBS ボリュームにまずダウンロードされます。パイプモードの場合、データはトレーニング実行中に直接そのアルゴリズムにストリーミングされます。その結果、トレーニングがより高速になり、使用するディスクスペースが減少するため、Amazon SageMaker による機械学習モデルのトレーニングコストを全体的に削減できます。

パイプモードでの CSV フォーマットのサポートは、Amazon SageMaker を利用可能なすべての AWS リージョンで本日から利用できます。 詳細については、ブログ投稿をご覧ください。