投稿日: Jan 24, 2019

Amazon SageMaker バッチ変換で、サポートされる SplitType として TFRecord フォーマットのサポートが開始され、TFRecord 境界を使用してデータセットを分割できるようになりました。これによって、RecordIO、CSV、Text を含むサポートされる形式のリストに追加されたことになります。

Amazon SageMaker は、すべてのデータサイエンティストや開発者が Machine Learning モデルを迅速かつ簡単に構築、トレーニング、デプロイできるようにする完全マネージド型サービスです。SageMaker の主要な機能は、バッチデータの予測を実行できるようにするバッチ変換です。

TFRecord は、標準 TensorFlow データ形式です。これはレコード指向のバイナリファイル形式で、大規模なデータセットの効率的なストレージおよび処理を可能にします。この機能強化により、バイナリレコードのシーケンスを簡単に保存できるようになり、SageMaker バッチ変換を使用して大規模なデータセットを扱う場合の最適な方法になりました。バッチ変換ジョブの実行中に TFRecord を使用するには、SplitType に TFRecord を選択するだけです。これによって、データセットは TFRecord 境界により分割されます。さらに、単一のリクエストから複数のレコードをバッチ処理するよう MultiRecord の BatchStrategy を指定することもできます。

TFRecord のサポートは、Amazon SageMaker を現在使用できるすべての AWS リージョンで利用できます。詳細については、ドキュメントおよびサンプル例をご覧ください。