Publicado: Jan 24, 2019

Agora, o Amazon SageMaker Batch Transform oferece suporte ao formato TFRecord como um SplitType compatível, o que permite a divisão de conjuntos de dados por limites de TFRecord. O novo formato se junto à lista de formatos com suporte, incluindo RecordIO, CSV e Text.

O Amazon SageMaker é um serviço gerenciado que permite que todos os desenvolvedores e cientistas de dados criem, treinem e implantem modelos de machine learning com rapidez e facilidade. Um recurso importante do SageMaker é o Batch Transform, que permite a execução de previsões em dados em lotes.

O TFRecord é um formato de dados padrão do TensorFlow. Esse formato de arquivo binário orientado a registros permite armazenar e processar grandes conjuntos de dados com eficiência. Agora, esse aprimoramento simplifica o armazenamento de uma sequência de registros binários e é ideal para trabalhar com grandes conjuntos de dados usando o SageMaker Batch Transform. Para usar o TFRecord na execução de tarefas do Batch Transform, basta escolher TFRecord como SplitType e o conjunto de dados será dividido com base em limites do TFRecord. Além disso, você pode especificar BatchStrategy como MultiRecord para agrupar em lote vários registros de uma única solicitação.

O suporte ao TFRecord em todas as regiões da AWS em que o Amazon SageMaker é oferecido hoje. Para saber mais, consulte a documentação e o exemplo.