Publié le: Jan 24, 2019

Amazon SageMaker Batch Transform prend désormais en charge le format TFRecord sous forme de SplitType pris en charge, ce qui permet la division des ensembles de données suivant les limites TFRecord. Ce format s’ajoute ainsi à la liste des formats déjà pris en charge, notamment RecordIO, CSV et Text.

Amazon SageMaker est un service entièrement géré permettant aux développeurs et aux spécialistes des données de créer, former et déployer rapidement et facilement des modèles de Machine Learning. L’une des fonctionnalités majeures de SageMaker est Batch Transform, un outil permettant d’exécuter des prédictions sur des lots de données.

TFRecord est un format de données standard TensorFlow. Il s’agit d’un format de fichier binaire basé sur les enregistrements qui permet le stockage et le traitement efficaces de grands ensembles de données. Avec cette amélioration, le stockage de séquences d’enregistrements binaires s’en trouvé simplifié. Par ailleurs, la fonctionnalité est recommandée pour des tâches impliquant de grands ensembles de données avec SageMaker Batch Transform. Pour utiliser TFRecord durant l’exécution de tâches Batch Transform, il vous suffit de choisir TFRecord comme SplitType pour assister à la division de votre ensemble de données suivant les limites TFRecord. En outre, vous pouvez spécifier une BatchStrategy de MultiRecord pour regrouper plusieurs enregistrements à partir d’une seule requête.

Le support TFRecord est désormais disponible dans toutes les régions AWS où Amazon SageMaker est disponible actuellement. Pour en savoir plus, consultez la documentationet un exemple de modèle.