Publié le: Oct 7, 2021

Amazon SageMaker prend désormais en charge le mode Fichier rapide pour accéder aux données dans les tâches d'entraînement. Cela permet d'accéder aux données de manière très performante en les diffusant directement à partir d'Amazon S3, sans modification du code par rapport au mode Fichier existant. Par exemple, l'entraînement d'un modèle de clustering K-Means sur un jeu de données de 100 Go a pris 28 minutes avec le mode Fichier, mais seulement 5 minutes avec le mode Fichier rapide (une diminution de 82 %).

L'entraînement de modèles de machine learning nécessite souvent de grandes quantités de données. Accéder efficacement à ces données permet d'améliorer les performances d'entraînement du modèle. Jusqu'à présent, SageMaker proposait deux modes pour lire les données directement à partir d'Amazon S3 : Fichier et Pipe. Le mode Fichier télécharge les données d'entraînement sur un volume Amazon EBS chiffré attaché à l'instance d'entraînement. Ce téléchargement doit être terminé avant que l'entraînement du modèle ne commence. Le mode Pipe transmet les données directement à l'algorithme d'entraînement, ce qui peut conduire à de meilleures performances, mais nécessite des modifications du code.

Le mode Fichier rapide combine la facilité d'utilisation du mode Fichier existant avec les performances du mode Pipe. Cela permet un accès pratique aux données comme si elles étaient téléchargées localement, tout en offrant le bénéfice en termes de performances du streaming des données directement depuis Amazon S3. Par conséquent, l'entraînement peut commencer sans attendre que le jeu de données entier soit téléchargé vers les instances d'entraînement. Le mode Fichier rapide peut être utilisé sans frais supplémentaires.

Pour en savoir plus, consultez la documentation sur l'accès aux données d'entraînement dans SageMaker. Pour commencer, connectez-vous à la console Amazon SageMaker.