Veröffentlicht am: Nov 5, 2018
Die integrierten Algorithmen, die Amazon SageMaker umfasst, unterstützten jetzt für Datensätze im CSV-Format den Pipeline-Modus. Dadurch wird beim Trainieren von zu maschinellem Lernen fähigen Modellen (ML-Modellen) die Geschwindigkeit gesteigert, mit der Daten von Amazon Simple Storage Service (S3) in SageMaker um bis zu 40 %eingespeist werden. Mit dieser neuen Erweiterung erstrecken sich die Leistungsvorteile des Pipeline-Modus auf Trainingsdatensätze im CSV-Format, zusätzlich zum protobuf recordIO-Format, das wir Anfang des Jahres veröffentlicht haben.
Amazon SageMaker unterstützt zwei Übertragungsmethoden für Trainingsdaten – File Mode und Pipe Mode. Bei File Mode werden die Trainingsdaten zuerst auf ein verschlüsseltes EBS-Volume heruntergeladen, das der Trainings-Instance angefügt ist, bevor das Modell trainiert wird. Bei Pipe Mode werden die Daten direkt in den Trainingsalgorithmus gespeist, während dieser ausgeführt wird. Dies beschleunigt die Trainingsaufgaben und benötigt weniger Festplattenspeicher, wodurch das Trainieren von ML-Modellen durch Amazon SageMaker kostengünstiger wird.
Die Unterstützung für das CSV-Format mit dem Pipeline-Modus ist in allen AWS-Regionen verfügbar, in denen Amazon SageMaker heute zur Verfügung steht. Zusätzliche Details dazu finden Sie in diesem Blog-Beitrag.