Veröffentlicht am: Oct 7, 2021
Amazon SageMaker unterstützt jetzt Fast File Mode für den Zugriff auf Daten in Trainingjobs. Dies ermöglicht High Performance-Datenzugriff indem direkt von Amazon S3 gestreamt wird, ohne Codeänderungen von dem bestehenden File Mode. Zum Beispiel kann das Trainieren eines K-Means Clustering Models auf einem 100 GB Datensatz 28 Minuten mit File Mode dauern, aber nur 5 Minuten mit Fast File Mode (82 % weniger).
Das Trainieren von Machine Learning Modellen benötigt oft große Datensätze. Der effiziente Zugriff auf Daten hilft bei der Verbesserung der Leistung der Modelltrainings. Bis jetzt bot SageMaker zwei Modi für das Lesen von Daten dirket von Amazon S3: File Mode und Pipe Mode. File Mode lädt Trainingsdaten auf ein verschlüsseltes Amazon EBS Volumen herunter, das an die Trainingsinstanz angehängt ist. Dieser Download muss abgeschlossen werden, bevor das Modelltraining startet. Pipe Mode streamt die Daten direkt an den Trainingsalgorithmus, was zu besserer Leistung führt, aber Codeänderungen verursacht.
Fast File Mode kombiniert den Komfort der Verwendung des bestehenden File Mode mit der Leistung von Pipe Mode. Dies bietet einen bequemen Zugriff auf Daten, so als wären sie lokal heruntergeladen, während die Leistung die eines Streamingservices direkt von Amazon S3 ist. Deshalb kann das Training beginnen, ohne dass man darauf warten muss, dass der gesamte Datensatz auf die Trainingsinstanz heruntergeladen wurde. Fast File Mode kann ohne zusätzliche Kosten genutzt werden.
Sie erfahren mehr in der Dokumentation über den Zugang auf Trainingsdaten in SageMaker. Melden Sie sich zum Einstieg bei der Amazon-SageMaker-Konsole an.