Veröffentlicht am: Jul 8, 2022
Das Modelltraining von Amazon SageMaker unterstützt jetzt heterogene Cluster, mit denen mehrere Instance-Typen in einem einzigen Trainingjob verwendet werden können. Diese neue Fähigkeit kann Ihre Trainingskosten verbessern, indem verschiedene Teile des Modelltrainings auf den geeignetesten Instance-Typen ausgeführt werden. Zum Beispiel haben wir kürzlich ein ResNet-50-Computer-Vision-Modell auf einem heterogenen Cluster mit ml.g5.xl- und ml.c5n.2xl-Instances trainiert. Dieser Trainingjob hat zu 13 % geringeren Kosten geführt als das Training des gleichen Modells auf einem Cluster nur mit ml.g5.xl-Instances mit der gleichen Genauigkeit.
Bestimmte Machine-Learning-Workloads kombinieren Aufgaben, die von der Verwendung verschiedener Instance-Typen für jede Aufgabe profitieren. Zum Beispiel werden beim Training von Computer-Vision-Modellen oft die GPU-intensive Aufgabe des Modelltrainings mit neuronalen Netzwerken mit der CPU-intensiven Aufgabe der Datenverarbeitung und -augmentierung kombiniert. Die Ausführung beider Aufgaben auf einem einzelnen Instance-Typen kann zu niedriger GPU-Ausnutzung und somit zu verschwendeten Ressourcen führen.
Mit heterogenen Clustern können SageMaker-Trainingjobs auf mehrern Instance-Typen ausgeführt werden, bei denen die GPU-intensiven Aufgaben auf Instance-Typen wie ml.p4d.24xl und die CPU-intensiven Aufgaben auf Instance-Typen wie ml.c5n.18xl ausgeführt werden. Diese Flexibilität kann die GPU-Ausnutzung steigern und die gesamte Kosteneffektivität verbessern. Heterogene Cluster können ohne zusätzliche Gebühren verwendet werden.
Mehr erfahren Sie in der Dokumentation für heterogene Cluster. Melden Sie sich zum Einstieg bei der Amazon-SageMaker-Konsole an.