Veröffentlicht am: Dec 20, 2023
Heute kündigt AWS eine Hauptversion der Amazon SageMaker Model Parallel Library (SMP) an, die jetzt mit den PyTorch Fully Sharded Data Parallel (FSDP) APIs kompatibel ist und das Training von Deep-Learning-Modellen um bis zu 20 % beschleunigen kann. Mit SMP können Sie das Training großer Modelle mit Milliarden von Parametern beschleunigen, indem Sie das Modell automatisch partitionieren und auf mehrere Acceleratoren und Computing Instances verteilen. Sie können in wenigen Minuten mit SMP beginnen und Ihre vorhandenen PyTorch FSDP-Trainingsskripte mit nur wenigen Codezeilen beschleunigen.
PyTorch FSDP ist eine beliebte verteilte Trainingstechnik, die den Speicherbedarf beim Training reduziert, indem die Gewichte, Gradienten und Optimierungszustände eines Modells auf die Acceleratoren in einem Cluster aufgeteilt werden. Mit dieser Version sind die neuen APIs der SageMaker-Modellparallelbibliothek jetzt mit den PyTorch FSDP-Trainingsskripten kompatibel und beschleunigen diese weiter, sodass Kunden ihre vorhandenen Workloads beim Training auf SageMaker problemlos aktualisieren können. Mit nur wenigen Codezeilen können Kunden modernste Trainingstechniken, wie Hybrid Sharded Data Parallelism, aktivieren, die es den Kunden ermöglicht, den Grad des Model Sharding zu ändern und so die Speicher- und Kommunikationsanforderungen ihres Trainingsjobs zu kontrollieren. Diese neue Version erweitert auch die Funktionen von FSDP um Tensorparallel-Trainingstechniken für SageMaker-Kunden. Sie ermöglicht das Training von Modellen mit Hunderten von Milliarden von Parametern, indem Ebenen des Modells partitioniert und auf verschiedene Accelerator-Geräte verteilt werden. Informationen zu den ersten Schritten mit dem SageMaker-Modell parallel finden Sie in unserer Dokumentation.