Amazon S3 Connector für PyTorch unterstützt jetzt Distributed Checkpoint
Amazon S3 Connector für PyTorch unterstützt jetzt Distributed Checkpoint (DCP), wodurch die Zeit für das Schreiben von Prüfpunkten in Amazon S3 verkürzt wird. DCP ist ein PyTorch-Feature zum gleichzeitigen Speichern und Laden von Machine-Learning-Modellen (ML) aus mehreren Trainingsprozessen. PyTorch ist ein Open-Source-ML-Framework zum Erstellen und Trainieren von ML-Modellen.
Distributed Trainingsjobs dauern oft mehrere Stunden oder sogar Tage. Dabei werden häufig Prüfpunkte geschrieben, um die Fehlertoleranz zu erhöhen. Das Training großer Basismodelle dauert oft mehrerer Tage und generiert Prüfpunkte, die Hunderte von Gigabyte groß sind. Die Verwendung von DCP mit Amazon S3 Connector für PyTorch verkürzt die Zeit für das Schreiben großer Prüfpunkte in Amazon S3, sodass die Auslastung Ihrer Rechenressourcen weiterhin hoch bleibt und Rechenkosten schließlich geringer ausfallen.
Amazon-S3-Connector für PyTorch ist ein Open-Source-Projekt. Einführende Informationen finden Sie auf der Github-Seite.