Amazon S3 Connector for PyTorch supporta ora Distributed Checkpoint

Inserito il: 22 nov 2024

Amazon S3 Connector for PyTorch ora supporta Distributed Checkpoint (DCP), migliorando i tempi di scrittura dei checkpoint su Amazon S3. DCP è una funzionalità di PyTorch per il salvataggio e il caricamento di modelli di machine learning (ML) da più processi di addestramento in parallelo. PyTorch è un framework di ML open source impiegato per creare e addestrare modelli di ML.

I processi di addestramento distribuiti spesso durano diverse ore o addirittura giorni e i checkpoint vengono scritti di frequente per aumentare la tolleranza ai guasti. Ad esempio, i processi che addestrano modelli di base di grandi dimensioni spesso durano diversi giorni e generano checkpoint della dimensione di centinaia di gigabyte. L'uso di DCP con Amazon S3 Connector for PyTorch contribuisce a ridurre i tempi di scrittura di questi checkpoint di grandi dimensioni su Amazon S3, mantenendo le risorse di calcolo utilizzate, con conseguente riduzione dei costi di elaborazione.

Amazon S3 Connector for PyTorch è un progetto open source. Per iniziare, visita la pagina di GitHub.