Konektor Amazon S3 untuk PyTorch sekarang mendukung Distributed Checkpoint

Dikirim di: 22 Nov 2024

Konektor Amazon S3 untuk PyTorch kini mendukung Distributed Checkpoint (DCP), yang meningkatkan waktu penulisan titik pemeriksaan ke Amazon S3. DCP adalah fitur PyTorch untuk menyimpan dan memuat model machine learning (ML) dari beberapa proses pelatihan secara paralel. PyTorch adalah kerangka kerja ML sumber terbuka yang digunakan untuk membangun dan melatih model ML.

Pekerjaan pelatihan terdistribusi sering kali berjalan selama beberapa jam atau bahkan berhari-hari, dan titik pemeriksaan ditulis secara berkala untuk meningkatkan toleransi kesalahan. Misalnya, pekerjaan yang melatih model fondasi besar sering kali berlangsung selama beberapa hari dan menghasilkan titik pemeriksaan yang berukuran ratusan gigabyte. Menggunakan DCP dengan Konektor Amazon S3 untuk PyTorch membantu Anda mengurangi waktu untuk menulis titik pemeriksaan besar ini ke Amazon S3, menjaga sumber daya komputasi Anda tetap dimanfaatkan, yang pada akhirnya menghasilkan biaya komputasi yang lebih rendah.

Konektor Amazon S3 untuk PyTorch adalah proyek sumber terbuka. Untuk memulai, kunjungi halaman GitHub.