PyTorch için Amazon S3 Bağlayıcısı artık Dağıtılmış Kontrol Noktasını destekliyor

Yayınlanma Tarihi: 22 Kas 2024

PyTorch için Amazon S3 Bağlayıcısı artık Dağıtılmış Kontrol Noktası'nı (DCP) destekliyor ve bu sayede kontrol noktalarını Amazon S3'e yazma süresini iyileştiriyor. DCP, birden fazla eğitim sürecinden makine öğrenimi (ML) modellerini paralel olarak kaydetmeye ve yüklemeye yönelik bir PyTorch özelliğidir. PyTorch, ML modellerini oluşturmak ve eğitmek için kullanılan açık kaynaklı bir ML çerçevesidir.

Dağıtılmış eğitim işleri genellikle birkaç saat hatta gün boyunca çalışır ve hata toleransını iyileştirmek için kontrol noktaları sık sık yazılır. Örneğin, büyük altyapı modellerini eğiten işler genellikle birkaç gün boyunca çalışır ve yüzlerce gigabayt boyutunda kontrol noktaları oluşturur. PyTorch için Amazon S3 Bağlayıcısı ile DCP'yi kullanmak, bu büyük kontrol noktalarını Amazon S3'e daha kısa sürede yazmanıza yardımcı olarak işlem kaynaklarınızdan yararlanılmasını ve sonuçta daha düşük işlem maliyeti elde etmenize neden olur.

PyTorch için Amazon S3 Bağlayıcısı açık kaynaklı bir projedir. Başlamak için GitHub sayfasını ziyaret edin.