Коннектор Amazon S3 для PyTorch теперь поддерживает распределенную контрольную точку

Проведено: 22 нояб. 2024 г.

Коннектор Amazon S3 для PyTorch теперь поддерживает распределенную контрольную точку (DCP), что позволяет сократить время записи контрольных точек в Amazon S3. DCP – это функция PyTorch для параллельного сохранения и загрузки моделей машинного обучения (ML) из нескольких процессов обучения. PyTorch – это платформа машинного обучения с открытым исходным кодом, используемая для создания и обучения моделей машинного обучения.

Распределенные задания обучения часто длятся несколько часов или даже дней, а контрольные точки записываются часто для повышения отказоустойчивости. Например, задания по обучению крупных базовых моделей часто длятся несколько дней и создают контрольные точки размером в сотни гигабайт. Использование DCP с Коннектором Amazon S3 для PyTorch помогает сократить время записи этих больших контрольных точек в Amazon S3, сохраняя использование вычислительных ресурсов, что в конечном итоге приводит к снижению стоимости вычислений.

Коннектор Amazon S3 для PyTorch – это проект с открытым исходным кодом. Чтобы начать работу, посетите страницу на GitHub.