El conector de Amazon S3 para PyTorch ahora es compatible con los puntos de control distribuidos

Publicado en: 22 de nov de 2024

El conector de Amazon S3 para PyTorch ahora admite puntos de control distribuidos (DCP), lo que mejora el tiempo necesario para escribir puntos de control en Amazon S3. DCP es una característica de PyTorch para guardar y cargar modelos de machine learning (ML) de varios procesos de entrenamiento en paralelo. PyTorch es un marco de machine learning de código abierto que se utiliza para crear y entrenar modelos de ML.

Los trabajos de entrenamiento distribuidos suelen durar varias horas o incluso días, y los puntos de control se escriben con frecuencia para mejorar la tolerancia a errores. Por ejemplo, los trabajos de entrenamiento de grandes modelos fundacionales suelen durar varios días y generan puntos de control con un tamaño de cientos de gigabytes. El uso de DCP con el conector de Amazon S3 para PyTorch lo ayuda a reducir el tiempo necesario para escribir estos grandes puntos de control en Amazon S3. De esta manera, se mantienen los recursos informáticos utilizados y, en última instancia, se reducen los costos de procesamiento.

El conector de Amazon S3 para PyTorch es un proyecto de código abierto. Para comenzar, visite la página de GitHub.