Publicado en: Dec 20, 2023

Hoy, AWS anuncia el lanzamiento de una versión principal de la biblioteca paralela de modelos (SMP) de Amazon SageMaker, que ahora es compatible con las API de PyTorch Fully Sharded Data Parallel (FSDP) y puede acelerar el entrenamiento de modelos de deep learning hasta en un 20 %. SMP le permite acelerar el entrenamiento de modelos de gran tamaño con miles de millones de parámetros al particionar y distribuir automáticamente el modelo en varios aceleradores e instancias de computación. Puede comenzar a usar SMP en minutos y acelerar sus scripts de entrenamiento de PyTorch FSDP existentes con solo unas pocas líneas de código.

PyTorch FSDP es una técnica conocida de entrenamiento distribuido que reduce la huella de memoria del entrenamiento al particionar los pesos, los gradientes y los estados del optimizador de un modelo en los aceleradores de un clúster. Con esta versión, las nuevas API de la biblioteca paralela de modelos de SageMaker ahora son compatibles con los scripts de entrenamiento de PyTorch FSDP y los aceleran aún más. Esto permite que los clientes actualicen fácilmente sus cargas de trabajo existentes cuando entrenan en SageMaker. Con solo unas pocas líneas de código, los clientes pueden utilizar técnicas de entrenamiento de última generación, como el paralelismo híbrido de datos particionados. Así, los clientes pueden cambiar el grado de partición del modelo y, por lo tanto, controlar los requisitos de memoria y comunicación de su trabajo de entrenamiento. Esta nueva versión también amplía las capacidades de FSDP para incluir técnicas de entrenamiento en paralelo con tensores para los clientes de SageMaker. Esto permite entrenar modelos con cientos de miles de millones de parámetros mediante la partición y distribución de capas del modelo en diferentes dispositivos aceleradores. Para empezar a utilizar el paralelismo de modelos de SageMaker, consulte nuestra documentación.