Presentamos Amazon SageMaker HyperPod, una infraestructura específicamente diseñada para el entrenamiento distribuido a escala

Publicado en: Nov 29, 2023

Hoy, AWS anuncia la disponibilidad general de Amazon SageMaker HyperPod, que reduce el tiempo de entrenamiento de los modelos fundacionales (FM) en hasta un 40% al proporcionar una infraestructura diseñada específicamente para el entrenamiento distribuido a escala.

Muchas organizaciones desean entrenar sus propios FM (modelos fundacionales) con instancias basadas en unidades de procesamiento gráfico (GPU) y en Trainium a bajo costo. Sin embargo, el volumen de datos, el tamaño de los modelos y el tiempo necesario para entrenar a los FM han aumentado exponencialmente la complejidad del entrenamiento de un modelo. Los clientes a menudo necesitan dividir su entrenamiento de FM en posibles cientos o miles de aceleradores. Luego, ejecutan billones de cálculos de datos en paralelo durante semanas o meses seguidos, lo que lleva mucho tiempo y requiere conocimientos especializados en ML. El número de aceleradores y el tiempo de entrenamiento aumentan sustancialmente en comparación con los modelos específicos de tareas de entrenamiento, por lo que aumenta la probabilidad de errores pequeños y poco frecuentes, como el fallo de un solo acelerador.

SageMaker HyperPod elimina el trabajo pesado e indiferenciado que implica crear y optimizar la infraestructura de aprendizaje automático para la formación de modelos fundacionales. SageMaker HyperPod viene preconfigurado con las bibliotecas de entrenamiento distribuidas de SageMaker, que permiten a los clientes dividir automáticamente las cargas de trabajo de formación en miles de aceleradores, de modo que las cargas de trabajo se puedan procesar en paralelo para mejorar el rendimiento del modelo. SageMaker HyperPod también garantiza que los clientes puedan continuar con el entrenamiento de FM sin interrupciones al guardar puntos de control periódicamente. Cuando se produce una falla de hardware durante el entrenamiento, SageMaker HyperPod detecta automáticamente la falla, repara o reemplaza la instancia defectuosa y reanuda el entrenamiento desde el último punto de control guardado, lo que elimina la necesidad de que los clientes administren este proceso manualmente y les ayuda a entrenarse durante semanas o meses en un entorno distribuido sin interrupciones.

SageMaker HyperPod está disponible de manera general, y usted puede usarlo, en las siguientes regiones de AWS: Este de EE. UU. (Ohio), Este de EE. UU. (Norte de Virginia), Oeste de EE. UU. (Oregón), Asia Pacífico (Seúl), Asia-Pacífico (Singapur), Asia-Pacífico (Tokio), Asia-Pacífico (Sídney), Europa (Fráncfort), Europa (Irlanda) y Europa (Estocolmo).

Para obtener más información, consulte la siguiente lista de recursos:

Presentamos Amazon SageMaker HyperPod, una infraestructura específicamente diseñada para el entrenamiento distribuido a escala

Finalización de la compatibilidad con Internet Explorer