Saltar al contenido principal

Amazon SageMaker HyperPod

Escale y acelere el desarrollo de los modelos de IA generativa en miles de aceleradores de IA.

¿Qué es SageMaker HyperPod?

Amazon SageMaker HyperPod elimina el trabajo pesado e indiferenciado que implica la creación de modelos de IA generativa. Ayuda a escalar rápidamente las tareas de desarrollo de modelos, como el entrenamiento, el refinamiento o la inferencia, en un clúster de cientos o miles de aceleradores de IA. SageMaker HyperPod permite la gobernanza centralizada de todas las tareas de desarrollo de modelos, lo que le proporciona una visibilidad y un control totales sobre cómo se priorizan las diferentes tareas y cómo se asignan los recursos de computación a cada una de ellas. De esta manera, puede maximizar la utilización de GPU y AWS Trainium de su clúster y acelerar la innovación.

Personalizado para el entrenamiento distribuido a escala

Con SageMaker HyperPod, puede distribuir y paralelizar de manera eficiente la carga de trabajo de entrenamiento en todos los aceleradores. SageMaker HyperPod aplica automáticamente las mejores configuraciones de entrenamiento para los modelos populares disponibles públicamente a fin de ayudarle a lograr un rendimiento óptimo con rapidez. También supervisa de forma continua su clúster para detectar cualquier error en la infraestructura, repara automáticamente el problema y recupera sus cargas de trabajo sin intervención humana, lo cual le ayuda a ahorrar hasta un 40 % de tiempo de entrenamiento.

Beneficios de SageMaker HyperPod

La innovación en la gobernanza de tareas de SageMaker HyperPod ofrece una visibilidad y un control completos sobre la asignación de recursos de computación en todas las tareas de desarrollo de modelos de IA generativa, como el entrenamiento y la inferencia. SageMaker HyperPod administra automáticamente las colas de tareas, lo que garantiza que las tareas más fundamentales se prioricen y se completen a tiempo y dentro del presupuesto. Al mismo tiempo, optimiza el uso de los recursos de computación para reducir hasta un 40 % los costes de desarrollo de modelos.

Con las fórmulas para SageMaker HyperPod, los científicos de datos y los desarrolladores de todos los niveles se benefician de un rendimiento de última generación y, al mismo tiempo, comienzan a entrenar y refinar los modelos de IA generativa disponibles públicamente en minutos. Además, mediante las fórmulas puede personalizar los modelos fundacionales (FM) de Amazon Nova, incluidos Nova Micro, Nova Lite y Nova Pro, para casos de uso específicos de su empresa, a fin de mejorar la precisión de sus aplicaciones de IA generativa y, al mismo tiempo, mantener la relación entre precio, rendimiento y la baja latencia, líderes en su sector, de Nova. SageMaker HyperPod también ofrece herramientas integradas de experimentación y observabilidad para ayudar a mejorar el rendimiento de los modelos.

SageMaker HyperPod permite dividir automáticamente sus modelos y conjuntos de datos de entrenamiento entre las instancias del clúster de AWS, lo que ayuda a escalar las cargas de trabajo de entrenamiento de manera eficiente. Lo ayuda a optimizar su trabajo de entrenamiento para la infraestructura de red y la topología de clústeres de AWS. También optimiza los puntos de control del modelo con recetas mediante la optimización de la frecuencia con la que se guardan los puntos de control, lo que garantiza una sobrecarga mínima durante el entrenamiento.
SageMaker HyperPod ofrece un entorno resiliente para el desarrollo de modelos que detecta y diagnostica fallas en la infraestructura y se recupera de ellas, lo que da lugar a la ejecución continua de las cargas de trabajo del desarrollo de modelos durante meses sin interrupciones.

SageMaker HyperPod permite acelerar los despliegues de los modelos con parámetros de acceso abierto de SageMaker JumpStart y de los modelos refinados de Amazon S3 y Amazon FSx. Puede simplificar las tareas de despliegue de modelos gracias al aprovisionamiento automático, la administración de los recursos de computación mediante la gobernanza de tareas, la supervisión del rendimiento en tiempo real y la observabilidad mejorada.

Presentación de la gobernanza de tareas en SageMaker HyperPod

Maximice la utilización y obtenga una visibilidad total de los recursos informáticos, mientras reduce costos.