Amazon SageMaker HyperPod

Escale y acelere el desarrollo de los modelos de IA generativa en miles de aceleradores de IA.

Cree planes de entrenamiento flexibles en HyperPod

¿Qué es SageMaker HyperPod?

Amazon SageMaker HyperPod elimina el trabajo pesado e indiferenciado que implica la creación de modelos de IA generativa. Ayuda a escalar rápidamente las tareas de desarrollo de modelos, como el entrenamiento, el refinamiento o la inferencia, en un clúster de cientos o miles de aceleradores de IA. SageMaker HyperPod permite la gobernanza centralizada de todas las tareas de desarrollo de modelos, lo que le proporciona una visibilidad y un control totales sobre cómo se priorizan las diferentes tareas y cómo se asignan los recursos de computación a cada una de ellas. De esta manera, puede maximizar la utilización de GPU y AWS Trainium de su clúster y acelerar la innovación.

Personalizado para el entrenamiento distribuido a escala

Con SageMaker HyperPod, puede distribuir y paralelizar de manera eficiente la carga de trabajo de entrenamiento en todos los aceleradores. SageMaker HyperPod aplica automáticamente las mejores configuraciones de entrenamiento para los modelos populares disponibles públicamente a fin de ayudarle a lograr un rendimiento óptimo con rapidez. También supervisa de forma continua su clúster para detectar cualquier error en la infraestructura, repara automáticamente el problema y recupera sus cargas de trabajo sin intervención humana, lo cual le ayuda a ahorrar hasta un 40 % de tiempo de entrenamiento.

Beneficios de SageMaker HyperPod

SageMaker HyperPod ofrece un entorno resiliente para el desarrollo de modelos que detecta y diagnostica fallas en la infraestructura y se recupera de ellas, lo que da lugar a la ejecución continua de las cargas de trabajo del desarrollo de modelos durante meses sin interrupciones. El entrenamiento sin puntos control en SageMaker HyperPod reduce la necesidad de reiniciar el nivel de trabajo en función del punto de control y permite avanzar en el entrenamiento a pesar de los errores, lo que supone un ahorro en costos de procesamiento inactivo durante la recuperación y acelera el tiempo de comercialización en semanas.

La innovación en gobernanza de tareas de SageMaker HyperPod le brinda visibilidad y control totales sobre la asignación de recursos de computación en todas las tareas de desarrollo de modelos, incluidos el entrenamiento, el ajuste, la experimentación y la inferencia. SageMaker HyperPod administra automáticamente las colas de tareas, lo que garantiza que las tareas más fundamentales se prioricen y se completen a tiempo y dentro del presupuesto. Al mismo tiempo, optimiza el uso de los recursos de computación para reducir hasta un 40 % los costes de desarrollo de modelos. Además, SageMaker HyperPod proporciona capacidad de observación avanzada con visibilidad unificada de las tareas de desarrollo de modelos de IA y los recursos de computación.

Con las recetas para SageMaker HyperPod, los científicos de datos y los desarrolladores de todos los niveles se benefician de un rendimiento de última generación y, al mismo tiempo, pueden comenzar a entrenar y ajustar los modelos fundacionales disponibles públicamente en minutos. Además, mediante las recetas puede personalizar los modelos de Amazon Nova, incluidos Nova Micro, Nova Lite y Nova Pro, para casos de uso específicos de su empresa, a fin de mejorar la precisión de sus aplicaciones de IA generativa y, al mismo tiempo, mantener la relación entre precio y rendimiento y la baja latencia, líderes en su sector. Amazon Nova Forge es un programa único en su especie que ofrece a las organizaciones la forma más fácil y rentable de crear sus propios modelos de frontera con Nova.

Con SageMaker HyperPod puede dividir de manera automática sus modelos y conjuntos de datos de entrenamiento entre las instancias del clúster de AWS, a fin de escalar las cargas de trabajo de entrenamiento de manera eficiente. Ayuda a optimizar el trabajo de entrenamiento para la topología del clúster y la infraestructura de red de AWS. También optimiza los puntos de control del modelo con recetas mediante la optimización de la frecuencia con la que se guardan los puntos de control, lo que garantiza una sobrecarga mínima durante el entrenamiento.

SageMaker HyperPod permite acelerar los despliegues de los modelos con parámetros de acceso abierto de SageMaker JumpStart y de los modelos refinados de Amazon Simple Storage Service (Amazon S3) y Amazon FSx. Puede simplificar las tareas de despliegue de modelos gracias al aprovisionamiento automático, la administración de los recursos de computación mediante la gobernanza de tareas, la supervisión del rendimiento en tiempo real y la observabilidad mejorada.

Presentamos el entrenamiento sin puntos de control en Amazon SageMaker HyperPod

Recuperación automática de fallos de infraestructura en cuestión de minutos, incluso en miles de aceleradores de IA.

Más información

Introducción a SageMaker HyperPod

Documentación

Comience con la guía para desarrolladores paso a paso

Lea la documentación

Demostración

Descubra cómo acelerar el entrenamiento del modelo con SageMaker HyperPod

Vea el video

Amazon SageMaker HyperPod

¿Qué es SageMaker HyperPod?

Personalizado para el entrenamiento distribuido a escala

Beneficios de SageMaker HyperPod

Presentamos el entrenamiento sin puntos de control en Amazon SageMaker HyperPod

Introducción a SageMaker HyperPod

Comience con la guía para desarrolladores paso a paso

Descubra cómo acelerar el entrenamiento del modelo con SageMaker HyperPod

Aprender

Recursos

Desarrolladores

Ayuda

Amazon SageMaker HyperPod

¿Qué es SageMaker HyperPod?

Personalizado para el entrenamiento distribuido a escala

Beneficios de SageMaker HyperPod

Eliminación de las interrupciones con un entorno resiliente

Haga un mejor uso de los recursos y reduzca los costos con gobernabilidad y observabilidad centralizadas

Optimice el rendimiento de la personalización de modelos con recetas y herramientas

Escalado y paralelización del entrenamiento del modelo en cientos de aceleradores de IA

Acelere la implementación de modelos de peso abierto

Presentamos el entrenamiento sin puntos de control en Amazon SageMaker HyperPod

Introducción a SageMaker HyperPod

Comience con la guía para desarrolladores paso a paso

Descubra cómo acelerar el entrenamiento del modelo con SageMaker HyperPod

Aprender

Recursos

Desarrolladores

Ayuda