- Machine Learning›
- Amazon SageMaker AI›
- Amazon SageMaker HyperPod
Amazon SageMaker HyperPod
Escale y acelere el desarrollo de los modelos de IA generativa en miles de aceleradores de IA.
¿Qué es SageMaker HyperPod?
Amazon SageMaker HyperPod elimina el trabajo pesado e indiferenciado que implica la creación de modelos de IA generativa. Ayuda a escalar rápidamente las tareas de desarrollo de modelos, como el entrenamiento, el refinamiento o la inferencia, en un clúster de cientos o miles de aceleradores de IA. SageMaker HyperPod permite la gobernanza centralizada de todas las tareas de desarrollo de modelos, lo que le proporciona una visibilidad y un control totales sobre cómo se priorizan las diferentes tareas y cómo se asignan los recursos de computación a cada una de ellas. De esta manera, puede maximizar la utilización de GPU y AWS Trainium de su clúster y acelerar la innovación.
Personalizado para el entrenamiento distribuido a escala
Con SageMaker HyperPod, puede distribuir y paralelizar de manera eficiente la carga de trabajo de entrenamiento en todos los aceleradores. SageMaker HyperPod aplica automáticamente las mejores configuraciones de entrenamiento para los modelos populares disponibles públicamente a fin de ayudarle a lograr un rendimiento óptimo con rapidez. También supervisa de forma continua su clúster para detectar cualquier error en la infraestructura, repara automáticamente el problema y recupera sus cargas de trabajo sin intervención humana, lo cual le ayuda a ahorrar hasta un 40 % de tiempo de entrenamiento.
Beneficios de SageMaker HyperPod
SageMaker HyperPod ofrece un entorno resiliente para el desarrollo de modelos que detecta y diagnostica fallas en la infraestructura y se recupera de ellas, lo que da lugar a la ejecución continua de las cargas de trabajo del desarrollo de modelos durante meses sin interrupciones. El entrenamiento sin puntos control en SageMaker HyperPod reduce la necesidad de reiniciar el nivel de trabajo en función del punto de control y permite avanzar en el entrenamiento a pesar de los errores, lo que supone un ahorro en costos de procesamiento inactivo durante la recuperación y acelera el tiempo de comercialización en semanas.
La innovación en gobernanza de tareas de SageMaker HyperPod le brinda visibilidad y control totales sobre la asignación de recursos de computación en todas las tareas de desarrollo de modelos, incluidos el entrenamiento, el ajuste, la experimentación y la inferencia. SageMaker HyperPod administra automáticamente las colas de tareas, lo que garantiza que las tareas más fundamentales se prioricen y se completen a tiempo y dentro del presupuesto. Al mismo tiempo, optimiza el uso de los recursos de computación para reducir hasta un 40 % los costes de desarrollo de modelos. Además, SageMaker HyperPod proporciona capacidad de observación avanzada con visibilidad unificada de las tareas de desarrollo de modelos de IA y los recursos de computación.
Con las recetas para SageMaker HyperPod, los científicos de datos y los desarrolladores de todos los niveles se benefician de un rendimiento de última generación y, al mismo tiempo, pueden comenzar a entrenar y ajustar los modelos fundacionales disponibles públicamente en minutos. Además, mediante las recetas puede personalizar los modelos de Amazon Nova, incluidos Nova Micro, Nova Lite y Nova Pro, para casos de uso específicos de su empresa, a fin de mejorar la precisión de sus aplicaciones de IA generativa y, al mismo tiempo, mantener la relación entre precio y rendimiento y la baja latencia, líderes en su sector. Amazon Nova Forge es un programa único en su especie que ofrece a las organizaciones la forma más fácil y rentable de crear sus propios modelos de frontera con Nova.
Con SageMaker HyperPod puede dividir de manera automática sus modelos y conjuntos de datos de entrenamiento entre las instancias del clúster de AWS, a fin de escalar las cargas de trabajo de entrenamiento de manera eficiente. Ayuda a optimizar el trabajo de entrenamiento para la topología del clúster y la infraestructura de red de AWS. También optimiza los puntos de control del modelo con recetas mediante la optimización de la frecuencia con la que se guardan los puntos de control, lo que garantiza una sobrecarga mínima durante el entrenamiento.
SageMaker HyperPod permite acelerar los despliegues de los modelos con parámetros de acceso abierto de SageMaker JumpStart y de los modelos refinados de Amazon Simple Storage Service (Amazon S3) y Amazon FSx. Puede simplificar las tareas de despliegue de modelos gracias al aprovisionamiento automático, la administración de los recursos de computación mediante la gobernanza de tareas, la supervisión del rendimiento en tiempo real y la observabilidad mejorada.
Presentamos el entrenamiento sin puntos de control en Amazon SageMaker HyperPod
Recuperación automática de fallos de infraestructura en cuestión de minutos, incluso en miles de aceleradores de IA.