Características de Amazon SageMaker HyperPod

Escale y acelere el desarrollo de los modelos de IA generativa en miles de aceleradores de IA.

Gobernanza de tareas

Amazon SageMaker HyperPod ofrece visibilidad y control completos sobre la asignación de recursos de computación en todas las etapas del desarrollo de modelos de IA generativa, como el entrenamiento y la inferencia. SageMaker HyperPod administra automáticamente las colas de tareas, lo que garantiza que se prioricen las tareas más críticas y, al mismo tiempo, utiliza los recursos de computación de manera más eficiente para reducir los costos de desarrollo de modelos. En pocos pasos, los administradores pueden definir las prioridades de las diferentes tareas y establecer límites para la cantidad de recursos de computación que puede usar cada equipo o proyecto. A continuación, los científicos de datos y los desarrolladores crean tareas (por ejemplo, una ejecución del entrenamiento, el refinamiento de un modelo en particular o la realización de predicciones en un modelo entrenado) que SageMaker HyperPod ejecuta automáticamente, respetando los límites de recursos de computación y las prioridades que el administrador establece. Cuando una tarea de alta prioridad debe completarse inmediatamente, pero todos los recursos de computación están en uso, SageMaker HyperPod libera de forma automática los recursos de computación de tareas de menor prioridad. Además, SageMaker HyperPod utiliza automáticamente los recursos de computación inactivos para acelerar las tareas en espera. SageMaker HyperPod ofrece un panel en el que los administradores pueden supervisar y auditar las tareas que se están ejecutando o esperando recursos de computación.

Más información

Planes de entrenamiento flexibles

Para cumplir con los plazos y presupuestos de entrenamiento, SageMaker HyperPod lo ayuda a crear los planes de entrenamiento más rentables que utilizan los recursos de computación de varios bloques de capacidad de computación. Una vez que usted aprueba los planes de entrenamiento, SageMaker HyperPod aprovisiona automáticamente la infraestructura y ejecuta los trabajos de entrenamiento en estos recursos de computación sin necesidad alguna de intervención manual. Ahorra semanas de esfuerzo al administrar el proceso de entrenamiento para alinear los trabajos con la disponibilidad de computación.

Más información

 

Recetas optimizadas

Las recetas de SageMaker HyperPod ayudan a los científicos de datos y a los desarrolladores de todos los conjuntos de habilidades a beneficiarse de un rendimiento de vanguardia y, al mismo tiempo, empezar a entrenar y refinar rápidamente los modelos de IA generativa disponibles al público, incluidos Llama 3.1 405B, Mixtral 8x22B y Mistral 7B. Cada receta incluye una pila de entrenamiento que AWS ha probado, lo que elimina semanas de tedioso trabajo de prueba de diferentes configuraciones de modelos. Puede cambiar entre instancias basadas en GPU e instancias basadas en AWS Trainium con un cambio de receta de una línea, y habilitar los puntos de control automatizados del modelo para mejorar la resiliencia del entrenamiento y ejecutar cargas de trabajo en producción en SageMaker HyperPod.

 

Entrenamiento distribuido de alto rendimiento

SageMaker HyperPod acelera el entrenamiento distribuido mediante la división automática de los modelos y conjuntos de datos de entrenamiento en los aceleradores de AWS. Lo ayuda a optimizar su trabajo de entrenamiento para la infraestructura de red y la topología de clústeres de AWS. Además, sirve para optimizar los puntos de control de los modelos, ya que mejora la frecuencia con la que se guardan los puntos de control, lo que garantiza una sobrecarga mínima durante el entrenamiento.

Herramientas avanzadas de experimentación y observabilidad

Puede utilizar las herramientas de IA integradas en SageMaker HyperPod para mejorar el rendimiento del modelo. Por ejemplo, TensorBoard administrado en SageMaker ayuda a ahorrar tiempo de desarrollo, ya que le permite visualizar la arquitectura del modelo para identificar y solucionar problemas de convergencia. La integración con Información de contenedores de Amazon CloudWatch proporciona información más detallada sobre el rendimiento, el estado y el uso de los clústeres. MLflow administrado en SageMaker lo ayuda a administrar los experimentos a escala de manera eficiente.

Programación y orquestación de la carga de trabajo

La interfaz de usuario de SageMaker HyperPod es altamente personalizable con Slurm o Amazon Elastic Kubernetes Service (Amazon EKS). Puede seleccionar e instalar los marcos o herramientas que necesite. Todos los clústeres se aprovisionan con el tipo y el número de instancias que elija, y se retienen para su uso en todas las cargas de trabajo. Gracias a la compatibilidad con Amazon EKS en SageMaker HyperPod, puede administrar y operar clústeres con una experiencia de administrador coherente basada en Kubernetes. Ejecute y escale las cargas de trabajo de manera eficiente, desde el entrenamiento hasta el ajuste y la inferencia. También, puede compartir la capacidad de cómputo y cambiar entre Slurm y Amazon EKS para diferentes tipos de cargas de trabajo.

Comprobación de estado y reparación automáticas del estado del clúster

Si alguna instancia se vuelve defectuosa durante la carga de trabajo de desarrollo de un modelo, SageMaker HyperPod detecta y soluciona automáticamente los problemas de infraestructura. Para detectar equipos defectuosos, SageMaker HyperPod ejecuta con regularidad una serie de comprobaciones de estado para el acelerador y la integridad de la red.