Saltar al contenido principal

Características de Amazon SageMaker HyperPod

Escale y acelere el desarrollo de los modelos de IA generativa en miles de aceleradores de IA

Entrenamiento sin puntos de control

El entrenamiento sin puntos de control en Amazon SageMaker HyperPod permite la recuperación automática de fallos de infraestructura en cuestión de minutos sin intervención manual. Reduce la necesidad de un reinicio a nivel de trabajo basado en puntos de control para la recuperación de errores, lo que requiere pausar todo el clúster, corregir los problemas y recuperarse de un punto de control guardado. El entrenamiento sin puntos de control mantiene el progreso del entrenamiento a pesar de los errores, ya que SageMaker HyperPod intercambia de manera automática los componentes defectuosos y recupera el entrenamiento mediante la transferencia entre pares de los estados del modelo y el optimizador desde aceleradores de IA en buen estado. Permite más del 95 % de los entrenamientos en clústeres con miles de aceleradores de IA. Con el entrenamiento sin puntos de control, ahorre millones en costos de computación, escale el entrenamiento a miles de aceleradores de IA y lleve sus modelos a la fase de producción más rápido.

Más información

Entrenamiento elástico

El entrenamiento elástico en Amazon SageMaker HyperPod escala de manera automática los trabajos de entrenamiento en función de la disponibilidad de los recursos de computación, lo que supone ahorrar horas de ingeniería por semana que antes se dedicaban a reconfigurar los trabajos de entrenamiento. La demanda de aceleradores de IA fluctúa constantemente a medida que las cargas de trabajo de inferencia escalan con los patrones de tráfico, los experimentos completados liberan recursos y los nuevos trabajos de entrenamiento cambian las prioridades de la carga de trabajo. SageMaker HyperPod amplía de forma dinámica los trabajos de entrenamiento en ejecución para absorber los aceleradores de IA inactivos y maximizar la utilización de la infraestructura. Cuando las cargas de trabajo de mayor prioridad, como la inferencia o la evaluación, necesitan recursos, la de entrenamiento se desescala verticalmente para continuar con menos recursos sin detenerse por completo, lo que brinda la capacidad requerida en función de las prioridades establecidas a través de las políticas de gobernanza de tareas. El entrenamiento elástico le ayuda a acelerar el desarrollo de modelos de IA y, al mismo tiempo, a reducir los sobrecostos derivados de la computación infrautilizada.

Más información

Gobernanza de tareas

Amazon SageMaker HyperPod ofrece visibilidad y control completos sobre la asignación de recursos de computación en todas las etapas del desarrollo de modelos de IA generativa, como el entrenamiento y la inferencia. SageMaker HyperPod administra de manera automática las colas de tareas, lo que garantiza que se prioricen las tareas más críticas y, al mismo tiempo, utiliza los recursos de computación de manera más eficiente para reducir los costos de desarrollo de modelos. En pocos pasos, los administradores pueden definir las prioridades de las diferentes tareas y establecer límites para la cantidad de recursos de computación que puede usar cada equipo o proyecto. A continuación, los científicos de datos y los desarrolladores crean tareas (por ejemplo, una ejecución del entrenamiento, el refinamiento de un modelo en particular o la realización de predicciones en un modelo entrenado) que SageMaker HyperPod ejecuta de manera automática, respetando los límites de recursos de computación y las prioridades que el administrador establece. Cuando una tarea de alta prioridad debe completarse inmediatamente, pero todos los recursos de computación están en uso, SageMaker HyperPod libera de forma automática los recursos de computación de tareas de menor prioridad. Además, SageMaker HyperPod utiliza de manera automática los recursos de computación inactivos para acelerar las tareas en espera. SageMaker HyperPod ofrece un panel en el que los administradores pueden supervisar y auditar las tareas que se están ejecutando o esperando recursos de computación.

Planes de entrenamiento flexibles

Para cumplir con los plazos y presupuestos de entrenamiento, SageMaker HyperPod lo ayuda a crear los planes de entrenamiento más rentables que utilizan los recursos de computación de varios bloques de capacidad de computación. Una vez que usted aprueba los planes de entrenamiento, SageMaker HyperPod aprovisiona de manera automática la infraestructura y ejecuta los trabajos de entrenamiento en estos recursos de computación sin necesidad alguna de intervención manual. Ahorra semanas de esfuerzo al administrar el proceso de entrenamiento para alinear los trabajos con la disponibilidad de computación.

Instancias de spot de Amazon SageMaker HyperPod

Las instancias de spot de SageMaker HyperPod le permiten acceder a capacidad de computación con costos significativamente reducidos. Las instancias de spot son ideales para cargas de trabajo tolerantes a errores, como los trabajos de inferencia por lotes. Los precios varían según la región y el tipo de instancia y, por lo general, ofrecen un descuento de hasta el 90% en comparación con los precios de SageMaker HyperPod bajo demanda. Amazon EC2 define los precios de las instancias de spot y estos se ajustan gradualmente en función de las tendencias a largo plazo de la oferta y la demanda de capacidad de este tipo de instancia. Usted paga el precio de spot que esté en vigor durante el período de ejecución de sus instancias, sin necesidad de ningún compromiso por adelantado. Para obtener más información sobre los precios estimados de las instancias de spot y la disponibilidad de las instancias, visite la página de precios de las instancias de spot de EC2. Tenga en cuenta que solo las instancias que también son compatibles con HyperPod están disponibles para el uso de spot en HyperPod.

Recetas optimizadas para personalizar modelos

Con las recetas de SageMaker HyperPod, los científicos de datos y desarrolladores de todos los niveles de habilidad se benefician de un rendimiento de vanguardia y pueden empezar a entrenar y ajustar con rapidez los modelos fundacionales disponibles al público, incluidos los modelos Llama, Mixtral, Mistral y DeepSeek. Además, puede personalizar los modelos de Amazon Nova, incluidos Nova Micro, Nova Lite y Nova Pro, mediante un conjunto de técnicas que incluyen ajuste fino supervisado (SFT), destilación del conocimiento, optimización de preferencias directas (DPO), optimización de políticas próximas y entrenamiento previo continuo, con soporte para opciones de entrenamiento eficiente en parámetros como de entrenamiento del modelo completo en SFT, destilación y DPO. Cada receta incluye una pila de entrenamiento que AWS ha probado, lo que le ahorra semanas de tedioso trabajo de prueba de diferentes configuraciones de modelos. Puede cambiar entre instancias basadas en GPU e instancias basadas en AWS Trainium con un cambio de receta de una línea, y habilitar los puntos de control automatizados del modelo para mejorar la resiliencia del entrenamiento y ejecutar cargas de trabajo en producción en SageMaker HyperPod.

Amazon Nova Forge es un programa único en su especie que ofrece a las organizaciones la forma más fácil y rentable de crear sus propios modelos de frontera con Nova. Acceda a los puntos de control intermedios de los modelos Nova y entrénelos desde ellos, combine conjuntos de datos seleccionados por Amazon con datos patentados durante el entrenamiento y utilice las recetas de SageMaker HyperPod para entrenar sus propios modelos. Con Nova Forge, puede usar sus propios datos empresariales para desbloquear mejoras de inteligencia y precio-rendimiento específicas para cada caso de uso para sus tareas.

Más información

Entrenamiento distribuido de alto rendimiento

SageMaker HyperPod acelera el entrenamiento distribuido mediante la división automática de los modelos y conjuntos de datos de entrenamiento en los aceleradores de AWS. Lo ayuda a optimizar su trabajo de entrenamiento para la infraestructura de red y la topología de clústeres de AWS. Además, sirve para optimizar los puntos de control de los modelos, ya que mejora la frecuencia con la que se guardan los puntos de control, lo que garantiza una sobrecarga mínima durante el entrenamiento.

Herramientas avanzadas de observabilidad y experimentación

La observabilidad de SageMaker HyperPod proporciona un panel unificado preconfigurado en Amazon Managed Grafana; los datos de supervisión se publican automáticamente en un espacio de trabajo de Prometheus administrado por Amazon. Puede ver las métricas de rendimiento en tiempo real, el uso de los recursos y el estado de los clústeres en una sola vista, lo que permite a los equipos detectar con rapidez los cuellos de botella, evitar demoras costosas y optimizar los recursos de computación. SageMaker HyperPod también está integrado con Información de contenedores de Amazon CloudWatch, que proporciona información más detallada sobre el rendimiento, el estado y el uso de los clústeres. TensorBoard administrado en SageMaker ayuda a ahorrar tiempo de desarrollo, ya que le permite visualizar la arquitectura del modelo para identificar y solucionar problemas de convergencia. MLflow administrado en SageMaker le permite administrar los experimentos a escala de manera eficiente.

Screenshot of a GPU cluster dashboard displaying metrics and performance data for HyperPod, including GPU temperature, power usage, memory usage, NVLink bandwidth, and cluster alerts.

Programación y orquestación de la carga de trabajo

La interfaz de usuario de SageMaker HyperPod es altamente personalizable con Slurm o Amazon Elastic Kubernetes Service (Amazon EKS). Puede seleccionar e instalar los marcos o herramientas que necesite. Todos los clústeres se aprovisionan con el tipo y el número de instancias que elija, y se retienen para su uso en todas las cargas de trabajo. Gracias a la compatibilidad con Amazon EKS en SageMaker HyperPod, puede administrar y operar clústeres con una experiencia de administrador coherente basada en Kubernetes. Ejecute y escale las cargas de trabajo de manera eficiente, desde el entrenamiento hasta el ajuste y la inferencia. También, puede compartir la capacidad de cómputo y cambiar entre Slurm y Amazon EKS para diferentes tipos de cargas de trabajo.

Comprobación de estado y reparación automáticas del estado del clúster

Si alguna instancia se vuelve defectuosa durante la carga de trabajo de desarrollo de un modelo, SageMaker HyperPod detecta y soluciona de manera automática los problemas de infraestructura. Para detectar equipos defectuosos, SageMaker HyperPod ejecuta con regularidad una serie de comprobaciones de estado para comprobar la integridad del acelerador y de la red.

Acelere las implementaciones de modelos de peso abierto desde SageMaker Jumpstart

SageMaker HyperPod agiliza automáticamente la implementación de modelos fundacionales de peso abierto de SageMaker JumpStart y de modelos refinados de Amazon S3 y Amazon FSx. SageMaker HyperPod aprovisiona automáticamente la infraestructura requerida y configura los puntos de enlace, lo que elimina el aprovisionamiento manual. Gracias a la gobernanza de tareas de SageMaker HyperPod, el tráfico de los puntos de enlace se supervisa de forma continua y los recursos de computación se ajustan dinámicamente, mientras que al mismo tiempo se publican métricas de rendimiento completas en el panel de observabilidad para su supervisión y optimización en tiempo real.

Screenshot of the deployment settings for deploying a model endpoint using SageMaker HyperPod in SageMaker Studio. The interface shows fields for deployment name, HyperPod cluster selection, instance type, namespace, auto-scaling options, and the model being deployed. Used for large-scale inference with pre-provisioned compute.

Puntos de control administrados por niveles

Los puntos de control administrados por niveles de SageMaker HyperPod utilizan la memoria de la CPU para almacenar los puntos de control frecuentes para una recuperación rápida y, al mismo tiempo, conservar los datos de forma periódica en Amazon Simple Storage Service (Amazon S3) para tener una mayor durabilidad a largo plazo. Este enfoque híbrido minimiza la pérdida de entrenamiento y reduce significativamente el tiempo necesario para reanudar después de un error. Los clientes pueden configurar políticas de retención y frecuencia de puntos de control en los niveles de almacenamiento persistente y en memoria. Al almacenar con frecuencia en la memoria, los clientes pueden recuperarse con rapidez y, al mismo tiempo, minimizar los costos de almacenamiento. Al integrarse con el punto de control distribuido (DCP) de PyTorch, los clientes pueden implementar fácilmente los puntos de control con solo unas pocas líneas de código y, al mismo tiempo, obtener los beneficios de rendimiento del almacenamiento en memoria.

Más información

Maximice la utilización de los recursos con el particionado de GPU

SageMaker HyperPod permite a los administradores dividir los recursos de la GPU en unidades de computación más pequeñas y aisladas para maximizar la utilización de la GPU. Puede ejecutar diversas tareas de IA generativa en una sola GPU en lugar de dedicar GPU completas a tareas que solo necesitan una fracción de los recursos. Con las métricas de rendimiento en tiempo real y la supervisión del uso de los recursos en las particiones de la GPU, obtendrá visibilidad sobre cómo las tareas utilizan los recursos de computación. Esta asignación optimizada y la configuración simplificada aceleran el desarrollo de la IA generativa, mejoran la utilización de la GPU y brindan un uso eficaz de los recursos de la GPU en todas las tareas a escala.

¿Ha encontrado lo que buscaba hoy?

Ayúdenos a mejorar la calidad del contenido de nuestras páginas compartiendo sus comentarios