Información de contenedores anuncia ahora la observabilidad del estado de los nodos de SageMaker HyperPod en EKS
La información de contenedores de Amazon CloudWatch ahora descubre automáticamente el estado de los nodos HyperPod de SageMaker que se ejecutan en EKS y los visualiza en paneles seleccionados para ayudarlo a supervisar la disponibilidad de los nodos a fin de lograr la excelencia operativa. Con los paneles listos para usar, puede identificar fácilmente los nodos en mal estado y mitigarlos rápidamente para lograr una duración de entrenamiento eficiente.
La Información de contenedores (Container Insights) trabaja con SageMaker para recopilar los resultados de las pruebas exhaustivas sobre la comprobación del estado de los nodos de HyperPod y los muestra en paneles preestablecidos para ayudarlo a comprender el estado y el rendimiento de sus nodos e identificar si están listos para la programación. La Información de contenedores lo ayuda a optimizar la duración del entrenamiento al clasificar los nodos que fallan como “pendientes de reinicio” y “pendientes de reemplazo”, y le guía para mantener el estado de los nodos en caso de que el reemplazo automático de nodos esté deshabilitado. Si la recuperación automática está habilitada, puede ver las mutaciones de los nodos y los retrasos en sus trabajos de entrenamiento y comprender cómo se reanudan sus tareas desde el último punto de control.
Comenzar a usar Información de Contenedores es fácil. Puede incorporarlo instalando el complemento EKS de CloudWatch Observability o el agente de CloudWatch más reciente en sus clústeres, o actualizando sus gráficos de Helm con la versión más reciente del Agente de CloudWatch. Una vez configurado, puede ir a la consola de Información de contenedores y ver el estado del nodo Hyperpod de SageMaker listo para usar.
La observabilidad del estado de los nodos de SageMaker HyperPod ya está disponible en la información de contenedores para EKS en todas las regiones comerciales en las que esté presente SageMaker HyperPod. Las métricas del estado de HyperPod siguen los precios basados en la observación. Consulte la página de precios del servicio información de contenedores para obtener más detalles. Para conocer más información, consulte la guía del usuario de información de contenedores.