Publicado en: Mar 11, 2024

El servicio de información de contenedores de Amazon CloudWatch con observabilidad mejorada para EKS ahora detecta automáticamente las métricas críticas de estado y rendimiento de las GPU de NVIDIA y las incluye en paneles automáticos para permitir un aislamiento de problemas y una solución de problemas más rápidos para sus cargas de trabajo de inteligencia artificial y machine learning. El servicio de información de contenedores con observabilidad mejorada le ofrece tendencias y patrones listos para usar sobre el estado de su infraestructura y elimina la sobrecarga de la configuración manual de paneles y alarmas, lo que le permite ahorrar tiempo y esfuerzo.

Gracias a la observabilidad mejorada del servicio de información de contenedores, ahora puede saber fácilmente si las GPU y la memoria de sus instancias aceleradas están en buen estado y asegurarse de que sus trabajos de entrenamiento siguen siendo eficaces. Puede identificar fácilmente los errores y desglosarlos rápidamente para detectar la causa raíz y, al mismo tiempo, minimizar las interrupciones prolongadas en sus trabajos de entrenamiento. El servicio de información de contenedores mejorada ofrece una observabilidad de computación acelerada en visualizaciones seleccionadas y le permite monitorear fácilmente la eficiencia con la que sus modelos de entrenamiento distribuidos consumen sus recursos y optimizar sus asignaciones en consecuencia.

Comenzar con la observabilidad de computación acelerada es fácil. Puede incorporar el servicio de información de contenedores mejorada mediante la instalación del complemento observabilidad de CloudWatch en sus clústeres o instalando manualmente el agente de CloudWatch para mejorar la observabilidad. Una vez configurado, puede acceder a la consola de información de contenedores y ver su telemetría de GPU de NVIDIA lista para usar.

Las métricas de GPU de NVIDIA ya están disponibles en la información de contenedores con observabilidad mejorada para EKS en todas las regiones públicas de AWS, incluidas las regiones de AWS GovCloud (EE. UU.) y China. Las métricas de las GPU de NVIDIA siguen los precios basados en la observación. Consulte la página de precios del servicio información de contenedores para obtener más detalles. Para conocer más información, consulte la guía del usuario de información de contenedores.

22/04/- La publicación se ha actualizado para dar instrucciones sobre la experiencia de inicio manual.