Amazon SageMaker HyperPod ahora ofrece observabilidad integral para los grupos de instancias restringidos
Amazon SageMaker HyperPod ahora ofrece observabilidad integral para los grupos de instancias restringidos (Restricted Instance Groups, RIG), lo que permite a los equipos que entrenan modelos fundacionales con Nova Forge obtener una amplia visibilidad de sus recursos de cómputo y cargas de trabajo de entrenamiento. Esta nueva funcionalidad elimina el esfuerzo manual que supone recopilar y correlacionar métricas en toda la pila de infraestructura, y ofrece una vista unificada del rendimiento de las GPU (Graphics Processing Unit, unidades de procesamiento gráfico), el estado del sistema, el rendimiento de la red y el estado del clúster de Kubernetes mediante un panel preconfigurado de Amazon Managed Grafana, respaldado por Amazon Managed Service para Prometheus.
Ahora puede supervisar el uso de las GPU, el ancho de banda de NVLink, la presión de la CPU, el uso de FSx para Lustre y el ciclo de vida de los pods desde un solo panel de Grafana, con métricas recopiladas en cuatro exportadores que abarcan el rendimiento de las GPU, el estado del sistema a nivel de host, el tejido de la red y el estado de los objetos de Kubernetes. Además, los registros seleccionados se muestran automáticamente en estos paneles, que incluyen el progreso de la época, los registros de entrenamiento escalonados, los errores de canalización y la información de seguimiento de Python, para que pueda diagnosticar rápidamente los errores de entrenamiento. La observabilidad de HyperPod para grupos de instancias restringidos se habilita automáticamente al crear un nuevo clúster con los RIG, o se puede habilitar para los clústeres existentes con unos pocos clics en la consola de administración de clústeres de HyperPod.
La observabilidad de los RIG de Amazon SageMaker HyperPod está disponible en todas las regiones de AWS en las que se admiten los RIG de SageMaker HyperPod. Para obtener más información, consulte la documentación.