Amazon SageMaker HyperPod presenta una depuración mejorada de scripts del ciclo de vida
Amazon SageMaker HyperPod ahora ofrece capacidades de solución de problemas mejoradas para los scripts del ciclo de vida, lo que facilita la identificación y la resolución de problemas durante el aprovisionamiento de nodos del clúster. SageMaker HyperPod lo ayuda a aprovisionar clústeres resilientes para ejecutar cargas de trabajo de IA/ML y desarrollar modelos de última generación, como modelos de lenguaje de gran tamaño (LLM), modelos de difusión y modelos fundacionales (FM).
Cuando los scripts del ciclo de vida encuentran problemas durante la creación del clúster o las operaciones de los nodos, ahora recibe mensajes de error detallados que incluyen los nombres específicos de los grupos de registros y flujos de registros de CloudWatch, donde puede encontrar los registros de ejecución de los scripts del ciclo de vida. Puede ver estos mensajes de error ejecutando la API DescribeCluster o consultando la página de detalles del clúster en la consola de SageMaker. La consola también incluye el botón “View lifecycle script logs” (Ver los registros de scripts del ciclo de vida), que permite acceder directamente al flujo de registros de CloudWatch correspondiente. De este modo, la localización de los registros es más fácil. Además, los registros de CloudWatch para los scripts del ciclo de vida ahora incluyen marcadores específicos para ayudarlo a realizar un seguimiento del progreso de la ejecución de los scripts del ciclo de vida, incluidos indicadores sobre cuándo comienza el registro de los scripts del ciclo de vida, cuándo se descargan los scripts, cuándo se completan las descargas y cuándo los scripts tienen éxito o fallan. Estos marcadores le ayudan a identificar rápidamente dónde se produjeron los problemas durante el proceso de aprovisionamiento. Estas mejoras reducen el tiempo necesario para diagnosticar y corregir los errores de los scripts del ciclo de vida, lo que le ayuda a poner en marcha sus clústeres de HyperPod con mayor rapidez.
Esta característica está disponible en todas las regiones de AWS en las que Amazon SageMaker HyperPod está disponible. Para obtener más información, consulte Administración de clústeres de HyperPod de SageMaker en la Guía para desarrolladores de Amazon SageMaker.