Publicado en: Dec 8, 2020
Nos complace anunciar nuevas capacidades para Amazon SageMaker Debugger con monitoreo en tiempo real de recursos del sistema para una utilización eficiente. Con estas nuevas capacidades, ahora puede obtener recomendaciones automáticas para reasignar recursos a sus trabajos de entrenamiento, lo que le ayudará a entrenar mejor y a reducir el tiempo y los costos.
Amazon SageMaker Debugger es una capacidad de Amazon SageMaker que facilita el entrenamiento de los modelos ML más rápidamente al capturar métricas en tiempo real como los gradientes de aprendizaje y ponderaciones, lo cual proporciona transparencia en el proceso de entrenamiento, para que se puedan corregir anomalías como las pérdidas, el sobreajuste y el sobreentrenamiento. SageMaker Debugger proporciona técnicas incorporadas llamadas reglas para analizar fácilmente los datos emitidos, incluidos los tensores que son fundamentales para el éxito de los trabajos de entrenamiento, tales como identificar por qué su modelo ML está prediciendo una señal de tráfico derecha como izquierda, a pesar de que se entrenó con una precisión de más del 90 %.
Con las nuevas capacidades de perfiles, SageMaker Debugger ahora monitoriza automáticamente los recursos del sistema como CPU, GPU, red, E/S y memoria, lo que proporciona una visión completa de la utilización de los recursos de los trabajos de entrenamiento. También puede hacer un perfil de todo su trabajo de entrenamiento, o partes del mismo, para emitir métricas de marco detalladas durante las diferentes fases del trabajo de entrenamiento. Las métricas del marco son métricas que se capturan desde el programa de entrenamiento, como la duración de los pasos, la carga de datos, el preprocesamiento y el tiempo de ejecución del operador en las CPU y las GPU. SageMaker Debugger correlaciona las métricas del sistema y del marco de trabajo, lo que le ayuda a identificar las posibles causas de raíz de problemas como la utilización de la GPU que se ha reducido a cero para que pueda examinar sus programas de entrenamiento y solucionar los problemas de forma adecuada. Puede reasignar recursos con base en las recomendaciones del informe de elaboración de perfiles, lo que permite mejorar el tiempo de entrenamiento y reducir los costos. Las métricas y la información se capturan y monitorean programáticamente con el SDK de SageMaker Python o visualmente a través de Amazon SageMaker Studio.
Amazon SageMaker Debugger ahora está disponible en general en todas las regiones de AWS en América y Europa, y en algunas regiones de Asia-Pacífico, con nuevas regiones próximamente. Lea la documentación para obtener más información y para el bloc de notas de muestra. Para aprender a utilizar la nueva funcionalidad de perfiles en SageMaker Debugger, visite la publicación del blog.