Amazon SageMaker Debugger

Optimizar los modelos de ML con el monitoreo en tiempo real de las métricas de entrenamiento y los recursos del sistema

Amazon SageMaker Debugger facilita la optimización de los modelos de machine learning (ML) mediante la captura de métricas de entrenamiento en tiempo real, como la pérdida de datos durante la regresión y el envío de alertas cuando se detectan anomalías. Esto ayuda a rectificar de forma inmediata las predicciones inexactas del modelo, como la identificación incorrecta de una imagen. SageMaker Debugger detiene de forma automática el proceso de entrenamiento cuando se alcanza la precisión deseada, lo que reduce el tiempo y el costo del entrenamiento de los modelos de ML.

Amazon SageMaker Debugger ahora ayuda a entrenar los modelos con más rapidez mediante el perfilado y monitoreo automático del uso de los recursos del sistema y el envío de alertas cuando se identifican cuellos de botella en los recursos, tal como la sobreutilización de las CPU. Puede monitorear y trazar un perfil visual de los recursos del sistema, incluidas las CPU, las GPU, la red y la memoria, durante el entrenamiento dentro de Amazon SageMaker Studio para poder mejorar continuamente el uso de los recursos. SageMaker Debugger correlaciona el uso de los recursos del sistema con las diferentes fases del trabajo de entrenamiento y para puntos específicos en el tiempo durante el entrenamiento y ofrece recomendaciones sobre cómo ajustar el uso de los recursos para ayudar a reasignar los recursos a fin de lograr una máxima eficiencia. El monitoreo y el trazado de perfiles funcionan en todos los principales marcos de aprendizaje profundo, incluidos PyTorch y TensorFlow, sin que sea necesario cambiar el código de los scripts de entrenamiento. El monitoreo y el trazado de perfiles de los recursos del sistema se producen en tiempo real y ayudan a optimizar los modelos de ML con rapidez y a escala.

Detección, análisis y alertas automáticas

Amazon SageMaker Debugger puede reducir la resolución de problemas durante el entrenamiento de días a minutos al detectar errores de entrenamiento comunes, tales como el aumento o la disminución excesiva de valores de gradiente y alertar sobre estos de forma automática para solucionarlos. Las alertas se pueden ver en Amazon SageMaker Studio o se pueden configurar con Amazon CloudWatch. Además, el SDK de SageMaker Debugger permite detectar de forma automática nuevas clases de errores específicos del modelo, como el muestreo de datos, los valores de los hiperparámetros y los valores fuera de los límites.

Monitoreo y trazado de perfiles

Amazon SageMaker Debugger monitorea de forma automática el uso de los recursos del sistema, como las GPU, las CPU, la red, la memoria y traza el perfil de los trabajos de entrenamiento para recopilar métricas detalladas del marco de ML. Con SageMaker Studio, puede inspeccionar visualmente todas las métricas de los recursos. Las anomalías en el uso de los recursos se correlacionan con operaciones específicas para identificar los cuellos de botella, como el uso excesivo de las CPU, de manera que se puedan tomar medidas correctivas con rapidez. Además, se puede descargar un informe detallado para analizarlo sin conexión. El trazado de perfiles de los eventos de entrenamiento se puede realizar tanto al inicio del trabajo de entrenamiento como en cualquier momento en que el entrenamiento esté en marcha.

Análisis integrado

Amazon SageMaker Debugger viene con análisis incorporados que analizan de forma automática los datos emitidos durante el entrenamiento, tales como entradas, salidas y transformaciones conocidas como tensores. Como resultado, se puede detectar si un modelo está ajustado o entrenado de más, si los gradientes son demasiado grandes o demasiado pequeños, si los recursos de la GPU se usan de menos y otros cuellos de botella durante el entrenamiento. Con SageMaker Debugger, también puede crear sus propias condiciones personalizadas para detectar comportamientos específicos en los trabajos de entrenamiento. Estas condiciones pueden invocar acciones como la detención de un trabajo de entrenamiento y el envío de un SMS o email. La detención temprana de los trabajos de entrenamiento ayudará a reducir los costos de entrenamiento de los modelos subóptimos y a desarrollar mejores prototipos con mayor rapidez.

Amplia compatibilidad con los algoritmos de ML y los marcos de DL

Amazon SageMaker Debugger es compatible con los marcos de ML, tales como TensorFlow, PyTorch, Apache MXNet, Keras y XGBoost. Los contenedores incorporados de SageMaker para estos marcos vienen preinstalados con SageMaker Debugger y permiten monitorear, trazar perfiles y depurar los scripts de entrenamiento con facilidad. Por defecto, SageMaker Debugger monitorea el uso del equipo del sistema y las pérdidas durante el entrenamiento sin necesidad de escribir código adicional para monitorear cada recurso por separado.

Integración con AWS Lambda

Amazon SageMaker Debugger se integra con AWS Lambda para que pueda tomar medidas respecto de los resultados de las alertas. Por ejemplo, las funciones de AWS Lambda pueden detener de forma automática un trabajo de entrenamiento cuando se detecta una acción anormal, tal como el aumento continuo de las pérdidas en lugar de su disminución a lo largo del tiempo. AWS Lambda proporciona notificaciones para detener los trabajos de entrenamiento, de manera que pueda reducir los costos y lograr los resultados deseados durante las primeras etapas de desarrollo y entrenamiento de ML.

Clientes

Intel-Mobileye_Logo

Mobileye es líder mundial en tecnología de asistencia al conductor y vehículos autónomos, tecnología que se encuentra en más de 60 millones de vehículos.

“Muchas de las tecnologías de conducción asistida y para vehículos autónomos que desarrollamos en Mobileye, (oficialmente conocida como Mobileye, una empresa de Intel), se basan en el entrenamiento de modelos de redes neuronales profundas para detectar una amplia variedad de artefactos en la carretera, tales como vehículos, peatones, reductores de velocidad, señales de tráfico y más. A veces, estos modelos se entrenan en conjuntos de datos extremadamente grandes, en varios vehículos y durante periodos de hasta varios días. Para nosotros, en Mobileye, es imprescindible contar con un conjunto de herramientas de trazado de perfiles de rendimiento avanzado, para analizar el flujo de datos en los recursos de red, CPU y GPU y para localizar los problemas de rendimiento. La funcionalidad del trazado de perfiles de Amazon SageMaker Debugger hace precisamente eso: toma el trazado de perfiles de rendimiento del dominio de unos pocos expertos especializados y concede a nuestros desarrolladores de algoritmos el poder para que maximicen el uso de los recursos de entrenamiento, aceleren la convergencia del modelo y reduzcan costos”.

Chaim Rand, desarrollador de algoritmos de ML, Mobileye, una empresa de Intel

AutoDesk_Logo

Autodesk es un líder mundial en software de diseño, ingeniería y entretenimiento en 3D. Autodesk ayuda a los usuarios a liberar su creatividad para resolver los retos de diseño y convertir las ideas en realidades.

“En Autodesk, aprovechamos machine learning para mejorar nuestras soluciones de diseño y de fabricación para conceder a nuestros clientes mayor grado de libertad creativa. Mediante machine learning, desarrollamos un nuevo filtro que identifica y agrupa los resultados con características visuales similares para facilitar la búsqueda de las mejores opciones. Amazon SageMaker Debugger nos permite iterar sobre este modelo de forma mucho más eficiente al ayudar a cerrar el bucle de retroalimentación, al ahorrar valioso tiempo de los científicos de datos y al reducir en más de un 75 % las horas de entrenamiento”.

Alexander Carlson, ingeniero de ML, Autodesk

Change-Healthcare_Logo (1)

Change Healthcare es una compañía independiente líder en tecnología de sanidad que ofrece soluciones basadas en datos y análisis para mejorar los resultados clínicos, financieros y de participación del paciente en el sistema sanitario estadounidense.

“En Change Healthcare, trabajamos continuamente con nuestros proveedores de servicios sanitarios para eliminar las ineficiencias en el procesamiento de los reclamos sanitarios. A veces recibimos formularios de reclamos de nuestros proveedores de servicios sanitarios que tienen etiquetas ilegibles y arreglar estos formularios de forma manual agrega tiempo y costos al proceso de resolución de reclamos. Hemos desarrollado un modelo de aprendizaje profundo multicapa que superpone etiquetas y nos ayuda en este proceso. Amazon SageMaker Debugger nos ayuda a mejorar la precisión del modelo con iteraciones rápidas. Con SageMaker Debugger, podemos obtener información más profunda de los tensores, lograr un entrenamiento resistente del modelo, ayudar a detectar inconsistencias en tiempo real y ajustar los parámetros del modelo para obtener mayor precisión”.

Jayant Thomas, director sénior de ingeniería de IA, Change Healthcare

Recursos para Amazon SageMaker Debugger

Train ML models faster with better insights using Amazon SageMaker Debugger (30:22)

Introducción a Amazon SageMaker Debugger