Depurador de Amazon SageMaker

Optimizar los modelos de ML con el monitoreo en tiempo real de las métricas de entrenamiento y los recursos del sistema

Optimice los modelos de ML con la captura de métricas de entrenamiento en tiempo real y el envío de alertas cuando se detecten anomalías.

Detenga de forma automática procesos de entrenamiento cuando se alcanza la precisión deseada para reducir el tiempo y el costo del entrenamiento de los modelos de ML.
Perfile y monitoree de forma automática la utilización de recursos del sistema y envíe alertas cuando se identifiquen cuellos de botella de recursos para mejorar continuamente la utilización de recursos.

Detección, análisis y alertas automáticas

Amazon SageMaker Debugger puede reducir la resolución de problemas durante el entrenamiento de días a minutos al detectar errores de entrenamiento comunes, tales como el aumento o la disminución excesiva de valores de gradiente y alertar sobre estos de forma automática para solucionarlos. Las alertas se pueden ver en Amazon SageMaker Studio o se pueden configurar con Amazon CloudWatch. Además, el SDK de SageMaker Debugger permite detectar de forma automática nuevas clases de errores específicos del modelo, como el muestreo de datos, los valores de los hiperparámetros y los valores fuera de los límites.

Monitoreo y trazado de perfiles

Amazon SageMaker Debugger monitorea de forma automática el uso de los recursos del sistema, como las GPU, las CPU, la red, la memoria y traza el perfil de los trabajos de entrenamiento para recopilar métricas detalladas del marco de ML. Con SageMaker Studio, puede inspeccionar visualmente todas las métricas de los recursos. Las anomalías en el uso de los recursos se correlacionan con operaciones específicas para identificar los cuellos de botella, como el uso excesivo de las CPU, de manera que se puedan tomar medidas correctivas con rapidez. Además, se puede descargar un informe detallado para analizarlo sin conexión. El trazado de perfiles de los eventos de entrenamiento se puede realizar tanto al inicio del trabajo de entrenamiento como en cualquier momento en que el entrenamiento esté en marcha.

Análisis integrado

Amazon SageMaker Debugger viene con análisis incorporados que analizan de forma automática los datos emitidos durante el entrenamiento, tales como entradas, salidas y transformaciones conocidas como tensores. Como resultado, se puede detectar si un modelo está ajustado o entrenado de más, si los gradientes son demasiado grandes o demasiado pequeños, si los recursos de la GPU se usan de menos y otros cuellos de botella durante el entrenamiento. Con SageMaker Debugger, también puede crear sus propias condiciones personalizadas para detectar comportamientos específicos en los trabajos de entrenamiento. Estas condiciones pueden invocar acciones como la detención de un trabajo de entrenamiento y el envío de un SMS o email. La detención temprana de los trabajos de entrenamiento ayudará a reducir los costos de entrenamiento de los modelos subóptimos y a desarrollar mejores prototipos con mayor rapidez.

Amplia compatibilidad con los algoritmos de ML y los marcos de DL

Amazon SageMaker Debugger es compatible con los marcos de ML, tales como TensorFlow, PyTorch, Apache MXNet, Keras y XGBoost. Los contenedores incorporados de SageMaker para estos marcos vienen preinstalados con SageMaker Debugger y permiten monitorear, trazar perfiles y depurar los scripts de entrenamiento con facilidad. Por defecto, SageMaker Debugger monitorea el uso del equipo del sistema y las pérdidas durante el entrenamiento sin necesidad de escribir código adicional para monitorear cada recurso por separado.

Integración con AWS Lambda

Amazon SageMaker Debugger se integra con AWS Lambda para que pueda tomar medidas respecto de los resultados de las alertas. Por ejemplo, las funciones de AWS Lambda pueden detener de forma automática un trabajo de entrenamiento cuando se detecta una acción anormal, tal como el aumento continuo de las pérdidas en lugar de su disminución a lo largo del tiempo. AWS Lambda proporciona notificaciones para detener los trabajos de entrenamiento, de manera que pueda reducir los costos y lograr los resultados deseados durante las primeras etapas de desarrollo y entrenamiento de ML.

Clientes

Mobileye

Mobileye es líder mundial en tecnología de asistencia al conductor y vehículos autónomos, tecnología que se encuentra en más de 60 millones de vehículos.

“Muchas de las tecnologías de conducción asistida y para vehículos autónomos que desarrollamos en Mobileye, (oficialmente conocida como Mobileye, una empresa de Intel), se basan en el entrenamiento de modelos de redes neuronales profundas para detectar una amplia variedad de artefactos en la carretera, tales como vehículos, peatones, reductores de velocidad, señales de tráfico y más. A veces, estos modelos se entrenan en conjuntos de datos extremadamente grandes, en varios vehículos y durante periodos de hasta varios días. Para nosotros, en Mobileye, es imprescindible contar con un conjunto de herramientas de trazado de perfiles de rendimiento avanzado, para analizar el flujo de datos en los recursos de red, CPU y GPU y para localizar los problemas de rendimiento. La funcionalidad del trazado de perfiles de Amazon SageMaker Debugger hace precisamente eso: toma el trazado de perfiles de rendimiento del dominio de unos pocos expertos especializados y concede a nuestros desarrolladores de algoritmos el poder para que maximicen el uso de los recursos de entrenamiento, aceleren la convergencia del modelo y reduzcan costos”.

Chaim Rand, desarrollador de algoritmos de ML, Mobileye, una empresa de Intel

Autodesk

Autodesk es un líder mundial en software de diseño, ingeniería y entretenimiento en 3D. Autodesk ayuda a los usuarios a liberar su creatividad para resolver los retos de diseño y convertir las ideas en realidades.

“En Autodesk, aprovechamos machine learning para mejorar nuestras soluciones de diseño y de fabricación para conceder a nuestros clientes mayor grado de libertad creativa. Mediante machine learning, desarrollamos un nuevo filtro que identifica y agrupa los resultados con características visuales similares para facilitar la búsqueda de las mejores opciones. Amazon SageMaker Debugger nos permite iterar sobre este modelo de forma mucho más eficiente al ayudar a cerrar el bucle de retroalimentación, al ahorrar valioso tiempo de los científicos de datos y al reducir en más de un 75 % las horas de entrenamiento”.

Alexander Carlson, ingeniero de ML, Autodesk

Change Healthcare

Change Healthcare es una compañía independiente líder en tecnología de sanidad que ofrece soluciones basadas en datos y análisis para mejorar los resultados clínicos, financieros y de participación del paciente en el sistema sanitario estadounidense.

“En Change Healthcare, trabajamos continuamente con nuestros proveedores de servicios sanitarios para eliminar las ineficiencias en el procesamiento de los reclamos sanitarios. A veces recibimos formularios de reclamos de nuestros proveedores de servicios sanitarios que tienen etiquetas ilegibles y arreglar estos formularios de forma manual agrega tiempo y costos al proceso de resolución de reclamos. Hemos desarrollado un modelo de aprendizaje profundo multicapa que superpone etiquetas y nos ayuda en este proceso. Amazon SageMaker Debugger nos ayuda a mejorar la precisión del modelo con iteraciones rápidas. Con SageMaker Debugger, podemos obtener información más profunda de los tensores, lograr un entrenamiento resistente del modelo, ayudar a detectar inconsistencias en tiempo real y ajustar los parámetros del modelo para obtener mayor precisión”.

Jayant Thomas, director sénior de Ingeniería de IA, Change Healthcare

Recursos

video

Entrene modelos de ML con mayor rapidez y mejor información gracias al depurador de Amazon SageMaker (30:22)