Publicado: Dec 8, 2020
Temos o prazer de anunciar novos recursos para o Amazon SageMaker Debugger com monitoramento em tempo real de recursos do sistema para uma utilização eficiente. Com esses novos recursos, agora você pode obter recomendações automáticas para realocar recursos em seus trabalhos de treinamento, ajudando você a treinar melhor e a reduzir tempo e custos.
O Amazon SageMaker Debugger é um recurso do Amazon SageMaker que torna mais fácil treinar modelos de ML com mais rapidez, capturando métricas em tempo real, como gradientes e pesos de aprendizado, proporcionando transparência no processo de treinamento para que você possa corrigir anomalias como perdas, sobreajuste e excesso de treinamento. O SageMaker Debugger fornece técnicas integradas denominadas regras para analisar facilmente os dados emitidos, incluindo tensores que são críticos para o sucesso dos trabalhos de treinamento, como identificar por que seu modelo de ML está prevendo um sinal de trânsito direito como esquerdo embora tenha sido treinado com mais de 90% de precisão.
Com novos recursos de criação de perfil, o SageMaker Debugger agora monitora automaticamente os recursos do sistema, como CPU, GPU, rede, E/S e memória, fornecendo uma visão completa da utilização de recursos dos trabalhos de treinamento. Você também pode criar o perfil de todo o trabalho de treinamento, ou partes dele, para emitir métricas de estrutura de trabalho detalhadas durante as diferentes fases do trabalho de treinamento. As métricas de estrutura de trabalho são aquelas capturadas no script de treinamento, como duração da etapa, carregamento de dados, pré-processamento e tempo de execução do operador em CPUs e GPUs. O SageMaker Debugger correlaciona as métricas do sistema e da estrutura de trabalho, o que ajuda a identificar possíveis causas raiz para problemas como a utilização da GPU caindo a zero. Assim, você pode inspecionar seus scripts de treinamento e solucionar os problemas de forma adequada. Você pode realocar recursos com base nas recomendações do relatório de criação de perfil, resultando na melhoria do tempo de treinamento e na redução de custos. Métricas e insights são capturados e monitorados programaticamente usando o SageMaker Python SDK ou visualmente por meio do Amazon SageMaker Studio.
O Amazon SageMaker Debugger agora está disponível em todas as regiões da AWS nas Américas e na Europa e em algumas regiões da Ásia-Pacífico. Novas regiões serão incluídas em breve. Consulte a documentação para obter mais informações e blocos de anotações de amostra. Para saber como usar a nova funcionalidade de criação de perfis no SageMaker Debugger, visite a publicação no blog.