Publicado: Sep 21, 2022
Hoje, temos o prazer de anunciar que o Amazon SageMaker Autopilot adicionou um novo modo de treinamento que oferece suporte ao modelo Ensemble baseado no AutoGluon. Para conjuntos de dados moderadamente grandes (< 100 MB), o modo de treinamento Ensemble cria rapidamente modelos de machine learning (ML) de alta precisão, sendo até oito vezes mais rápido que o modo de treinamento atual Hyperparameter Optimization (HPO – Otimização de hiperparâmetros) com 250 testes. O Amazon SageMaker Autopilot cria, treina e ajusta automaticamente os melhores modelos de ML com base em seus dados, permitindo que você mantenha controle e visibilidade totais. O modo HPO atual usa uma combinação de valores de hiperparâmetros para maximizar a precisão de um único modelo. No entanto, quando um único modelo não consegue capturar as características complexas dos dados, a combinação ou montagem (ensemble) das previsões de diversos modelos pode melhorar consideravelmente a precisão geral do modelo.
O modo de treinamento Ensemble do Amazon SageMaker Autopilot usa o AutoGluon para treinar vários modelos básicos e combina as previsões usando empilhamento de modelos. O novo modo oferece suporte a uma grande variedade de algoritmos, como LightGBM, CatBoost, XGBoost, Random Forest, Extra Trees, Linear Models e Neural Networks baseados em PyTorch e FastAI. Para avaliar os ganhos de performance do modo Ensemble em relação ao modo HPO, usamos vários conjuntos de dados de referência do OpenML com até 100 MB. Com base nos resultados, os trabalhos de treinamento no modo Ensemble em conjuntos de dados menores (menos que 1 MB) conseguiram uma melhoria geral de tempo de execução de trabalhos do SageMaker Autopilot de até 8 vezes em relação ao modo HPO com 250 testes (média de 120 minutos para 15 minutos) e de 5,8 vezes em relação ao modo HPO com 100 testes. Conjuntos de dados médios (de 1 a 10 MB) e grandes (de 10 a 100 MB) conseguiram uma melhoria geral de tempo de execução de respectivamente 5 e 2,5 vezes em relação ao HPO com 250 testes, com uma precisão aproximadamente 1,9% maior.
Para começar a usar, crie um experimento do SageMaker Autopilot no console do SageMaker Studio e selecione o modo de treinamento Ensemble ou permita que o SageMaker Autopilot escolha automaticamente o modo de treinamento de acordo com o tamanho do conjunto de dados. Você pode consultar o guia de referência da API createAutoMLJob para ver as alterações da API e atualizar para a versão mais recente do SageMaker Studio para usar o novo modo de treinamento Ensemble. Para obter mais informações sobre esse recurso, consulte o guia do desenvolvedor. Para saber mais sobre o SageMaker Autopilot, acesse a página do produto.