Publicado: Jul 8, 2022
Agora, o treinamento de modelos do Amazon SageMaker oferece suporte a clusters heterogêneos, que permitem lançar trabalhos de treinamento que usam várias instâncias em um único trabalho. Esse novo recurso pode reduzir o custo de treinamento, executando partes diferentes do treinamento de modelos nos tipos de instância mais adequados. Por exemplo, treinamos recentemente um modelo de visão computadorizada ResNet-50 em um cluster heterogêneo com instâncias ml.g5.xl e ml.c5n.2xl. Esse trabalho de treinamento teve um custo 13% inferior ao treinamento do mesmo modelo com a mesma precisão em um cluster somente com instâncias ml.g5.xl.
Algumas workloads de machine learning combinam tarefas que se beneficiam do uso de diferentes tipos de instância para cada tarefa. Por exemplo, o treinamento de modelos de visão computadorizada normalmente combina tarefas de treinamento de modelos de redes neurais (uso intensivo de GPU) com tarefas de processamento e aumento de dados (uso intensivo de CPU). A execução das duas tarefas em um único tipo de instância pode causar uma baixa utilização de GPU e, consequentemente, desperdício de recursos.
O recurso de clusters heterogêneos permite executar trabalhos de treinamento do SageMaker em vários tipos de instância, com tarefas de uso intensivo de GPU executadas em tipos de instância como a ml.p4d.24xl e tarefas com uso intensivo de CPU executadas em tipos de instância como a ml.c5n.18xl. Essa flexibilidade pode aumentar a utilização de GPU, o que resulta em maior economia geral. Os clusters heterogêneos podem ser usados sem custos adicionais.
Para saber mais, consulte a documentação sobre clusters heterogêneos. Para iniciar, faça login no console do Amazon SageMaker.