AWS Batch já oferece gerenciamento e preempção de cotas para tarefas de treinamento do SageMaker
Agora, o AWS Batch oferece gerenciamento de cotas com preempção de tarefas de treinamento do SageMaker, permitindo que você aloque e compartilhe com eficiência recursos computacionais entre equipes e projetos. Se você usa capacidade de GPU em tarefas de treinamento do SageMaker, já pode aplicar inteligência à alocação de recursos computacionais, à priorização das tarefas de treinamento essenciais para os negócios e à preempção automática de workloads de menor prioridade quando houver experimentos urgentes.
Com o gerenciamento de cotas, você pode criar até 20 cotas compartilhadas por fila de tarefas que funcionam como filas virtuais com limites de capacidade dedicada e estratégias configuráveis de compartilhamento de recursos. O serviço usa automaticamente a preempção de compartilhamento cruzado para restaurar a capacidade emprestada quando o proprietário original envia tarefas, além de oferecer preempção no compartilhamento para permitir que tarefas de alta prioridade realizem a preempção de tarefas de baixa prioridade dentro da mesma cota compartilhada. Você pode monitorar a utilização da capacidade na fila, no compartilhamento de cotas e com granularidade no nível de tarefa, atualizar as prioridades de tarefas após o envio para influenciar as decisões de preempção e configurar limites de novas tentativas de preempção para controlar o comportamento. O recurso se integra diretamente ao SDK do SageMaker para Python por meio do módulo aws_batch.
O gerenciamento de cotas com preempção de tarefas de treinamento do SageMaker está disponível hoje em todas as regiões da AWS que oferecem o AWS Batch. Para obter mais informações, consulte o nosso caderno de exemplo de gerenciamento de cotas no GitHub e o Guia do usuário do AWS Batch.