Como soluciono o erro de capacidade insuficiente ao executar meus recursos do Amazon SageMaker?

Data da última atualização: 16/11/2022

Estou visualizando o erro de Capacidade Insuficiente ao tentar executar um dos seguintes recursos do Amazon SageMaker:

  • Trabalho de treinamento
  • Trabalho de transformação em lote
  • Endpoint
  • Instância de caderno
  • Aplicativo SageMaker Studio

Resolução

Esse erro ocorre quando a AWS não tem capacidade sob demanda disponível suficiente para um tipo de instância do Amazon Elastic Compute Cloud (Amazon EC2) em uma região ou zona de disponibilidade específica para concluir sua solicitação. Observe que a capacidade não é estática e varia de acordo com a hora do dia e as cargas de trabalho em determinada região ou zona de disponibilidade. Esse erro não resulta dos limites de recursos aplicados à sua conta. Como os problemas de capacidade são transitórios, tente sua solicitação novamente quando receber esses erros.

Se você precisar da instância imediatamente, faça o seguinte:

  • Mude para um tipo de instância diferente. Mude para um tamanho de instância diferente na mesma família ou use uma família de instâncias diferente com base na sua carga de trabalho. Um tipo de instância diferente pode ter mais capacidade.
  • Execute o recurso em uma região diferente. Certifique-se de verificar os tipos de instância do SageMaker que estão disponíveis em cada região.

Se sua solicitação puder ser adiada, tente verificar se a instância desejada está disponível mais tarde.

Com base no recurso do SageMaker que você está tentando executar, você também pode tentar as seguintes abordagens:

  • Se você estiver executando o aplicativo SageMaker Studio, é uma prática recomendada executar o domínio do SageMaker Studio com sub-redes que cubram zonas de disponibilidade mais amplas. Configurar o recurso com sub-redes que se estendem em várias zonas de disponibilidade minimiza a possibilidade de problemas de capacidade.
  • Se você estiver executando uma instância de caderno ou um trabalho de treinamento, considere executar a instância com o mesmo tipo de instância e especificar diferentes sub-redes em diferentes zonas de disponibilidade.