Por que a instância de caderno do Amazon SageMaker fica presa no estado Pendente e depois falha?

4 minuto de leitura
0

Quando crio ou inicio uma instância de caderno do Amazon SageMaker, a instância entra no estado Pendente. A instância do caderno parece presa nesse estado e, em seguida, falha.

Breve descrição

O status Pendente significa que o SageMaker está criando a instância do caderno. Se alguma etapa do processo de criação falhar, o SageMaker tentará criar o caderno novamente. É por isso que um caderno pode permanecer no estado Pendente por mais tempo do que o esperado. Se o SageMaker ainda não conseguir criar a instância do caderno, o status eventualmente mudará para Falha.

Resolução

Confirme o motivo da falha

Verifique a resposta do FailureReason na API DescribeNotebookInstance. Também é possível encontrar o motivo da falha no console do SageMaker:

  • Para ver uma janela pop-up com uma versão abreviada do motivo da falha, pause em Falha na coluna Status.
  • Para ver o motivo completo da falha, escolha o nome da instância do notebook. O motivo da falha aparece na parte superior da seção Configurações da instância do caderno.

Use o motivo da falha para solucionar a causa-raiz.

Erros comuns

"fatal: não foi possível acessar 'https://github.com/aws-samples/amazon-sagemaker-notebook-instance-lifecycle-config-samples/': Falha ao se conectar à porta 443 do github.com: Tempo limite de conexão”

Esse erro ocorre quando a configuração de rede da instância do caderno não suporta o nome de domínio ou a conexão para o repositório externo do Git.

Importante: As instâncias de caderno implantadas em uma nuvem privada virtual (VPC) não herdam automaticamente tabelas de rotas personalizadas, como tabelas de rotas de sub-rede para conexões de emparelhamento da VPC. Caso precise de uma tabela de rotas personalizada, crie um script de configuração do ciclo de vida que adicione a rota na inicialização. Para mais informações, consulte Como entender as configurações de rede da instância de caderno Amazon SageMaker e as opções avançadas de roteamento.

Para validar se a conexão Git está ativa e se é possível se conectar ao repositório a partir de uma instância de caderno: Crie uma nova instância de caderno sem um repositório Git associado. Em seguida, abra o console do Jupyter e use uma sessão de terminal para executar os seguintes comandos:

1.FPSResolva o nome do host do servidor:

dig repo_hostname

Se a seção de resposta da saída estiver vazia, o caderno não conseguiu resolver o nome do host. Por exemplo, a seção de respostas para github.com é exibida como:

;; ANSWER SECTION:
github.com.    16  IN     A   20.248.137.48

2.FSPSe a seção de resposta da saída contiver uma resposta, a resolução do nome de domínio funcionará. Em seguida, você pode executar o seguinte comando para testar a conexão com o nome do host:

curl -v your-git-repo-url:443

3.FSPSe a conexão for recusada ou expirar, verifique as regras do grupo de segurança da VPC e as tabelas de rotas. Se a conexão for bem-sucedida, use os comandos git para testar as credenciais:

git pull https://your-git-repo-url

“Falha na configuração do ciclo de vida”

Se um script de configuração do ciclo de vida for executado por mais de cinco minutos, ele falhará e a instância de caderno não será criada nem iniciada. Para sugestões sobre como diminuir o tempo de execução do script, consulte Personalizar uma instância de caderno usando um script de configuração do ciclo de vida. Para solucionar problemas com o script, verifique os logs do Amazon CloudWatch para ver a configuração do ciclo de vida:

  • Grupo de logs: /aws/sagemaker/NotebookInstances
  • Fluxo de logs: notebook-instance-name/LifecycleConfigOnStart ou notebook-instance-name/LifecycleConfigOnCreate

“Esse tipo de instância de caderno ‘ml.m4.xlarge’ está temporariamente indisponível. Pedimos desculpas pela inconveniência. Tente novamente em alguns minutos ou tente um tipo de instância diferente.”

Esse erro acontece quando o Amazon Elastic Compute Cloud (Amazon EC2) não tem capacidade disponível suficiente para o tipo de instância selecionado. A capacidade varia de acordo com a demanda desse tipo de instância naquela região naquele momento. Tente fazer a solicitação novamente mais tarde para ver se os níveis de capacidade foram alterados. Ou escolha um tipo de instância diferente.

Erros internos HTTP 500

Um erro HTTP 500 indica que ocorreu um erro inesperado ao criar a instância de caderno. Para descartar problemas transitórios, tente criar a instância de caderno novamente.


Informações relacionadas

Associe repositórios Git a instâncias de caderno do SageMaker

Erros comuns

AWS OFICIAL
AWS OFICIALAtualizada há um ano