Mon instance de bloc-notes Amazon SageMaker est bloquée dans l'état En attente, puis échoue

Dernière mise à jour : 24/09/2020

Lorsque je crée ou démarre une instance de bloc-notes Amazon SageMaker, l'instance passe à l'état En attente. L'instance de bloc-notes semble être bloquée dans cet état, puis elle échoue.

Brève description

L'état En attente signifie que SageMaker crée l'instance de bloc-notes. Si l'une des étapes du processus de création échoue, SageMaker tente de créer à nouveau le bloc-notes. C'est pourquoi un bloc-notes peut rester dans l'état En attente plus longtemps que prévu. Si SageMaker ne parvient toujours pas à créer l'instance de bloc-notes, le statut devient Échec.

Solution

Confirmer le motif d'échec

Vérifiez la réponse FailureReason dans l'API DescribeNotebookInstance. Vous pouvez également trouver le motif de l'échec sur la console SageMaker :

  • Pour afficher une fenêtre contextuelle affichant une version raccourcie du motif d'échec, mettez en pause l'option Échec dans la colonne État.
  • Pour voir la raison complète de l'échec, choisissez le nom de l'instance de bloc-notes. Le motif de l'échec apparaît en haut de la section Paramètres de l'instance du bloc-notes.

Utilisez la raison de l'échec pour résoudre la cause racine.

Erreurs courantes

"fatal: unable to access 'https://github.com/aws-samples/amazon-sagemaker-notebook-instance-lifecycle-config-samples/': Failed to connect to github.com port 443: Connection timed out"

Cette erreur se produit lorsque la configuration réseau pour l'instance de bloc-notes ne prend pas en charge le nom de domaine ou la connexion pour le référentiel Git externe.

Important : les instances de bloc-notes déployées dans un Virtual Private Cloud (VPC) n'héritent pas automatiquement des tables de routage personnalisées, telles que les tables, de routage de sous-réseau pour les connexions d'appairage de VPC. Si vous avez besoin d'une table de routage personnalisée, créez un script de configuration du cycle de vie qui ajoute l'itinéraire au démarrage. Pour plus d'informations, consultez Présentation des configurations de mise en réseau d'instances de portables Amazon SageMaker et des options de routage avancées.

Pour confirmer que la connexion Git est valide et que vous pouvez vous connecter au référentiel à partir d'une instance de bloc-notes, créez une nouvelle instance de bloc-notes sans référentiel Git associé. Ensuite, ouvrez la console Jupyter et utilisez une session de terminal pour exécuter les commandes suivantes :

1.    Résolvez le nom d'hôte du serveur :

dig repo_hostname

Si la section réponse de la sortie est vide, le bloc-notes n'a pas pu résoudre le nom d'hôte.

2.    Si la section réponse de la sortie contient une réponse, la résolution de nom de domaine fonctionne. Vous pouvez ensuite exécuter la commande suivante pour tester la connexion au nom d'hôte :

nc repo_hostname 443

3.    Si la connexion est refusée ou expire, vérifiez les règles du groupe de sécurité VPC et les tables de routage. Si la connexion est réussie, utilisez les commandes git pour tester vos informations d'identification :

git pull https://your-git-repo-url

"Lifecycle Configuration failed"

Si un script de configuration de cycle de vie s'exécute pendant plus de cinq minutes, il n'aboutit pas, et l'instance de bloc-notes n'est pas créée ou démarrée. Pour obtenir des suggestions sur la façon de réduire la durée d'exécution du script, voir Personnaliser une instance de bloc-notes à l'aide d'un script de configuration du cycle de vie. Pour résoudre les problèmes liés au script, consultez les Amazon CloudWatch logs pour connaître la configuration du cycle de vie :

  • Groupe de journaux : /aws/sagemaker/NotebookInstances
  • Flux de journaux : notebook-instance-name/LifecycleConfigOnStart ou notebook-instance-name/LifecycleConfigOnCreate

"This Notebook Instance type 'ml.m4.xlarge' is temporarily unavailable. We apologize for the inconvenience. Please try again in a few minutes, or try a different instance type."

Cette erreur se produit lorsque Amazon Elastic Compute Cloud (Amazon EC2) ne dispose pas d'une capacité disponible suffisante pour le type d'instance que vous avez choisi. La capacité varie en fonction de la demande pour ce type d'instance dans cette région à ce moment. Réessayez la demande ultérieurement pour voir si les niveaux de capacité ont changé. Vous pouvez également choisir un autre type d'instance.

Erreurs internes HTTP 500

Une erreur HTTP 500 indique qu'une erreur inattendue s'est produite lors de la création de l'instance de bloc-notes. Pour exclure les problèmes transitoires, réessayez de créer l'instance de bloc-notes.


Cet article vous a-t-il été utile ?


Besoin d'aide pour une question technique ou de facturation ?