Warum bleibt meine Amazon SageMaker-Notebook-Instance im Status „Pending“ hängen und schlägt dann fehl?

Lesedauer: 4 Minute
0

Wenn ich eine Amazon SageMaker-Notebook-Instance erstelle oder starte, wechselt die Instance in den Status Pending. Die Notebook-Instance scheint in diesem Zustand festzustecken, und dann schlägt sie fehl.

Kurzbeschreibung

Der Status Pending bedeutet, dass SageMaker die Notebook-Instance erstellt. Schlägt ein Schritt des Erstellungsprozesses fehl, versucht SageMaker erneut, das Notizbuch zu erstellen. Aus diesem Grund kann es sein, dass ein Notizbuch länger als erwartet im Status Pending verbleibt. Wenn SageMaker die Notebook-Instance immer noch nicht erstellen kann, ändert sich der Status schließlich in Fehlgeschlagen.

Lösung

Bestätigen Sie den Fehlergrund

Überprüfen Sie die FailureReason-Antwort in der DescribeNotebookInstance-API. Sie können die Fehlerursache auch in der SageMaker-Konsole finden:

  • Um ein Popup-Fenster mit einer verkürzten Version der Fehlerursache zu sehen, halten Sie in der Spalte Status auf Fehlgeschlagen an.
  • Um die vollständige Fehlerursache zu sehen, wählen Sie den Namen der Notebook-Instance. Die Fehlerursache wird oben im Abschnitt mit den Notebook-Instanceeinstellungen angezeigt.

Verwenden Sie die Fehlerursache, um die Ursache zu beheben.

Häufige Fehler

"fatal: unable to access 'https://github.com/aws-samples/amazon-sagemaker-notebook-instance-lifecycle-config-samples/': Verbindung zum Github.com-Port 443 konnte nicht hergestellt werden: Connection timed out"

Dieser Fehler tritt auf, wenn die Netzwerkkonfiguration für die Notebook-Instance den Domainnamen oder die Verbindung für das externe Git-Repository nicht unterstützt.

Wichtig: Notebook-Instanceen, die in einer Virtual Private Cloud (VPC) bereitgestellt werden, erben nicht automatisch benutzerdefinierte Routing-Tabellen wie Subnetz-Routing-Tabellen für VPC-Peering-Verbindungen. Wenn Sie eine benutzerdefinierte Routentabelle benötigen, erstellen Sie ein Lebenszykluskonfigurationsskript, das die Route beim Start hinzufügt. Weitere Informationen finden Sie unter Grundlegendes zu Netzwerkkonfigurationen von Amazon SageMaker-Notebook-Instances und erweiterten Routing-Optionen.

Um zu überprüfen, ob die Git-Verbindung aktiv ist und Sie von einer Notebook-Instance aus eine Verbindung zum Repository herstellen können, gehen Sie wie folgt vor: Erstellen Sie eine neue Notebook-Instance ohne zugeordnetes Git-Repository. Öffnen Sie dann die Jupyter-Konsole und verwenden Sie eine Terminalsitzung, um die folgenden Befehle auszuführen:

1.fsResolve den Hostnamen des Servers:

dig repo_hostname

Wenn der Antwortbereich der Ausgabe leer ist, konnte das Notizbuch den Hostnamen nicht ermitteln. Der Antwortbereich für github.com wird beispielsweise wie folgt angezeigt:

;; ANSWER SECTION:
github.com.    16  IN     A   20.248.137.48

2.fspWenn der Antwortabschnitt der Ausgabe eine Antwort enthält, funktioniert die Domainnamen-Auflösung. Sie können dann den folgenden Befehl ausführen, um die Verbindung zum Hostnamen zu testen:

curl -v your-git-repo-url:443

3.fspWenn die Verbindung verweigert wird oder ein Timeout auftritt, überprüfen Sie die VPC-Sicherheitsgruppenregeln und Routing-Tabellen. Wenn die Verbindung erfolgreich ist, verwenden Sie Git-Befehle, um Ihre Anmeldeinformationen zu testen:

git pull https://your-git-repo-url

"Lifecycle Configuration failed"

Wenn ein Lifecycle-Konfigurationsskript länger als fünf Minuten läuft, schlägt es fehl und die Notebook-Instance wird weder erstellt noch gestartet. Vorschläge zur Verkürzung der Skriptlaufzeit finden Sie unter Anpassen einer Notebook-Instance mithilfe eines Lebenszykluskonfigurationsskripts. Um Probleme mit dem Skript zu beheben, überprüfen Sie die Lifecycle-Konfiguration in den Amazon CloudWatch-Protokollen:

  • Protokollgruppe: /aws/SageMaker/NotebookInstances
  • Logstream: Notebook-Instance-Name/LifecycleConfigOnStart oder Notebook-Instance-Name/LifecycleConfigOnCreate

„Dieser Notebook-Instancetyp 'ml.m4.xlarge' ist vorübergehend nicht verfügbar. Wir entschuldigen uns für die Unannehmlichkeiten. Bitte versuchen Sie es in ein paar Minuten erneut oder versuchen Sie es mit einem anderen Instancetyp.“

Dieser Fehler tritt auf, wenn Amazon Elastic Compute Cloud (Amazon EC2) nicht über genügend verfügbare Kapazität für den von Ihnen ausgewählten Instance-Typ verfügt. Die Kapazität variiert je nach Nachfrage nach diesem Instance-Typ in dieser Region zu diesem Zeitpunkt. Versuchen Sie die Anfrage später erneut, um zu sehen, ob sich die Kapazitätsstufen geändert haben. Oder wählen Sie einen anderen Instance-Typ.

Interne HTTP 500-Fehler

Ein HTTP 500-Fehler weist darauf hin, dass beim Erstellen der Notebook-Instance ein unerwarteter Fehler aufgetreten ist. Um vorübergehende Probleme auszuschließen, versuchen Sie erneut, die Notebook-Instance zu erstellen.


Ähnliche Informationen

Verknüpfen Sie Git-Repositorys mit SageMaker-Notebook-Instances

Häufige Fehler

AWS OFFICIAL
AWS OFFICIALAktualisiert vor einem Jahr