Veröffentlicht am: Aug 20, 2021

Wir führen die asynchrone Inferenz von Amazon SageMaker ein, eine neue Inferenzoption in Amazon SageMaker, die eingehende Anfragen in eine Warteschlange stellt und sie asynchron verarbeitet. Diese Option ist ideal für Inferenzen mit großen Nutzlastgrößen (bis zu 1 GB) und/oder langen Verarbeitungszeiten (bis zu 15 Minuten), die verarbeitet werden müssen, wenn Anfragen eintreffen. Mit der asynchronen Inferenz können Sie Kosten sparen, indem Sie die Instance-Anzahl automatisch auf null skalieren, wenn keine Anforderungen zu verarbeiten sind. Sie zahlen also nur, wenn Ihr Endpunkt Anforderungen verarbeitet.

Mit der Einführung der asynchronen Inferenz bietet Amazon SageMaker drei Optionen zum Bereitstellen von trainierten Machine-Learning-Modellen zum Generieren von Inferenzen auf neue Daten. Echtzeit-Inferenz eignet sich für Workloads, bei denen Nutzlastgrößen bis zu 6 MB betragen und mit geringen Latenzanforderungen in der Größenordnung von Millisekunden oder Sekunden verarbeitet werden müssen. Die Batch-Transformation ist ideal für Offline-Vorhersagen für große Datenmengen, die im Voraus verfügbar sind. Die neue asynchrone Inferenzoption ist ideal für Workloads, bei denen die Anforderungsgrößen groß sind (bis zu 1 GB) und die Inferenzverarbeitungszeiten im Minutenbereich (bis zu 15 Minuten) liegen. Beispielhafte Workloads für asynchrone Inferenz umfassen das Ausführen von Vorhersagen für hochauflösende Bilder, die von einem Mobilgerät in verschiedenen Intervallen während des Tages generiert werden und das Bereitstellen von Antworten innerhalb von Minuten nach Erhalt der Anfrage. Für Anwendungsfälle, die eine Kaltstart-Leistungseinbuße von einigen Minuten tolerieren können, können Sie die Endpunkt-Instance-Zählung optional auf null herunterskalieren, wenn keine ausstehenden Anforderungen vorliegen und wieder hochskalieren, wenn neue Anforderungen eingehen, sodass Sie nur für die Dauer zahlen, in der die Endpunkte aktiv Anfragen verarbeiten.

Das Erstellen eines asynchronen Inferenzendpunkts ähnelt dem Erstellen eines Echtzeitendpunkts. Sie können Ihre vorhandenen Amazon-SageMaker-Modelle verwenden und müssen beim Erstellen Ihrer Endpunktkonfiguration nur zusätzliche asynchrone Inferenz-spezifische Konfigurationsparameter angeben. Um den Endpunkt aufzurufen, müssen Sie die Anforderungsnutzlast in Amazon S3 platzieren und als Teil der Aufrufanforderung einen Pointer auf die Nutzlast bereitstellen. Beim Aufruf stellt Amazon SageMaker die Anforderung zur Verarbeitung in die Warteschlange und gibt als Antwort einen Ausgabespeicherort zurück. Bei der Verarbeitung platziert Amazon SageMaker die Inferenzantwort am zuvor zurückgegebenen Amazon-S3-Speicherort. Sie können optional Erfolgs- oder Fehlermeldungen über den Simple Notification Service (SNS) erhalten.

Eine detaillierte Beschreibung zum Erstellen, Aufrufen und Überwachen von asynchronen Inferenzendpunkten finden Sie in unserer Dokumentation, die auch ein Beispielnotebook enthält, um Ihnen den Einstieg zu erleichtern. Informationen zu den Preisen finden Sie auf der Amazon-SageMaker-Preisseite. Die asynchrone Inferenz von Amazon SageMaker ist im Allgemeinen in allen kommerziellen AWS-Regionen verfügbar, in denen Amazon SageMaker verfügbar ist, außer in Asien-Pazifik (Osaka), Europa (Mailand) und Afrika (Kapstadt).