Veröffentlicht am: Sep 1, 2023

Kunden können nun kontinuierlich Inferenzantworten an den Client zurückstreamen, wenn sie die Echtzeit-Inferenz von SageMaker verwenden, um Ihnen dabei zu helfen, interaktive Erlebnisse für verschiedene generative KI-Anwendungen wie Chatbots, virtuelle Assistenten und Musikgeneratoren zu entwickeln.

Mit interaktiven generativen KI-Anwendungen wie Chatbots können Sie die Antwort Wort für Wort lesen, während der Chatbot reagiert, und müssen nicht auf die vollständige Antwort warten. Bei solchen Anwendungen ist es besonders wichtig, die Zeit bis zur ersten Inferenzreaktion zu minimieren, damit das Erlebnis interaktiv wirkt. Bisher warteten SageMaker-Endpunkte, bis die vollständige Inferenzantwort abgeschlossen war, bevor sie dem Client antworteten. Beim Antwortstreaming werden kontinuierlich Teilinferenzen zurückgegeben, bis die vollständige Inferenzantwort abgeschlossen ist. 

Dieses Feature ist in allen kommerziellen Regionen verfügbar, in denen SageMaker verfügbar ist.

Weitere Informationen zur Verwendung von Antwortstreaming sowie Beispiele finden Sie in unserer Dokumentation zur API-Referenz, unter Abrufen von Streamingantworten, unter So sollten Container reagieren und in diesem Blog.