Amazon SageMaker bringt eine schnellere automatische Skalierung für generative KI-Modelle auf den Markt
Wir freuen uns, eine neue Funktion in Amazon SageMaker Inference ankündigen zu können, die Kunden dabei hilft, die Zeit für die automatische Skalierung ihrer generativen KI-Modelle zu verkürzen. Sie können jetzt Metriken im Sub-Minutenbereich einsetzen und die Latenz für die Skalierung der KI-Modelle insgesamt deutlich reduzieren. Durch den Einsatz dieser Erweiterung können Kunden die Reaktionsfähigkeit generativer KI-Anwendungen bei Nachfrageschwankungen verbessern.
Mit dieser Funktion erhalten Kunden zwei neue hochauflösende CloudWatch-Metriken für eine schnellere automatische Skalierung: ConcurrentRequestsPerModel und ConcurrentRequestsPerModelCopy. Diese Metriken werden in einem Intervall von 10 Sekunden ausgegeben und geben eine genauere Darstellung der Last auf dem Endpunkt, indem diese die wirkliche Nebenläufigkeit oder die Zahl der Inferenzanfragen in Bewegung verfolgen, die vom Modell verarbeitet werden. Mithilfe dieser hochauflösenden Metriken können Kunden Auto-Scaling-Richtlinien erstellen, um ihre auf SageMaker-Endpunkten bereitgestellten Modelle zu skalieren. Amazon SageMaker beginnt innerhalb einer Minute mit dem Hinzufügen neuer Instances oder Modellkopien, wenn die in den Auto-Scaling-Richtlinien definierten Schwellenwerte erreicht sind. Dadurch können Kunden die Leistung und Kosteneffizienz ihrer Inferenz-Workloads auf SageMaker optimieren.
Diese neue Funktion ist für Accelerator-Instance-Familien (g4dn, g5, g6, p2, p3, p4d, p4de, p5, inf1, inf2, trn1n, trn1) in allen AWS-Regionen verfügbar, in denen Amazon SageMaker Inference verfügbar ist, mit Ausnahme der Regionen China und AWS GovCloud (USA). Weitere Informationen finden Sie im Beitrag zu AWS ML und in unserer Dokumentation.