Amazon SageMaker AI veröffentlicht Empfehlungen für optimierte generative KI-Inference

Veröffentlicht am: 21. Apr. 2026

Amazon SageMaker AI unterstützt jetzt Inference-Empfehlungen, eine neue Funktion, die manuelle Optimierung und Benchmarking überflüssig macht, um eine optimale Inference-Leistung zu erzielen. Durch die Bereitstellung validierter, optimaler Bereitstellungskonfigurationen mit Leistungsmetriken beschleunigt SageMaker AI den Weg zur Produktion und sorgt dafür, dass sich Ihre Modellentwickler darauf konzentrieren können, genaue Modelle zu erstellen, anstatt die Infrastruktur verwalten zu müssen.

Kunden bringen ihre eigenen generativen KI-Modelle mit, definieren erwartete Verkehrsmuster und legen ein Leistungsziel fest (Kostenoptimierung, Minimierung der Latenz oder Maximierung des Durchsatzes). SageMaker AI analysiert dann die Architektur des Modells und wendet Optimierungen, die auf dieses Ziel ausgerichtet sind, für mehrere Instance-Typen an. Dabei wird jede Konfiguration mithilfe von NVIDIA AIPerf auf einer echten GPU-Infrastruktur verglichen. Durch die Evaluierung mehrerer Instance-Typen können Kunden die Option mit dem besten Preis-Leistungs-Verhältnis für ihren Workload auswählen. Das Ergebnis sind einsatzbereite Konfigurationen mit validierten Metriken wie Zeit bis zum ersten Token, Latenz zwischen den Token, Perzentilen der Anforderungslatenz, Durchsatz und Kostenprognosen.

 Die Funktion ist heute in sieben AWS-Regionen verfügbar: USA Ost (Nord-Virginia), USA West (Oregon), USA Ost (Ohio), Asien-Pazifik (Tokio), Europa (Irland), Asien-Pazifik (Singapur) und Europa (Frankfurt). Weitere Informationen finden Sie in der Dokumentation zu SageMaker AI.