Amazon SageMaker AI unterstützt jetzt kapazitätsorientierte Inferenz mit automatischem Instance-Fallback

Veröffentlicht am: 1. Mai 2026

Amazon-SageMaker-AI-Inferenzendpunkte unterstützen jetzt eine flexible Bereitstellung über eine priorisierte Liste von Instance-Typen. Wenn Ihr bevorzugter Instance-Typ nicht genügend Kapazität hat, stellt SageMaker AI automatisch die nächste verfügbare Option in Ihrer Liste bereit, sodass die Endpunkterstellung und die automatische Skalierung ohne manuelles Eingreifen reibungslos ablaufen. Dies gibt Teams, die KI/ML-Modelle in der Produktion einsetzen, die nötige Zuverlässigkeit, um Kapazitätsengpässe problemlos zu bewältigen und sicherzustellen, dass Endgeräte zuverlässig verfügbar sind und bei Bedarf skaliert werden können.

Mit der Instance-Pool-Unterstützung definieren Sie eine priorisierte Liste von Instance-Typen, und SageMaker AI stellt automatisch Kapazitäten bereit, indem es Ihre Liste der Reihe nach durcharbeitet. Dies gilt für die Erstellung, Aktualisierung und Skalierung von Endpunkten. Beim Herunterskalieren entfernt SageMaker AI zuerst die Instances mit der niedrigsten Priorität, sodass Ihre bevorzugte Infrastruktur erhalten bleibt, wenn die Flotte kleiner wird. Dies funktioniert für Single Model-Endpunkte, InferenceComponent-basierte Endpunkte und Asynchronous Inference-Endpunkte, einschließlich Endpunkten, die auf Null skaliert werden, für die SageMaker AI sich bei der erneuten Skalierung aus Ihrem verfügbaren Pool mit der höchsten Priorität bedient.

Da sich Fallback-Instance-Typen in Bezug auf GPU-Speicher und Rechenleistung unterscheiden, können Sie für jeden Instance-Typ in Ihrer Prioritätenliste ein anderes optimiertes Modell angeben. Sie können diese Artefakte selbst vorbereiten oder SageMaker AI-Inferenzempfehlungen verwenden, die automatisch hardwarespezifisch optimierte Konfigurationen für jeden Instance-Typ generieren. Darüber hinaus bieten Ihnen Instance-spezifische CloudWatch-Metriken Einblick in Latenz, Durchsatz, GPU-Auslastung und Anzahl der Instances nach Hardwaretyp innerhalb eines einzelnen Endpunkts.

Diese Funktion ist ab sofort in den USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Oregon), Kanada (Zentral), Südamerika (São Paulo), Europa (Irland), Europa (London), Europa (Frankfurt), Europa (Stockholm), Europa (Stockholm), Europa (Zürich), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Singapur), Asien-Pazifik (Sydney), Asien-Pazifik (Mumbai) und Asien-Pazifik (Mumbai) und Asien-Pazifik (Jakarta) verfügbar (Jakarta). Weitere Informationen finden Sie in der Dokumentation zu Amazon SageMaker AI.

Amazon SageMaker AI unterstützt jetzt kapazitätsorientierte Inferenz mit automatischem Instance-Fallback

Lernen

Ressourcen

Entwickler

Hilfe