Amazon SageMaker führt Scale Down to Zero für KI-Inferenz ein, um Kunden zu helfen, Kosten zu sparen
Wir freuen uns, Ihnen Scale Down to Zero vorstellen zu können, eine neue Funktion in Amazon SageMaker Inference, mit der Sie Endpunkte in Zeiten der Inaktivität auf Null Instances skalieren können. Diese Features kann durch KI-Modelle die Kosten für die Ausführung von Inferenzen deutlich senken, was insbesondere für Anwendungen mit variablen Verkehrsmustern wie Chatbots, Inhaltsmoderationssysteme und andere generative KI-Anwendungsfälle von Vorteil ist.
Durch Scale Down to Zero können Kunden, eine Konfiguration ihrer SageMaker-Inferenzendpunkte vornehmen, damit diese bei Nichtgebrauch automatisch auf Null skaliert werden, und dann umgehend wieder hochskalieren, wenn der Verkehr wieder fließt. Diese Funktion ist effektiv für Szenarien mit planbaren Verkehrsmustern, intermittierendem Inferenzverkehr und Entwicklungs-/Testumgebungen. Die Implementierung von Scale Down to Zero ist mit SageMaker Inference Components einfach. Kunden können Auto-Scaling-Richtlinien über das AWS SDK für Python (Boto3), das SageMaker Python SDK oder das AWS Command Line Interface (AWS CLI) konfigurieren. Der Prozess umfasst das Einrichten eines Endpunkts mit aktivierter Skalierung für verwaltete Instanzen, das Konfigurieren von Skalierungsrichtlinien und das Erstellen von CloudWatch-Warnungen, um Skalierungsaktionen auszulösen.
Scale Down to Zero ist jetzt in allen AWS-Regionen allgemein verfügbar, in denen Amazon SageMaker unterstützt wird. Weitere Informationen zur Implementierung von Scale Down to Zero und zur Kostenoptimierung für generative KI-Bereitstellungen finden Sie auf unserer Dokumentationsseite.