Veröffentlicht am: Apr 10, 2023
Amazon SageMaker Inference Recommender (IR) hilft Kunden bei der Auswahl des besten Instance-Typs und der besten Konfiguration (z. B. Anzahl der Instances, Container-Parameter und Modelloptimierungen) für die Bereitstellung ihrer ML-Modelle auf SageMaker. Heute kündigen wir eine stärkere Integration mit Amazon CloudWatch für Protokolle und Metriken, Python-SDK-Unterstützung für die Ausführung von IR-Jobs, die Möglichkeit für Kunden, IR-Jobs innerhalb eines VPC-Subnetzes ihrer Wahl auszuführen, Unterstützung für die Ausführung von Lasttests auf bestehenden Endpunkten über eine neue API und verschiedene Verbesserungen der Benutzerfreundlichkeit für einen einfachen Einstieg in IR an.
Die CloudWatch-Integration bietet IR-Protokolle in einer neuen Protokollgruppe, um Fehler bei der IR-Ausführung zu identifizieren. Jetzt veröffentlicht IR neben Durchsatz und Latenz auch wichtige Metriken wie gleichzeitige Benutzer, CPU- und Speichernutzung bei P99-Latenz. Dank der Python-SDK-Unterstützung können Kunden einen IR-Job von Jupyter Notebooks aus starten, um Empfehlungen für Instance-Typen zu erhalten. Außerdem haben wir neue APIs eingeführt, die einen detaillierten Einblick in alle Ausführungsschritte von IR-Jobs und eine Option für Belastungstests des Modells anhand eines vorhandenen Endpunkts bieten. Um die Benutzerfreundlichkeit zu verbessern, haben wir mehrere obligatorische Eingabeparameter optional gemacht, sodass Kunden nicht mehr verpflichtet sind, ein Modell zu registrieren oder Eingaben wie die Domain usw. zu machen, um einen IR-Job auszuführen.
Weitere Informationen zu den AWS-Regionen, in denen SageMaker Inference verfügbar ist, finden Sie in der Tabelle von AWS-Regionen.
Weitere Informationen finden Sie in der Dokumentation zu Inference Recommender. Amazon SageMaker Inference Recommender berechnet Ihnen nur die verwendeten zugrundeliegenden Ressourcen. Weitere Informationen zur Bereitstellung von Modellen mit SageMaker finden Sie in der Dokumentation.