Amazon SageMaker-Inferenz

Einfache Bereitstellung und Verwaltung von Modellen für Machine Learning (ML) für Inferenz

Was ist eine Amazon-SageMaker-Inferenz?

Amazon SageMaker AI erleichtert die Bereitstellung von ML-Modellen einschließlich Basismodellen (FMs), um Inferenzanfragen zum besten Preis-Leistungs-Verhältnis für jeden Anwendungsfall zu stellen. Sie können SageMaker AI für all Ihre Inferenzanforderungen verwenden, angefangen bei jenen mit niedriger Latenz und hohem Durchsatz bis hin zu Inferenzen mit langer Laufzeit. SageMaker AI ist ein vollständig verwalteter Service und lässt sich in MLOps-Tools integrieren, sodass Sie Ihre Modellbereitstellung skalieren, die Inferenzkosten senken, Modelle in der Produktion effektiver verwalten und den Betriebsaufwand reduzieren können.

Vorteile von SageMaker Inference

Große Auswahl an Inferenzoptionen

Echtzeit-Inferenz

Interaktive Vorhersagen in Echtzeit und mit niedriger Latenz für Anwendungsfälle mit stetigen Datenverkehrsmustern. Sie können Ihr Modell auf einem Endpunkt bereitstellen, der vollständig verwaltet wird und Auto Scaling unterstützt.

Serverless Inference

Niedrige Latenz und hoher Durchsatz für Anwendungsfälle mit intermittierenden Verkehrsmustern. Serverless-Endpunkte starten automatisch Rechenressourcen und skalieren sie je nach Datenverkehr auf oder ab, sodass Sie keine Instance-Typen auswählen oder Skalierungsrichtlinien verwalten müssen.

Asynchrone Inferenz

Niedrige Latenz für Anwendungsfälle mit großen Nutzdaten (bis zu 1 GB) oder langen Verarbeitungszeiten (bis zu einer Stunde) und Latenzanforderungen nahezu in Echtzeit. Asynchrone Inferenz hilft, Kosten zu sparen, indem die Anzahl der Instances automatisch auf Null skaliert wird, wenn keine Anforderungen verarbeitet werden müssen.

Batch-Transformation

Offline-Inferenz von Datenstapeln für Anwendungsfälle mit großen Datensätzen. Mit Batch Transform können Sie Datensätze vorverarbeiten, um Störungen oder Verzerrungen zu entfernen, und Eingabedatensätze mit Inferenzen verknüpfen, um die Ergebnisinterpretation zu erleichtern.

Skalierbare und kostengünstige Inferenzoptionen

Endgeräte mit einem Modell

Ein Modell auf einem Container, der auf dedizierten Instanzen oder serverlos gehostet wird, um eine geringe Latenz und einen hohen Durchsatz zu gewährleisten.

Weitere Informationen

Endgeräte mit einem Modell

Mehrere Modelle auf einem einzigen Endpunkt

Hosten Sie mehrere Modelle auf derselben Instance, um die zugrunde liegenden Beschleuniger besser zu nutzen und die Bereitstellungskosten um bis zu 50 % zu senken. Sie können die Richtlinien zur Skalierung für jedes FM separat steuern, was die Anpassung an Modellnutzungsmuster erleichtert und gleichzeitig die Infrastrukturkosten optimiert.

Weitere Informationen

Multi-Modell-Endpunkte

Serielle Inferenz-Pipelines

Mehrere Container teilen sich dedizierte Instances und werden in einer Sequenz ausgeführt. Sie können eine Inferenzpipeline verwenden, um datenwissenschaftliche Vorverarbeitungs-, Vorhersagen- und Nachverarbeitungsaufgaben zu kombinieren.

Weitere Informationen

Serielle Inferenz-Pipelines

Unterstützung für die meisten Frameworks und Modellserver für Machine Learning

Die Inferenz von Amazon SageMaker unterstützt integrierte Algorithmen und vorgefertigte Docker-Images für einige der gängigsten Frameworks für Machine Learning wie TensorFlow, PyTorch, ONNX und XGBoost. Wenn keines der vorgefertigten Docker-Images Ihren Anforderungen entspricht, können Sie Ihren eigenen Container für die Verwendung mit CPU-gestützten Multi-Modell-Endpunkten erstellen. Die SageMaker-Inferenz unterstützt die gängigsten Modell-Server wie TensorFlow Serving, TorchServe, NVIDIA Triton und AWS-Multi-Modell-Server.

Amazon SageMaker AI bietet spezialisierte Deep-Learning-Container (DLCs), Bibliotheken und Tools für Modellparallelität und Large Model Inference (LMI), um Ihnen dabei zu helfen, die Leistung von Basismodellen zu verbessern. Mit diesen Optionen können Sie Modelle, einschließlich Basismodelle (FMs), schnell für praktisch jeden Anwendungsfall bereitstellen.


Weitere Informationen
 

TensorFlow
PyTorch
mxnet
Hugging-Face-Logo
TensorFlow

Hohe Inferenzleistung bei niedrigen Kosten erzielen

Hohe Inferenzleistung bei niedrigen Kosten erzielen

Das neue Toolkit zur Inferenzoptimierung von Amazon SageMaker AI bietet einen bis zu doppelt so hohen Durchsatz und reduziert gleichzeitig die Kosten für generative KI-Modelle wie Llama 3-, Mistral- und Mixtral-Modelle um bis zu ~50 %. Beispielsweise können Sie mit einem Llama 3-70B-Modell bis zu ~2400 Token/Sek auf einer ml.p5.48xlarge Instance erreichen, im Vergleich zu ~1200 Token/Sek. zuvor ohne jegliche Optimierung. Sie können eine Modelloptimierungstechnik wie spekulative Dekodierung, Quantisierung und Kompilierung auswählen oder mehrere Techniken kombinieren, sie auf Ihre Modelle anwenden, einen Benchmark ausführen, um die Auswirkungen der Techniken auf die Ausgabequalität und die Inferenzleistung zu bewerten, und Modelle mit nur wenigen Klicks bereitstellen.

Ein Bild, das die Bewertungskennzahlen auf einen Blick zeigt

Modelle auf der leistungsstärksten Infrastruktur bereit oder setzen Sie auf serverlosen Betrieb bereitstellen

Amazon SageMaker AI bietet mehr als 70 Instance-Typen mit unterschiedlichen Datenverarbeitungs- und Speicherkapazitäten, darunter Amazon-EC2-Inf1-Instances, die auf AWS Inferentia basieren, leistungsstarke ML-Inferenzchips, die von AWS entwickelt und gebaut wurden, und GPU-Instances wie Amazon EC2 G4dn. Oder entscheiden Sie sich für Amazon SageMaker Serverless Inference, um problemlos auf Tausende von Modellen pro Endpunkt, einen Durchsatz von Millionen von Transaktionen pro Sekunde (TPS) und Overhead-Latenzen von unter 10 Millisekunden zu skalieren.

Ein Bild, das die Funktionen von ML-Inferenzchips zeigt

Shadow-Test zur Validierung der Leistung von ML-Modellen

Amazon SageMaker AI unterstützt Sie bei der Evaluierung eines neuen Modells, indem es seine Leistung mit Live-Inferenzanfragen anhand des aktuell von SageMaker bereitgestellten Modells mit Shadow Testing testet. Shadow Testing kann Ihnen helfen, potenzielle Konfigurationsfehler und Leistungsprobleme zu erkennen, bevor sie sich auf die Endbenutzer auswirken. Mit SageMaker AI müssen Sie nicht wochenlang Zeit in die Entwicklung Ihrer eigenen Shadow-Testing-Infrastruktur investieren. Wählen Sie einfach ein Produktionsmodell aus, mit dem Sie testen möchten. SageMaker AI stellt das neue Modell automatisch im Shadow-Modus bereit und leitet eine Kopie der vom Produktionsmodell empfangenen Inferenzanfragen in Echtzeit an das neue Modell weiter.

Ein Bild, das den Prozess des Schattentests veranschaulicht

Autoscaling für mehr Elastizität

Sie können Skalierungsrichtlinien verwenden, um die zugrunde liegenden Rechenressourcen automatisch zu skalieren, um Schwankungen bei Inferenzanfragen Rechnung zu tragen. Sie können die Skalierungsrichtlinien für jedes ML-Modell separat steuern, um Änderungen bei der Modellnutzung problemlos zu bewältigen und gleichzeitig die Infrastrukturkosten zu optimieren.

Bild, das Autoscaling-Gruppen zeigt

Latenzverbesserung und intelligentes Routing

Sie können die Inferenzlatenz für ML-Modelle verringern, indem Sie neue Inferenzanfragen auf intelligente Weise an verfügbare Instances weiterleiten, anstatt Anfragen wahllos an Instances weiterzuleiten, die bereits mit der Bearbeitung von Inferenzanfragen beschäftigt sind. Dadurch können Sie die Inferenzlatenz im Durchschnitt um 20 % verringern.

Operativen Aufwand senken und Wertschöpfung beschleunigen

Vollständig verwaltetes Modellhosting und -management

Als vollständig verwalteter Service kümmert sich Amazon SageMaker AI um die Einrichtung und Verwaltung von Instances, Softwareversionskompatibilitäten und das Patchen von Versionen. Es bietet auch integrierte Metriken und Protokolle für Endgeräte, mit denen Sie Benachrichtigungen überwachen und empfangen können.

Ein Bild, das den Ablauf der Modellverwaltung zeigt

Integrierte Integration mit MLOps-Funktionen

Die Features zur Bereitstellung von Amazon-SageMaker-AI-Modellen sind nativ in MLOps-Funktionen integriert, darunter SageMaker-Pipelines (Workflow-Automatisierung und Orchestrierung), SageMaker-Projekte (CI/CD für ML), SageMaker Feature Store (Feature-Verwaltung), SageMaker Model Registry (Modell- und Artefaktkatalog zur Nachverfolgung der Herkunft und Unterstützung automatisierter Genehmigungsworkflows), SageMaker Clarify (Erkennung von Verzerrungen) und SageMaker Model Monitor (Modell- und Konzeptdrifterkennung). Unabhängig davon, ob Sie ein oder Zehntausende von Modellen einsetzen, hilft SageMaker AI dabei, den Betriebsaufwand für Bereitstellung, Skalierung und Verwaltung von ML-Modellen zu verringern und sie gleichzeitig schneller in die Produktion zu bringen.

Bild zeigt das Flussdiagramm des Train-Modells