Was ist eine Amazon-SageMaker-Inferenz?
Amazon SageMaker AI erleichtert die Bereitstellung von ML-Modellen einschließlich Basismodellen (FMs), um Inferenzanfragen zum besten Preis-Leistungs-Verhältnis für jeden Anwendungsfall zu stellen. Sie können SageMaker AI für all Ihre Inferenzanforderungen verwenden, angefangen bei jenen mit niedriger Latenz und hohem Durchsatz bis hin zu Inferenzen mit langer Laufzeit. SageMaker AI ist ein vollständig verwalteter Service und lässt sich in MLOps-Tools integrieren, sodass Sie Ihre Modellbereitstellung skalieren, die Inferenzkosten senken, Modelle in der Produktion effektiver verwalten und den Betriebsaufwand reduzieren können.
Vorteile von SageMaker Inference
Große Auswahl an Inferenzoptionen
Echtzeit-Inferenz
Serverless Inference
Asynchrone Inferenz
Batch-Transformation
Skalierbare und kostengünstige Inferenzoptionen
Endgeräte mit einem Modell
Ein Modell auf einem Container, der auf dedizierten Instanzen oder serverlos gehostet wird, um eine geringe Latenz und einen hohen Durchsatz zu gewährleisten.

Mehrere Modelle auf einem einzigen Endpunkt
Hosten Sie mehrere Modelle auf derselben Instance, um die zugrunde liegenden Beschleuniger besser zu nutzen und die Bereitstellungskosten um bis zu 50 % zu senken. Sie können die Richtlinien zur Skalierung für jedes FM separat steuern, was die Anpassung an Modellnutzungsmuster erleichtert und gleichzeitig die Infrastrukturkosten optimiert.

Serielle Inferenz-Pipelines
Mehrere Container teilen sich dedizierte Instances und werden in einer Sequenz ausgeführt. Sie können eine Inferenzpipeline verwenden, um datenwissenschaftliche Vorverarbeitungs-, Vorhersagen- und Nachverarbeitungsaufgaben zu kombinieren.

Unterstützung für die meisten Frameworks und Modellserver für Machine Learning
Die Inferenz von Amazon SageMaker unterstützt integrierte Algorithmen und vorgefertigte Docker-Images für einige der gängigsten Frameworks für Machine Learning wie TensorFlow, PyTorch, ONNX und XGBoost. Wenn keines der vorgefertigten Docker-Images Ihren Anforderungen entspricht, können Sie Ihren eigenen Container für die Verwendung mit CPU-gestützten Multi-Modell-Endpunkten erstellen. Die SageMaker-Inferenz unterstützt die gängigsten Modell-Server wie TensorFlow Serving, TorchServe, NVIDIA Triton und AWS-Multi-Modell-Server.
Amazon SageMaker AI bietet spezialisierte Deep-Learning-Container (DLCs), Bibliotheken und Tools für Modellparallelität und Large Model Inference (LMI), um Ihnen dabei zu helfen, die Leistung von Basismodellen zu verbessern. Mit diesen Optionen können Sie Modelle, einschließlich Basismodelle (FMs), schnell für praktisch jeden Anwendungsfall bereitstellen.





Hohe Inferenzleistung bei niedrigen Kosten erzielen
Hohe Inferenzleistung bei niedrigen Kosten erzielen
Das neue Toolkit zur Inferenzoptimierung von Amazon SageMaker AI bietet einen bis zu doppelt so hohen Durchsatz und reduziert gleichzeitig die Kosten für generative KI-Modelle wie Llama 3-, Mistral- und Mixtral-Modelle um bis zu ~50 %. Beispielsweise können Sie mit einem Llama 3-70B-Modell bis zu ~2400 Token/Sek auf einer ml.p5.48xlarge Instance erreichen, im Vergleich zu ~1200 Token/Sek. zuvor ohne jegliche Optimierung. Sie können eine Modelloptimierungstechnik wie spekulative Dekodierung, Quantisierung und Kompilierung auswählen oder mehrere Techniken kombinieren, sie auf Ihre Modelle anwenden, einen Benchmark ausführen, um die Auswirkungen der Techniken auf die Ausgabequalität und die Inferenzleistung zu bewerten, und Modelle mit nur wenigen Klicks bereitstellen.

Modelle auf der leistungsstärksten Infrastruktur bereit oder setzen Sie auf serverlosen Betrieb bereitstellen
Amazon SageMaker AI bietet mehr als 70 Instance-Typen mit unterschiedlichen Datenverarbeitungs- und Speicherkapazitäten, darunter Amazon-EC2-Inf1-Instances, die auf AWS Inferentia basieren, leistungsstarke ML-Inferenzchips, die von AWS entwickelt und gebaut wurden, und GPU-Instances wie Amazon EC2 G4dn. Oder entscheiden Sie sich für Amazon SageMaker Serverless Inference, um problemlos auf Tausende von Modellen pro Endpunkt, einen Durchsatz von Millionen von Transaktionen pro Sekunde (TPS) und Overhead-Latenzen von unter 10 Millisekunden zu skalieren.

Shadow-Test zur Validierung der Leistung von ML-Modellen
Amazon SageMaker AI unterstützt Sie bei der Evaluierung eines neuen Modells, indem es seine Leistung mit Live-Inferenzanfragen anhand des aktuell von SageMaker bereitgestellten Modells mit Shadow Testing testet. Shadow Testing kann Ihnen helfen, potenzielle Konfigurationsfehler und Leistungsprobleme zu erkennen, bevor sie sich auf die Endbenutzer auswirken. Mit SageMaker AI müssen Sie nicht wochenlang Zeit in die Entwicklung Ihrer eigenen Shadow-Testing-Infrastruktur investieren. Wählen Sie einfach ein Produktionsmodell aus, mit dem Sie testen möchten. SageMaker AI stellt das neue Modell automatisch im Shadow-Modus bereit und leitet eine Kopie der vom Produktionsmodell empfangenen Inferenzanfragen in Echtzeit an das neue Modell weiter.

Autoscaling für mehr Elastizität
Sie können Skalierungsrichtlinien verwenden, um die zugrunde liegenden Rechenressourcen automatisch zu skalieren, um Schwankungen bei Inferenzanfragen Rechnung zu tragen. Sie können die Skalierungsrichtlinien für jedes ML-Modell separat steuern, um Änderungen bei der Modellnutzung problemlos zu bewältigen und gleichzeitig die Infrastrukturkosten zu optimieren.

Latenzverbesserung und intelligentes Routing
Sie können die Inferenzlatenz für ML-Modelle verringern, indem Sie neue Inferenzanfragen auf intelligente Weise an verfügbare Instances weiterleiten, anstatt Anfragen wahllos an Instances weiterzuleiten, die bereits mit der Bearbeitung von Inferenzanfragen beschäftigt sind. Dadurch können Sie die Inferenzlatenz im Durchschnitt um 20 % verringern.
Operativen Aufwand senken und Wertschöpfung beschleunigen
Vollständig verwaltetes Modellhosting und -management
Als vollständig verwalteter Service kümmert sich Amazon SageMaker AI um die Einrichtung und Verwaltung von Instances, Softwareversionskompatibilitäten und das Patchen von Versionen. Es bietet auch integrierte Metriken und Protokolle für Endgeräte, mit denen Sie Benachrichtigungen überwachen und empfangen können.

Integrierte Integration mit MLOps-Funktionen
Die Features zur Bereitstellung von Amazon-SageMaker-AI-Modellen sind nativ in MLOps-Funktionen integriert, darunter SageMaker-Pipelines (Workflow-Automatisierung und Orchestrierung), SageMaker-Projekte (CI/CD für ML), SageMaker Feature Store (Feature-Verwaltung), SageMaker Model Registry (Modell- und Artefaktkatalog zur Nachverfolgung der Herkunft und Unterstützung automatisierter Genehmigungsworkflows), SageMaker Clarify (Erkennung von Verzerrungen) und SageMaker Model Monitor (Modell- und Konzeptdrifterkennung). Unabhängig davon, ob Sie ein oder Zehntausende von Modellen einsetzen, hilft SageMaker AI dabei, den Betriebsaufwand für Bereitstellung, Skalierung und Verwaltung von ML-Modellen zu verringern und sie gleichzeitig schneller in die Produktion zu bringen.

Kunden
Ressourcen für SageMaker Inference
Neuerungen
Total results: 403
- Datum (neuestes bis ältestes)
-
30.01.2025
-
11.12.2024
-
06.12.2024
-
06.12.2024
-
04.12.2024