Amazon Elastic Inference

Bis zu 75 % geringere Machine Learning-Inferenzkosten

Mit Amazon Elastic Inference können Sie den Amazon EC2- und SageMaker-Instances eine günstige GPU-unterstützte Beschleunigung hinzufügen, um die Kosten für die Ausführung der Deep Learning-Inferenz um bis zu 75 % zu reduzieren. Amazon Elastic Inference unterstützt TensorFlow-, Apache MXNet-, PyTorch- und ONNX-Modelle.

Inferenz ist der Prozess, Vorhersagen anhand eines geschulten Modells zu treffen. In Deep Learning-Anwendungen ist Inferenz aus zwei Gründen für bis zu 90 % der Gesamtbetriebskosten verantwortlich. Erstens wurden eigenständige GPU-Instances in der Regel für Modellschulungen entwickelt, nicht für Inferenz. Während bei Trainingjobs große Datenmengen parallel verarbeitet werden, werden Inferenzjobs in der Regel über eine einzelne Eingabe in Echtzeit durchgeführt und benötigen daher nur einen geringen Teil der GPU-Rechenleistung. Dadurch ist eine eigenständige GPU-Inferenz kostenintensiv. Andererseits sind eigenständige CPU-Instances nicht auf Matrixvorgänge spezialisiert und sind daher häufig zu langsam für Deep Learning-Inferenz. Zweitens haben verschiedene Modelle verschiedene Anforderungen an CPU, GPU und Arbeitsspeicher. Die Optimierung für eine Ressource kann zu einer Unterauslastung anderer Ressourcen und höheren Kosten führen.

Amazon Elastic Inference löst diese Probleme dadurch, dass Sie jedem EC2- oder SageMaker-Instance-Typ genau die richtige Menge an GPU-gesteuerter Inferenzbeschleunigung zuweisen können, ohne dass Code-Änderungen erforderlich sind. Mit Amazon Elastic Inference können Sie die CPU-Instance in AWS wählen, die am besten für die Anforderungen Ihrer Anwendung an Gesamtleistung und Arbeitsspeicher geeignet ist, und dann separat die richtige GPU-getriebene Inferenzbeschleunigung konfigurieren und so eine effiziente Nutzung von Ressourcen und eine Kostenreduzierung zu ermöglichen.

Einführung in Amazon Elastic Inference

Nutzen

Reduzieren Sie Inferenzkosten um bis zu 75 %

Mit Amazon Elastic Inference können Sie den Instance-Typ wählen, der am besten für die allgemeinen Rechen- und Arbeitsspeicheranforderungen Ihrer Anwendung geeignet ist. Anschließend können Sie die Höhe der benötigten Inferenzbeschleunigung separat angeben. So reduzieren Sie Inferenzkosten um bis zu 75 %, da Sie für die Inferenz nicht mehr übermäßig dimensionierte Kapazitäten für die GPU-Rechenleistung bereitstellen müssen.

Erhalten Sie genau das, was Sie benötigen

Mit Amazon Elastic Inference können Sie einfache Single-Precision-TFLOPS-Inferenzbeschleunigung (Trillionen Gleitkommaoperationen pro Sekunde) oder 32 Mixed-Precision-TFLOPS-Inferenzbeschleunigung bereitstellen. Dies ist ein weitaus angemessenerer Bereich für die Inferenzberechnung als ein Bereich von bis zu 1 000 TFLOPS, wie es bei einer eigenständigen Amazon EC2 P3-Instance der Fall ist. Beispiel: Ein einfaches Sprachverarbeitungsmodell erfordert möglicherweise nur 1 TFLOPS für die ordnungsgemäße Ausführung der Inferenz, während ein komplexes Computervisionsmodell bis zu 32 TFLOPS benötigen kann.

Reagieren Sie auf Nachfrageschwankungen

Sie können die Höhe der Inferenzbeschleunigung mithilfe der Amazon EC2 Auto Scaling-Gruppen problemlos nach oben oder unten anpassen, um die Anforderungen Ihrer Anwendung zu erfüllen, ohne übermäßig viel Kapazität bereitzustellen. Wenn EC2 Auto Scaling Ihre EC2-Instances erhöht, um der steigenden Nachfrage zu entsprechen, wird der zugehörige Beschleuniger für jede Instance ebenfalls automatisch entsprechend angepasst. Ähnlich verhält es sich, wenn Ihre EC2-Instances bei abnehmender Nachfrage reduziert werden. Auch in diesem Fall wird der zugehörige Beschleuniger für jede Instance entsprechend angepasst. So können Sie sicherstellen, dass Sie nur für das bezahlen, was Sie tatsächlich genutzt haben.

Unterstützung für beliebte Frameworks

Amazon Elastic Inference unterstützt TensorFlow- und Apache MXNet-Modelle, und weitere Frameworks werden in Kürze zur Verfügung stehen.

tensorflow_logo_200px
mxnet_150x50
logo-pytorch
Blog: Amazon Elastic Inference – GPU-Powered Inference Acceleration
28. November 2018
 
Product-Page_Standard-Icons_01_Product-Features_SqInk
Sehen Sie sich die Produktfunktionen an

Erfahren Sie mehr über die Funktionen von Amazon Elastic Inference.

Weitere Informationen 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
Registrieren Sie sich und erhalten Sie ein kostenloses Konto

Sie erhalten sofort Zugriff auf das kostenlose AWS-Kontingent. 

Registrieren 
Product-Page_Standard-Icons_03_Start-Building_SqInk
Beginnen Sie mit der Entwicklung in der Konsole

Erste Schritte mit Amazon Elastic Inference auf Amazon SageMaker oder Amazon EC2.

Anmeldung