Amazon Elastic Inference

Fügen Sie einer beliebigen Amazon EC2-Instance GPU-Beschleunigung hinzu, um schnellere Inferenz zu geringeren Kosten zu erhalten (Einsparung von bis zu 75 %)

Mit Amazon Elastic Inference können Sie den Amazon EC2- und Amazon SageMaker-Instances eine günstige GPU-unterstützte Beschleunigung hinzufügen, um die Kosten für die Ausführung der Deep Learning-Inferenz um bis zu 75 % zu reduzieren. Amazon Elastic Inference unterstützt TensorFlow-, Apache MXNet- und ONNX-Modelle, und weitere Frameworks werden in Kürze zur Verfügung stehen.

Bei den meisten Deep Learning-Anwendungen können Prognosen mithilfe eines trainierten Modells – ein Prozess, der als Inferenz bezeichnet wird – die Datenverarbeitungskosten der Anwendung um bis zu 90 % senken. Dies liegt an zwei Faktoren: Erstens: Eigenständige GPU-Instances sind für das Trainieren von Modellen konzipiert und normalerweise für die Inferenz überdimensioniert. Während bei Trainingjobs große Datenmengen parallel verarbeitet werden, werden die meisten Inferenz-Prozesse über eine einzelne Eingabe in Echtzeit durchgeführt, bei der nur ein geringer Teil der GPU-Rechenleistung erforderlich ist. Auch bei Spitzenauslastung wird die GPU-Rechenleistung möglicherweise nicht vollständig genutzt, was eine Verschwendung bedeutet und mit Kosten verbunden ist. Zweitens: Unterschiedliche Modelle benötigen unterschiedliche Mengen an GPU-, CPU- und Arbeitsspeicher-Ressourcen. Wenn Sie einen GPU-Instance-Typ auswählen, der groß genug ist, um die Anforderungen der am wenigsten genutzten Ressource zu erfüllen, führt dies häufig zu einer Unterauslastung der anderen Ressourcen und zu hohen Kosten.

Amazon Elastic Inference löst diese Probleme dadurch, dass Sie jedem EC2- oder SageMaker-Instance-Typ genau die richtige Menge an GPU-gesteuerter Inferenzbeschleunigung zuweisen können, ohne dass Code-Änderungen erforderlich sind. Mit Amazon Elastic Inference können Sie nun den Instance-Typ auswählen, der am besten zu den allgemeinen CPU- und Arbeitsspeicheranforderungen Ihrer Anwendung passt. Im Anschluss können Sie die Höhe der benötigten Inferenzbeschleunigung separat konfigurieren, um die Ressourcen effizient zu nutzen und die Kosten für die Inferenzausführung zu reduzieren.

Einführung in Amazon Elastic Inference

Nutzen

Reduzieren Sie Inferenzkosten um bis zu 75 %

Mit Amazon Elastic Inference können Sie den Instance-Typ wählen, der am besten für die allgemeinen Rechen- und Arbeitsspeicheranforderungen Ihrer Anwendung geeignet ist. Anschließend können Sie die Höhe der benötigten Inferenzbeschleunigung separat angeben. So reduzieren Sie Inferenzkosten um bis zu 75 %, da Sie für die Inferenz nicht mehr übermäßig dimensionierte Kapazitäten für die GPU-Rechenleistung bereitstellen müssen.

Erhalten Sie genau das, was Sie benötigen

Mit Amazon Elastic Inference können Sie einfache Single-Precision-TFLOPS-Inferenzbeschleunigung (Trillionen Gleitkommaoperationen pro Sekunde) oder 32 Mixed-Precision-TFLOPS-Inferenzbeschleunigung bereitstellen. Dies ist ein weitaus angemessenerer Bereich für die Inferenzberechnung als ein Bereich von bis zu 1 000 TFLOPS, wie es bei einer eigenständigen Amazon EC2 P3-Instance der Fall ist. Beispiel: Ein einfaches Sprachverarbeitungsmodell erfordert möglicherweise nur 1 TFLOPS für die ordnungsgemäße Ausführung der Inferenz, während ein komplexes Computervisionsmodell bis zu 32 TFLOPS benötigen kann.

Reagieren Sie auf Nachfrageschwankungen

Sie können die Höhe der Inferenzbeschleunigung mithilfe der Amazon EC2 Auto Scaling-Gruppen problemlos nach oben oder unten anpassen, um die Anforderungen Ihrer Anwendung zu erfüllen, ohne übermäßig viel Kapazität bereitzustellen. Wenn EC2 Auto Scaling Ihre EC2-Instances erhöht, um der steigenden Nachfrage zu entsprechen, wird der zugehörige Beschleuniger für jede Instance ebenfalls automatisch entsprechend angepasst. Ähnlich verhält es sich, wenn Ihre EC2-Instances bei abnehmender Nachfrage reduziert werden. Auch in diesem Fall wird der zugehörige Beschleuniger für jede Instance entsprechend angepasst. So können Sie sicherstellen, dass Sie nur für das bezahlen, was Sie tatsächlich genutzt haben.

Unterstützung für beliebte Frameworks

Amazon Elastic Inference unterstützt TensorFlow- und Apache MXNet-Modelle, und weitere Frameworks werden in Kürze zur Verfügung stehen.

tensorflow_logo_200px
mxnet_150x50
Blog: Amazon Elastic Inference – GPU-Powered Inference Acceleration
28. November 2018
 
Product-Page_Standard-Icons_01_Product-Features_SqInk
Sehen Sie sich die Produktfunktionen an

Erfahren Sie mehr über die Funktionen von Amazon Elastic Inference.

Weitere Informationen 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
Registrieren Sie sich und erhalten Sie ein kostenloses Konto

Sie erhalten sofort Zugriff auf das kostenlose AWS-Kontingent. 

Registrieren 
Product-Page_Standard-Icons_03_Start-Building_SqInk
Beginnen Sie mit der Entwicklung in der Konsole

Erste Schritte mit Amazon Elastic Inference auf Amazon SageMaker oder Amazon EC2.

Anmeldung