Amazon Elastic Inference-Funktionen

Wichtige Aktualisierung

Vielen Dank für Ihr Interesse an Amazon Elastic Inference. Amazon Elastic Inference ist für Neukunden nicht mehr verfügbar. Sie können eine bessere Leistung zu geringeren Kosten für Ihre Inferenz-Workloads mit Machine Learning erzielen, indem Sie andere Optionen zur Hardwarebeschleunigung wie AWS Inferentia verwenden. Wenn Sie derzeit Amazon Elastic Inference verwenden, sollten Sie erwägen, Ihren Workload auf diese Alternativen zu migrieren. Weitere Informationen finden Sie auf der Seite AWS-Infrastruktur für Machine Learning.

Amazon Elastic Inference ermöglicht es Ihnen, jedem Amazon EC2- oder Amazon SageMaker-Instance-Typ bzw. jeder ECS-Aufgabe genau die richtige Menge an GPU-gesteuerter Inferenzbeschleunigung zuzuweisen. Das bedeutet, dass Sie nun den CPU-Instance-Typ auswählen können, der am besten zu den allgemeinen Rechen-, Arbeitsspeicher- und Speicherplatzanforderungen Ihrer Anwendung passt, und dann in der Lage sind, die benötigte GPU-getriebene Inferenzbeschleunigung separat zu konfigurieren.

Integriert mit Amazon SageMaker, Amazon EC2 und Amazon ECS

Es gibt zwei Möglichkeiten, Inferenz-Arbeitslasten auf AWS auszuführen: Stellen Sie Ihr Modell entweder auf Amazon SageMaker für ein vollständig verwaltetes Erlebnis bereit oder führen Sie es auf Amazon EC2-Instances oder Amazon ECS aus und verwalten Sie es selbst. Amazon Elastic Inference ist so integriert, dass es nahtlos mit Amazon SageMaker, Amazon EC2 und Amazon ECS zusammenarbeitet, sodass Sie in beiden Szenarien eine Inferenzbeschleunigung hinzufügen können. Mit Amazon SageMaker können Sie beim Erstellen des HTTPS-Endpunkts Ihres Modells, beim Starten Ihrer Amazon EC2-Instance und bei der Definition Ihrer Amazon ECS-Aufgabe die gewünschte Menge an Inferenzbeschleunigung in Amazon SageMaker angeben.

TensorFlow-, Apache MXNet- und PyTorch-Unterstützung

Amazon Elastic Inference wurde entwickelt, um mit den erweiterten Versionen von AWS von TensorFlow Serving, Apache MXNet und PyTorch verwendet zu werden. Diese Erweiterungen ermöglichen es den Frameworks, das Vorhandensein von Inferenzbeschleunigern automatisch zu erkennen, die Modelloperationen optimal auf die GPU des Beschleunigers und die CPU der Instance zu verteilen und den Zugriff auf Ihre Beschleuniger über AWS Identity and Access Management-Richtlinien (IAM) sicher zu steuern. Die erweiterten TensorFlow Serving-, MXNet und PyTorch-Bibliotheken werden in Amazon SageMaker, AWS Deep Learning AMIs und AWS Deep Learning Containers automatisch bereitgestellt, sodass Sie keine Codeänderungen vornehmen müssen, um Ihre Modelle in der Produktion einzusetzen. Sie können sie auch separat herunterladen, indem Sie den Anweisungen hier folgen.

Unterstützung des Open Neural Network Exchange-Formats (ONNX)

ONNX ist ein offenes Format, das es ermöglicht, ein Modell in einem Deep Learning-Framework zu trainieren und es dann zur Inferenz auf ein anderes zu übertragen. Auf diese Weise können Sie die relativen Stärken verschiedener Frameworks nutzen. ONNX ist in PyTorch, MXNet, Chainer, Caffe2 und Microsoft Cognitive Toolkit integriert, und es sind Konnektoren für viele andere Frameworks einschließlich TensorFlow verfügbar. Um ONNX-Modelle mit Amazon Elastic Inference verwenden zu können, müssen Ihre trainierten Modelle auf die AWS-optimierte Version von Apache MXNet für den produktiven Einsatz übertragen werden.

Auswahl zwischen Einzel- und Mischpräzisionsverfahren

Amazon Elastic Inference-Beschleuniger unterstützen sowohl Einzelpräzisionsoperationen (32-Bit Gleitkommaoperationen) als auch Mischpräzisionsoperationen (16-Bit Gleitkommaoperationen). Die Einzelpräzision bietet einen extrem großen numerischen Bereich zur Darstellung der von Ihrem Modell verwendeten Parameter. Die meisten Modelle benötigen jedoch nicht wirklich so viel Genauigkeit. Außerdem führt die Berechnung großer Zahlen zu unnötigen Leistungsverlusten. Um dieses Problem zu vermeiden, können Sie mit Hilfe von Mischpräzisionsoperationen den Zahlenbereich um die Hälfte verkleinern, um bis zu 8 mal mehr Inferenzleistung zu erhalten.

Verfügbar in verschiedenen Beschleunigungsstufen

Amazon Elastic Inference ist in mehreren Durchsatzgrößen erhältlich, die von 1 bis 32 Billionen Gleitkommaoperationen pro Sekunde (TFLOPS) pro Beschleuniger reichen, was es effizient macht, eine breite Palette von Inferenzmodellen zu beschleunigen, einschließlich Computer-Vision, natürlicher Sprachverarbeitung und Spracherkennung. Im Gegensatz zu eigenständigen Amazon EC2 P3-Instances, die bei 125 TFLOPS (der kleinsten verfügbaren P3-Instance) beginnen, startet Amazon Elastic Inference bei einem einzigen TFLOPS pro Beschleuniger. Dies ermöglicht es Ihnen, die Inferenzbeschleunigung in angemesseneren Schritten zu vergrößern. Sie können auch aus größeren Beschleunigergrößen von bis zu 32 TFLOPS pro Beschleuniger für komplexere Modelle wählen.

Auto Scaling

Amazon Elastic Inference kann Teil derselben Amazon EC2 Auto Scaling-Gruppe sein, die Sie auch zur Skalierung Ihrer Amazon SageMaker, Amazon EC2- und Amazon ECS-Instances verwenden. Wenn EC2 Auto Scaling weitere EC2-Instances hinzufügt, um den Anforderungen Ihrer Anwendung gerecht zu werden, wird auch der jeder Instance zugewiesene Beschleuniger vergrößert. Ähnlich verhält es sich, wenn Auto Scaling Ihre EC2-Instances bei abnehmender Nachfrage reduziert, indem es auch den angeschlossenen Beschleuniger für jede Instance verkleinert. Dies vereinfacht die Skalierung Ihrer Inferenzbeschleunigung und der Rechenleistung Ihrer Anwendung, um die Anforderungen Ihrer Anwendung zu erfüllen.