Amazon Elastic Inference ermöglicht es Ihnen, jedem Amazon EC2- oder Amazon SageMaker-Instance-Typ genau die richtige Menge an GPU-gesteuerter Inferenzbeschleunigung zuzuweisen. Das bedeutet, dass Sie nun den Instance-Typ auswählen können, der am besten zu den allgemeinen Rechen-, Arbeitsspeicher- und Speicherplatzanforderungen Ihrer Anwendung passt, und darüber hinaus in der Lage sind, die Höhe der benötigten Inferenzbeschleunigung separat zu konfigurieren. 

Integriert mit Amazon SageMaker und Amazon EC2

Es gibt zwei Möglichkeiten, Inferenz-Arbeitslasten auf AWS auszuführen: stellen Sie Ihr Modell entweder auf Amazon SageMaker für ein vollständig verwaltetes Erlebnis bereit oder führen Sie es auf Amazon EC2-Instances aus und verwalten Sie es selbst. Amazon Elastic Inference ist so integriert, dass es nahtlos mit Amazon SageMaker und Amazon EC2 zusammenarbeitet, so dass Sie in beiden Szenarien eine Inferenzbeschleunigung hinzufügen können. Mit Amazon SageMaker können Sie beim Erstellen des HTTPS-Endpunkts Ihres Modells die gewünschte Menge an Inferenzbeschleunigung angeben, mit Amazon EC2 beim Starten Ihrer Instance.

Unterstützung von TensorFlow und Apache MXNet

Amazon Elastic Inference wurde entwickelt, um mit den erweiterten Versionen von AWS von TensorFlow Serving und Apache MXNet verwendet zu werden. Diese Erweiterungen ermöglichen es den Frameworks, das Vorhandensein von Inferenzbeschleunigern automatisch zu erkennen, die Modelloperationen optimal auf die GPU des Beschleunigers und die CPU der Instance zu verteilen und den Zugriff auf Ihre Beschleuniger über AWS Identity and Access Management-Richtlinien (IAM) sicher zu steuern. Die erweiterten TensorFlow Serving- und MXNet-Bibliotheken werden in Amazon SageMaker und den AWS Deep Learning AMIs automatisch bereitgestellt, so dass Sie keine Codeänderungen vornehmen müssen, um Ihre Modelle in der Produktion einzusetzen. Sie können sie auch separat herunterladen, indem Sie den Anweisungen hier folgen.

Unterstützung des Open Neural Network Exchange-Formats (ONNX)

ONNX ist ein offenes Format, das es ermöglicht, ein Modell in einem Deep Learning-Framework zu trainieren und es dann zur Inferenz auf ein anderes zu übertragen. Auf diese Weise können Sie die relativen Stärken verschiedener Frameworks nutzen. Mit ONNX können Sie beispielsweise von der Flexibilität von PyTorch profitieren, um Ihr Modell zu erstellen und zu trainieren, und es dann an Apache MXNet übertragen, so dass es effizient Inferenzen im großen Stil ausführen kann. ONNX ist in PyTorch, MXNet, Chainer, Caffe2 und Microsoft Cognitive Toolkit integriert, und es sind Konnektoren für viele andere Frameworks einschließlich TensorFlow verfügbar. Um ONNX-Modelle mit Amazon Elastic Inference verwenden zu können, müssen Ihre trainierten Modelle auf die AWS-optimierte Version von Apache MXNet für den produktiven Einsatz übertragen werden.

Auswahl zwischen Einzel- und Mischpräzisionsverfahren

Amazon Elastic Inference-Beschleuniger unterstützen sowohl Einzelpräzisionsoperationen (32-Bit Gleitkommaoperationen) als auch Mischpräzisionsoperationen (16-Bit Gleitkommaoperationen). Die Einzelpräzision bietet einen extrem großen numerischen Bereich zur Darstellung der von Ihrem Modell verwendeten Parameter. Die meisten Modelle benötigen jedoch nicht wirklich so viel Genauigkeit. Außerdem führt die Berechnung großer Zahlen zu unnötigen Leistungsverlusten. Um dieses Problem zu vermeiden, können Sie mit Hilfe von Mischpräzisionsoperationen den Zahlenbereich um die Hälfte verkleinern, um bis zu 8 mal mehr Inferenzleistung zu erhalten.

Verfügbar in verschiedenen Beschleunigungsstufen

Amazon Elastic Inference ist in mehreren Durchsatzgrößen erhältlich, die von 1 bis 32 Billionen Gleitkommaoperationen pro Sekunde (TFLOPS) pro Beschleuniger reichen, was es effizient macht, eine breite Palette von Inferenzmodellen zu beschleunigen, einschließlich Computer-Vision, natürlicher Sprachverarbeitung und Spracherkennung. Im Gegensatz zu eigenständigen Amazon EC2 P3-Instances, die bei 125 TFLOPS (der kleinsten verfügbaren P3-Instance) beginnen, startet Amazon Elastic Inference bei einem einzigen TFLOPS pro Beschleuniger. Dies ermöglicht es Ihnen, die Inferenzbeschleunigung in angemesseneren Schritten zu vergrößern. Sie können auch aus größeren Beschleunigergrößen von bis zu 32 TFLOPS pro Beschleuniger für komplexere Modelle wählen.

Auto Scaling

Amazon Elastic Inference kann Teil derselben Amazon EC2 Auto Scaling-Gruppe sein, die Sie auch zur Skalierung Ihrer Amazon EC2- und Amazon SageMaker-Instances verwenden. Wenn EC2 Auto Scaling weitere EC2-Instances hinzufügt, um den Anforderungen Ihrer Anwendung gerecht zu werden, wird auch der jeder Instance zugewiesene Beschleuniger vergrößert. Ähnlich verhält es sich, wenn Auto Scaling Ihre EC2-Instances bei abnehmender Nachfrage reduziert, indem es auch den angeschlossenen Beschleuniger für jede Instance verkleinert. Dies vereinfacht die Skalierung Ihrer Inferenzbeschleunigung und der Rechenleistung Ihrer Anwendung, um die Anforderungen Ihrer Anwendung zu erfüllen.

Product-Page_Standard-Icons_01_Product-Features_SqInk
Mehr über die Produktpreise erfahren

Amazon Elastic Inference-Preise prüfen

Weitere Informationen 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
Registrieren Sie sich und erhalten Sie ein kostenloses Konto

Sie erhalten sofort Zugriff auf das kostenlose AWS-Kontingent. 

Registrieren 
Product-Page_Standard-Icons_03_Start-Building_SqInk
Beginnen Sie mit der Entwicklung in der AWS-Konsole

Erste Schritte mit Amazon Elastic Inference auf Amazon SageMaker oder Amazon EC2.

Anmeldung