Amazon Elastic Inference – Häufig gestellte Fragen

Allgemeines

F: Warum ermutigt Amazon Kunden, Workloads von Amazon Elastic Inference (EI) auf neuere Optionen für Hardwarebeschleunigung wie AWS Inferentia zu verlagern?

Mit neuen Optionen für Hardwarebeschleunigung wie AWS Inferentia für ihre Inferenz-Workloads erhalten Kunden eine bessere Leistung zu einem viel besseren Preis als Amazon EI. AWS Inferentia wurde entwickelt, um Inferenz in der AWS-Cloud mit hoher Leistung zu ermöglichen, die Gesamtkosten für Inferenz zu senken und es Entwicklern leicht zu machen, Machine Learning in ihre Anwendungen zu integrieren. Damit Kunden von solchen Hardwarebeschleunigern der neueren Generation profitieren können, werden wir nach dem 15. April 2023 keine neuen Kunden mehr bei Amazon EI aufnehmen.

F: Welche AWS-Services sind von der Einstellung des Onboardings neuer Kunden für Amazon Elastic Inference (EI) betroffen?

Diese Ankündigung betrifft Amazon-EI-Beschleuniger, die an alle Amazon-EC2-, Amazon-SageMaker-Instances oder Amazon Elastic Container Service (ECS)-Aufgaben angeschlossen sind. In Amazon SageMaker gilt dies sowohl für Endpunkte als auch für Notebook-Kernel, die Amazon-EI-Beschleuniger verwenden.

F: Kann ich nach dem 15. April 2023 einen neuen Amazon Elastic Inference (EI)-Beschleuniger erstellen?

Nein, wenn Sie ein neuer Kunde sind und Amazon EI in den letzten 30 Tagen nicht genutzt haben, können Sie nach dem 15. April 2023 keine neue Amazon-EI-Instance in Ihrem AWS-Konto erstellen. Wenn Sie jedoch in den letzten 30 Tagen mindestens einmal einen Amazon-EI-Beschleuniger verwendet haben, können Sie Ihrer Instance einen neuen Amazon-EI-Beschleuniger hinzufügen.

F: Wir verwenden derzeit Amazon Elastic Inference (EI)-Beschleuniger. Können wir sie nach dem 15. April 2023 weiter verwenden?

Ja, Sie können Amazon-EI-Beschleuniger verwenden. Wir empfehlen Ihnen, Ihre aktuellen ML-Inferenz-Workloads, die auf Amazon EI ausgeführt werden, so bald wie möglich auf andere Optionen zur Hardwarebeschleunigung zu migrieren.

F: Wie bewerte ich alternative Instance-Optionen für meine aktuellen Amazon-SageMaker-Inferenz-Endpunkte?

Amazon SageMaker Inference Recommender kann Ihnen helfen, kostengünstige Bereitstellungen zu identifizieren, um bestehende Workloads von Amazon Elastic Inference (EI) zu einer geeigneten ML-Instance zu migrieren, die von SageMaker unterstützt wird.

F: Wie ändere ich den Instance-Typ für meinen vorhandenen Endpunkt in Amazon SageMaker?

Als erstes erstellen Sie eine neue EndpointConfig, die den neuen Instance-Typ verwendet. Wenn Sie über eine Autoscaling-Richtlinie verfügen, löschen Sie die vorhandene Autoscaling-Richtlinie.
Rufen Sie UpdateEndpoint auf und geben Sie dabei Ihre neu erstellte EndpointConfig an.
Warten Sie, bis Ihr Endpunkt den Status in „InService“ ändert. Dies dauert ungefähr 10–15 Minuten.
Wenn Sie schließlich Autoscaling für Ihren neuen Endpunkt benötigen, erstellen Sie eine neue Autoscaling-Richtlinie für diesen neuen Endpunkt und ProductionVariant.

F: Wie ändere ich den Instance-Typ für meine bestehende Amazon-SageMaker-Notebook-Instance mithilfe von Amazon Elastic Inference (EI)?

Klicken Sie in der Konsole auf „Notebook-Instances“ und dann auf die Notebook-Instance, die Sie aktualisieren möchten. Stellen Sie sicher, dass sich die Notebook-Instance im Status „Gestoppt“ befindet. Schließlich können Sie auf „Bearbeiten“ klicken und Ihren Instance-Typ ändern. Stellen Sie beim Start Ihrer Notebook-Instance sicher, dass Sie den richtigen Kernel für Ihre neue Instance auswählen.

F: Gibt es einen bestimmten Instance-Typ, der eine gute Alternative zu Amazon Elastic Inference (EI) darstellt?

Jeder Workload für Machine Learning ist einzigartig. Wir empfehlen Ihnen die Verwendung von Amazon SageMaker Inference Recommender, um Sie bei der Auswahl des richtigen Instance-Typs für Ihren Workload, Ihre Leistungsanforderungen und Ihr Budget zu unterstützen. AWS Inferentia, insbesondere inf1.xlarge, ist die beste leistungsstarke und kostengünstige Alternative für Amazon-EI-Kunden. In der folgenden Tabelle vergleichen wir Leistung und Preis pro Stunde für verschiedene Amazon-EI-Beschleuniger-Optionen auf SageMaker mit Inferentia. Inferentia bietet den besten Preis und die beste Leistung und ist pro Stunde billiger als alle Amazon-EI-Instances, vorausgesetzt, es handelt sich um eine c5.xlarge-Host-Instance (siehe Tabelle unten). Bedenken Sie, dass Modelle zuerst kompiliert werden müssen, bevor sie auf AWS Inferentia bereitgestellt werden können. SageMaker-Kunden können SageMaker Neo mit der Einstellung „ml_inf“ als Zielgerät verwenden, um ihre Modelle zu kompilieren. Wenn Sie SageMaker nicht verwenden, verwenden Sie direkt den AWS Neuron-Compiler.

Die unten aufgeführten Preise gelten für die Region us-ost-2

Instance-Typ + Elastische Inferenz	EI-Preis pro Stunde	EI-Gesamtkosten pro Stunde	Prämie im Vergleich zu AWS Inferentia	Kosteneinsparungen von Inferentia im Vergleich zu EI	Leistung (FP16 TFLOP)	Leistungssteigerung mit Inferentia
ml.c5.xlarge + ml.eia2.medium	0,17 USD	0,37 USD	0,07 USD	19 %	8	8x
ml.c5.xlarge + ml.eia1.medium	0,18 USD	0,39 USD	0,09 USD	23 %	8	8x
ml.c5.xlarge + ml.eia2.large	0,34 USD	0,54 USD	0,24 USD	44 %	16	4x
ml.c5.xlarge + ml.eia1.large	0,36 USD	0,57 USD	0,27 USD	47 %	16	4x
ml.c5.xlarge + ml.eia2.xlarge	0,48 USD	0,68 USD	0,38 USD	56 %	32	2-fache
ml.c5.xlarge + ml.eia1.xlarge	0,73 USD	0,93 USD	0,63 USD	68 %	32	2-fache

F: Worum handelt es sich bei Amazon Elastic Inference?

A: Amazon Elastic Inference (Amazon EI) ist ein beschleunigter Computing-Service und ermöglicht es Ihnen, jedem Amazon EC2- oder Amazon SageMaker-Instance-Typ genau die richtige Menge an GPU-gesteuerter Inferenzbeschleunigung zuzuweisen. Das bedeutet, dass Sie nun den Instance-Typ auswählen können, der am besten zu den allgemeinen Rechen-, Arbeitsspeicher- und Speicherplatzanforderungen Ihrer Anwendung passt, und darüber hinaus in der Lage sind, die Höhe der benötigten Inferenzbeschleunigung separat zu konfigurieren.

F: Worum handelt es sich bei Amazon Elastic Inference-Beschleunigern?

A: Amazon Elastic Inference-Beschleuniger sind GPU-gesteuerte Hardware-Geräte, die mit jeder EC2-Instance oder SageMaker-Instance bzw. ECS-Aufgabe funktionieren und Deep Learning-Inferenz-Workloads zu niedrigen Kosten beschleunigen. Wenn Sie eine EC2-Instance oder ECS-Aufgabe mit Amazon Elastic Inference starten, wird ein Beschleuniger bereitgestellt und über das Netzwerk an die Instance angehängt. Deep Learning-Tools und Frameworks wie TensorFlow Serving, Apache MXNet und PyTorch, die Amazon Elastic Inference-fähig sind, können automatisch die Modellberechnung erfassen und in den angehängten Beschleuniger laden.

F: Was ist der Unterschied zwischen den unterschiedlichen Typen der Amazon Elastic Inference-Beschleuniger-Familie?

A. Die EIA2-Beschleuniger haben die doppelte GPU-Speicherkapazität äquivalenter EIA1-Beschleuniger. Sie können Ihren GPU-Speicherbedarf auf Basis Ihres Modells und der Tensor-Input-Größen festlegen und die richtigen Beschleuniger-Familien und -Typen basierend auf Ihren Bedürfnissen auswählen.

Konfigurieren

F: Wie stelle ich Amazon Elastic Inference-Beschleuniger bereit?

A: Sie können Amazon SageMaker-Endpunkte, Amazon EC2-Instances oder Amazon ECS-Aufgaben mit Amazon Elastic Inference-Beschleunigern konfigurieren. Dabei wird die AWS-Managementkonsole, das AWS Command Line Interface (CLI) oder das AWS SDK verwendet. Zum Start von EC2-Instances mit Beschleunigern gelten zwei Anforderungen. Erstens müssen Sie einen AWS PrivateLink VPC-Endpunkt für die Subnetze bereitstellen, in denen Sie die Beschleuniger starten möchten. Zweitens müssen Sie beim Start einer Instance eine Instance-Rolle mit einer Richtlinie bereitstellen, die Benutzern, die auf die Instance zugreifen, ermöglicht, eine Verbindung mit den Beschleunigern herzustellen. Wenn Sie eine Instance für den Start mit Amazon EI konfiguriert haben, wird in der gleichen Availability Zone hinter dem VPC-Endpunkt ein Beschleuniger bereitgestellt.

F: Welche Modellformate unterstützt Amazon Elastic Inference?

A: Amazon Elastic Inference unterstützt mit TensorFlow, Apache MXNet, PyTorch und ONNX-Modellen trainierte Modelle.

F: Kann ich auf Amazon Elastic Inference Modelle mit TensorFlow-, Apache MXNet- oder PyTorch-Frameworks bereitstellen?

A: Ja, Sie können AWS-erweiterte TensorFlow Serving-, Apache MXNet- und PyTorch-Bibliotheken nutzen, um Modelle bereitzustellen und Inferenzentscheidungen zu treffen.

F: Wie erhalte ich Zugriff auf AWS-optimierte Frameworks?

A: Die AWS Deep Learning AMIs umfassen die neuesten Releases von TensorFlow Serving, Apache MXNet und PyTorch, die für die Verwendung mit Amazon Elastic Inference-Beschleunigern optimiert wurden. Sie können die Bibliotheken auch über Amazon S3 erhalten, um Ihre eigenen AMIs oder Container-Images zu erstellen. Weitere Informationen finden Sie in unserer Dokumentation (https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/elastic-inference.html).

F: Kann ich CUDA mit Amazon Elastic Inference-Beschleunigern verwenden?

A: Nein. Sie können als Interface mit Amazon Elastic Inference-Beschleunigern lediglich die AWS-erweiterten TensorFlow Serving-, Apache MXNet- oder PyTorch-Bibliotheken verwenden.

Preise und Abrechnung

F: Wie wird mir Amazon Elastic Inference in Rechnung gestellt?

A: Sie bezahlen nur für die von Ihnen genutzten Amazon Elastic Inference-Beschleunigerstunden. Weitere Informationen finden Sie auf der Seite mit den Preisangaben.

F: Entstehen für AWS PrivateLink VPC-Endpunkte für den Amazon Elastic Inference-Service Kosten?

A: Nein. Ihnen entstehen für VPC-Endpunkte für den Amazon Elastic Inference-Service keine Kosten, solange Sie mindestens eine Instance mit einem Beschleuniger konfiguriert haben, der in einer Availability Zone ausgeführt wird, in der ein VPC-Endpunkt bereitgestellt wird.