Amazon Elastic Inference
Bis zu 75 % geringere Machine-Learning-Inferenzkosten
Wichtige Aktualisierung
Vielen Dank für Ihr Interesse an Amazon Elastic Inference. Amazon Elastic Inference ist für Neukunden nicht mehr verfügbar. Sie können eine bessere Leistung zu geringeren Kosten für Ihre Inferenz-Workloads mit Machine Learning erzielen, indem Sie andere Optionen zur Hardwarebeschleunigung wie AWS Inferentia verwenden. Wenn Sie derzeit Amazon Elastic Inference verwenden, sollten Sie erwägen, Ihren Workload auf diese Alternativen zu migrieren. Weitere Informationen finden Sie auf der Seite AWS-Machine-Learning-Infrastruktur.
Mit Amazon Elastic Inference können Sie den Amazon EC2- und SageMaker-Instances eine günstige GPU-unterstützte Beschleunigung hinzufügen, um die Kosten für die Ausführung der Deep Learning-Inferenz um bis zu 75 % zu reduzieren. Amazon Elastic Inference unterstützt TensorFlow-, Apache MXNet-, PyTorch- und ONNX-Modelle.
Inferenz ist der Prozess, Vorhersagen anhand eines geschulten Modells zu treffen. In Deep Learning-Anwendungen ist Inferenz aus zwei Gründen für bis zu 90 % der Gesamtbetriebskosten verantwortlich. Erstens wurden eigenständige GPU-Instances in der Regel für Modellschulungen entwickelt, nicht für Inferenz. Während bei Trainingjobs große Datenmengen parallel verarbeitet werden, werden Inferenzjobs in der Regel über eine einzelne Eingabe in Echtzeit durchgeführt und benötigen daher nur einen geringen Teil der GPU-Rechenleistung. Dadurch ist eine eigenständige GPU-Inferenz kostenintensiv. Andererseits sind eigenständige CPU-Instances nicht auf Matrixvorgänge spezialisiert und sind daher häufig zu langsam für Deep Learning-Inferenz. Zweitens haben verschiedene Modelle verschiedene Anforderungen an CPU, GPU und Arbeitsspeicher. Die Optimierung für eine Ressource kann zu einer Unterauslastung anderer Ressourcen und höheren Kosten führen.
Amazon Elastic Inference löst diese Probleme dadurch, dass Sie jedem EC2- oder SageMaker-Instance-Typ genau die richtige Menge an GPU-gesteuerter Inferenzbeschleunigung zuweisen können, ohne dass Code-Änderungen erforderlich sind. Mit Amazon Elastic Inference können Sie die CPU-Instance in AWS wählen, die am besten für die Anforderungen Ihrer Anwendung an Gesamtleistung und Arbeitsspeicher geeignet ist, und dann separat die richtige GPU-getriebene Inferenzbeschleunigung konfigurieren und so eine effiziente Nutzung von Ressourcen und eine Kostenreduzierung zu ermöglichen.
Vorteile
Reduzieren Sie Inferenzkosten um bis zu 75 %
Mit Amazon Elastic Inference können Sie den Instance-Typ wählen, der am besten für die allgemeinen Rechen- und Arbeitsspeicheranforderungen Ihrer Anwendung geeignet ist. Anschließend können Sie die Höhe der benötigten Inferenzbeschleunigung separat angeben. So reduzieren Sie Inferenzkosten um bis zu 75 %, da Sie für die Inferenz nicht mehr übermäßig dimensionierte Kapazitäten für die GPU-Rechenleistung bereitstellen müssen.
Erhalten Sie genau das, was Sie benötigen
Mit Amazon Elastic Inference können Sie einfache Single-Precision-TFLOPS-Inferenzbeschleunigung (Trillionen Gleitkommaoperationen pro Sekunde) oder 32 Mixed-Precision-TFLOPS-Inferenzbeschleunigung bereitstellen. Dies ist ein weitaus angemessenerer Bereich für die Inferenzberechnung als ein Bereich von bis zu 1 000 TFLOPS, wie es bei einer eigenständigen Amazon EC2 P3-Instance der Fall ist. Beispiel: Ein einfaches Sprachverarbeitungsmodell erfordert möglicherweise nur 1 TFLOPS für die ordnungsgemäße Ausführung der Inferenz, während ein komplexes Computervisionsmodell bis zu 32 TFLOPS benötigen kann.
Reagieren Sie auf Nachfrageschwankungen
Sie können die Höhe der Inferenzbeschleunigung mithilfe der Amazon EC2 Auto Scaling-Gruppen problemlos nach oben oder unten anpassen, um die Anforderungen Ihrer Anwendung zu erfüllen, ohne übermäßig viel Kapazität bereitzustellen. Wenn EC2 Auto Scaling Ihre EC2-Instances erhöht, um der steigenden Nachfrage zu entsprechen, wird der zugehörige Beschleuniger für jede Instance ebenfalls automatisch entsprechend angepasst. Ähnlich verhält es sich, wenn Ihre EC2-Instances bei abnehmender Nachfrage reduziert werden. Auch in diesem Fall wird der zugehörige Beschleuniger für jede Instance entsprechend angepasst. So können Sie sicherstellen, dass Sie nur für das bezahlen, was Sie tatsächlich genutzt haben.
Unterstützung für beliebte Frameworks
Amazon Elastic Inference unterstützt TensorFlow- und Apache-MXNet-Modelle, und weitere Frameworks werden in Kürze zur Verfügung stehen.