Überspringen zum Hauptinhalt

Amazon EC2

Amazon-EC2-Inf2-Instances

Hohe Leistung zu den niedrigsten Kosten in Amazon EC2 für generative KI-Inferenz

Warum Amazon-EC2-Inf2-Instances?

Amazon-Elastic-Compute-Cloud-Inf2-Instances (Amazon EC2) sind speziell für Deep-Learning-Inferenzen (DL) entwickelt worden. Sie liefern hohe Leistung zu den niedrigsten Kosten in Amazon EC2 für generative Modelle der künstlichen Intelligenz (KI), einschließlich großer Sprachmodelle (LLMs) und Vision-Transformatoren. Sie können Inf2-Instances verwenden, um Ihre Inferenzanwendungen für Textzusammenfassung, Codegenerierung, Video- und Bilderzeugung, Spracherkennung, Personalisierung, Betrugserkennung und mehr auszuführen.

Inf2-Instances werden von AWS Inferentia2, dem AWS Inferentia-Chip der zweiten Generation, betrieben. Inf2-Instances steigern die Leistung von Inf1, indem sie eine dreifach höhere Rechenleistung, einen vierfach größeren Gesamtspeicher für den Beschleuniger, einen bis zu vierfach höheren Durchsatz und eine bis zu zehnfach geringere Latenz bieten. Inf2-Instanzen sind die ersten für Inferenzen optimierten Instanzen in Amazon EC2, die verteilte Inferenzen mit Ultra-Hochgeschwindigkeits-Konnektivität zwischen Inferentia-Chips unterstützen. Sie können jetzt effizient und kostengünstig Modelle mit Hunderten von Milliarden von Parametern über mehrere Chips auf Inf2-Instanzen bereitstellen.

Das AWS Neuron SDK hilft Entwicklern, Modelle auf den AWS Inferentia-Chips bereitzustellen (und sie auf AWS Trainium-Chips zu trainieren). Es lässt sich nativ in Frameworks wie PyTorch und TensorFlow integrieren, so dass Sie Ihre bestehenden Workflows und Ihren Anwendungscode weiter nutzen und auf Inf2-Instances ausführen können.

Vorteile

Inf2-Instances sind die ersten inferenzoptimierten Instances in Amazon EC2, die verteilte Inferenz in großem Maßstab unterstützen. Sie können jetzt effizient Modelle mit Hunderten von Milliarden von Parametern über mehrere Inferentia-Chips auf Inf2-Instanzen bereitstellen und dabei die Ultra-Hochgeschwindigkeits-Konnektivität zwischen den Chips nutzen.

Inf2-Instances wurden entwickelt, um hohe Leistung bei niedrigsten Kosten in Amazon EC2 für Ihre DL-Bereitstellungen zu liefern. Diese bieten bis zu viermal schnelleren Durchsatz und eine bis zu zehnfach geringere Latenz als Amazon-EC2-Inf1-Instances. Inf2-Instances bieten eine bis zu 40 % bessere Preisleistung als andere vergleichbare Amazon-EC2-Instances.

Verwenden Sie AWS Neuron SDK, um die volle Leistung von Inf2-Instances zu extrahieren. Mit Neuron können Sie Ihre bestehenden Frameworks wie PyTorch und TensorFlow verwenden und erhalten eine optimierte Out-of-the-Box-Leistung für Modelle in beliebten Repositories wie Hugging Face. Neuron unterstützt Laufzeitintegrationen mit Serving-Tools wie TorchServe und TensorFlow Serving. Es hilft auch bei der Optimierung der Leistung mit integrierten Profil- und Debugging-Tools wie Neuron-Top und lässt sich in beliebte Visualisierungstools wie TensorBoard integrieren.

Inf2-Instances liefern bis zu 50 % mehr Leistung/Watt als andere vergleichbare Amazon-EC2-Instances. Diese Instanzen und die zugrundeliegenden Inferentia2-Chips nutzen fortschrittliche Siliziumprozesse sowie Hardware- und Softwareoptimierungen, um eine hohe Energieeffizienz bei der Ausführung von DL-Modellen im großen Maßstab zu erreichen. Verwenden Sie Inf2-Instances, um Ihre Nachhaltigkeitsziele zu erreichen, wenn Sie ultragroße Modelle einsetzen.

Funktionen

Inf2-Instanzen werden von bis zu 12 AWS Inferentia2-Chips angetrieben, die mit dem ultraschnellen NeuronLink für eine optimierte kollektive Kommunikation verbunden sind. Sie bieten eine Rechenleistung von bis zu 2,3 Petaflops sowie einen bis zu viermal höheren Durchsatz und eine zehnmal geringere Latenz als Inf1-Instances.

Um große DL-Modelle unterzubringen, bieten Inf2-Instances bis zu 384 GB gemeinsam genutzten Beschleunigerspeicher (32 GB HBM in jedem Inferentia2-Chip, viermal größer als Inferentia der ersten Generation) mit einer Gesamtspeicherbandbreite von 9,8 TB/s (zehnmal schneller als Inferentia der ersten Generation).

Für die schnelle Kommunikation zwischen den Inferentia2-Chips unterstützen die Inferentia2-Instances 192 GB/s NeuronLink, einen schnellen, nicht blockierenden Interconnect. Inf2 ist die einzige inferenzoptimierte Instance, die diese Verbindung anbietet, ein Feature, die nur in teureren Trainingsinstances verfügbar ist. Bei sehr großen Modellen, die nicht in einen einzigen Chip passen, fließen die Daten mit NeuronLink direkt zwischen den Chips, so dass die CPU vollständig umgangen wird. Mit NeuronLink unterstützt Inf2 schnellere verteilte Inferenz und verbessert den Durchsatz und die Latenz.

Inferentia2 unterstützt FP32, TF32, BF16, FP16, UINT8 und den neuen konfigurierbaren FP8-Datentyp (cFP8). AWS Neuron kann hochpräzise FP32- und FP16-Modelle nehmen und sie automatisch in Datentypen mit geringerer Genauigkeit übertragen, während die Genauigkeit und Leistung optimiert wird. Autocasting verkürzt die Zeit bis zur Markteinführung, da keine Nachschulung mit geringerer Genauigkeit mehr erforderlich ist und die Inferenz mit kleineren Datentypen leistungsfähiger wird.

Um das schnelle Tempo der DL-Innovation zu unterstützen, verfügen Inf2-Instances über mehrere Innovationen, die sie flexibel und erweiterbar machen, um die sich ständig weiterentwickelnden DL-Modelle einzusetzen. Inf2-Instances verfügen über Hardwareoptimierungen und Softwareunterstützung für dynamische Eingabeformen. Um in Zukunft die Unterstützung neuer Operatoren zu ermöglichen, unterstützen sie benutzerdefinierte Operatoren, die in C++ geschrieben wurden. Sie unterstützen auch das stochastische Runden, eine Methode des wahrscheinlichkeitsbasierten Rundens, das im Vergleich zu herkömmlichen Rundungsmodi eine hohe Leistung und höhere Genauigkeit ermöglicht. 

Produktdetails

Instance Size
Inferentia2 Chips
Accelerator Memory (GB)
vCPU
Memory (GiB)
Local Storage
Inter-Chip Interconnect
Network Bandwidth (Gbps)
EBS Bandwidth (Gbps)
On-Demand Price
1-Year Reserved Instance
3-Year Reserved Instance
inf2.xlarge
1
32
4
16
Nur EBS
Bis zu 15
Bis zu 10
0,76 USD
0,45 USD
0,30 USD
inf2.8xlarge
1
32
32
128
Nur EBS
Bis zu 25
10
1,97 USD
1,81 USD
0,79 USD
inf2.24xlarge
6
192
96
384
Nur EBS
Ja
50
30
6,49 USD
3,89 USD
2,60 USD
inf2.48xlarge
12
384
192
768
Nur EBS
Ja
100
60
12,98 USD
7,79 USD
5,19 USD

Empfehlungen von Kunden und Partnern

Hier sind einige Beispiele dafür, wie Kunden und Partner ihre Geschäftsziele mit Amazon EC2 Inf2-Instances erreicht haben.

Leonardo.ai

„Unser Team bei Leonardo nutzt generative KI, um es Kreativen und Enthusiasten zu ermöglichen, visuelle Inhalte mit unübertroffener Qualität, Geschwindigkeit und Stilkonsistenz zu produzieren. Das Preis-Leistungs-Verhältnis von AWS Inf2 Durch den Einsatz von AWS Inf2 können wir unsere Kosten um 80 % senken, ohne Abstriche bei der Leistung machen zu müssen. Dadurch ändert sich das Wertangebot für unsere Kunden grundlegend, da wir unsere fortschrittlichsten Features zu einem günstigeren Preis anbieten können. Außerdem werden dadurch Bedenken hinsichtlich der Kosten und der Verfügbarkeit von Kapazitäten für unsere zusätzlichen KI-Dienste ausgeräumt, die mit unserem Wachstum und unserer Größe immer wichtiger werden. Es ist eine Schlüsseltechnologie für uns, da wir weiterhin die Grenzen des Machbaren mit generativer KI ausloten und unseren Nutzern eine neue Ära der Kreativität und Ausdruckskraft ermöglichen. „

Pete Werner, Head of AI bei Leonardo.ai

Logo of Leonardo.Ai featuring a stylized portrait within a circle and the text 'Leonardo.Ai' in modern typography.

Landebahn

„Bei Runway ermöglicht unsere Suite von AI Magic Tools unseren Benutzern, Inhalte wie nie zuvor zu generieren und zu bearbeiten. Wir verschieben ständig die Grenzen dessen, was mit KI-gestützter Inhaltserstellung möglich ist, und da unsere KI-Modelle immer komplexer werden, können die zugrunde liegenden Infrastrukturkosten für den Betrieb dieser Modelle in großem Maßstab teuer werden. Durch unsere Zusammenarbeit mit Amazon-EC2-Inf2-Instances, die von AWS Inferentia betrieben werden, sind wir in der Lage, einige unserer Modelle mit einem bis zu zweimal höheren Durchsatz als vergleichbare GPU-basierte Instances auszuführen. Diese leistungsstarke, kostengünstige Inferenz ermöglicht es uns, mehr Funktionen einzuführen, komplexere Modelle bereitzustellen und letztendlich den Millionen von Entwicklern, die Runway verwenden, ein besseres Erlebnis zu bieten. „

Cristóbal Valenzuela, Mitbegründer und CEO von Runway

 

Missing alt text value

Qualtrics

Qualtrics entwirft und entwickelt Software für das Erfahrungsmanagement.

„Bei Qualtrics liegt unser Fokus auf Gebäudetechnologien, die Erfahrungslücken für Kunden, Mitarbeiter, Marken und Produkte schließen. Um dies zu erreichen, entwickeln wir komplexe Multi-Task- und multimodale DL-Modelle, um neue Features einzuführen, wie z. B. Textklassifizierung, Sequenz-Tagging, Diskursanalyse, Extraktion von Schlüsselsätzen, Themenextraktion, Clustering und durchgängiges Gesprächsverständnis. Da wir diese komplexeren Modelle in immer mehr Anwendungen einsetzen, wächst das Volumen an unstrukturierten Daten, und wir benötigen leistungsfähigere, inferenzoptimierte Lösungen, die diesen Anforderungen gerecht werden, wie z. B. Inf2-Instances, um unseren Kunden die besten Erlebnisse zu bieten. Wir freuen uns über die neuen Inf2-Instances, weil sie uns nicht nur höhere Durchsätze ermöglichen und gleichzeitig die Latenz drastisch reduzieren, sondern auch Funktionen wie verteilte Inferenz und verbesserte Unterstützung dynamischer Eingabeformen einführen, die uns helfen werden, die Bereitstellungsanforderungen zu erfüllen, während wir zu größeren, komplexeren großen Modellen übergehen. „

Aaron Colak, Head of Core Machine Learning bei Qualtrics

Qualtrics XM company logo with 'qualtrics.' in black and 'XM' in a gradient blue-green font.

Finch Computing

Finch Computing ist ein Technologieunternehmen für natürliche Sprache, das Anwendungen für künstliche Intelligenz für Behörden, Finanzdienstleistungen und Datenintegratoren anbietet.

„Um die Anforderungen unserer Kunden an die Verarbeitung natürlicher Sprache in Echtzeit zu erfüllen, entwickeln wir hochmoderne DL-Modelle, die für große Produktionsworkloads skalierbar sind. Wir müssen Transaktionen mit niedrigen Latenzzeiten anbieten und hohe Durchsätze erreichen, um globale Datenströme zu verarbeiten. Wir haben bereits viele Produktions-Workloads auf Inf1-Instances migriert und dabei eine Kostenreduzierung von 80 % gegenüber GPUs erzielt. Jetzt entwickeln wir größere, komplexere Modelle, die eine tiefere, aufschlussreichere Bedeutung von geschriebenen Texten ermöglichen. Viele unserer Kunden benötigen den Zugang zu diesen Erkenntnissen in Echtzeit, und die Leistung der Inf2-Instances wird uns helfen, niedrigere Latenzzeiten und einen höheren Durchsatz als bei Inf1-Instances zu erzielen. Mit den Leistungsverbesserungen von Inf2 und neuen Inf2-Funktionen, wie der Unterstützung dynamischer Eingabegrößen, verbessern wir unsere Kosteneffizienz, verbessern das Kundenerlebnis in Echtzeit und helfen unseren Kunden, neue Erkenntnisse aus ihren Daten zu gewinnen. „

Franz Weckesser, Chief Architect bei Finch Computing

Missing alt text value

Money Forward Inc.

Money Forward, Inc. bietet Unternehmen und Privatpersonen eine offene und faire Finanzplattform. Als Teil dieser Plattform bietet HiTTO Inc., ein Unternehmen der Money Forward-Gruppe, einen KI-Chatbot-Service an, der maßgeschneiderte Modelle zur Verarbeitung natürlicher Sprache (NLP) verwendet, um auf die unterschiedlichen Bedürfnisse ihrer Firmenkunden einzugehen.

„Wir haben einen groß angelegten KI-Chatbot-Dienst auf den Amazon EC2 Inf1-Instances eingeführt und unsere Inferenzlatenz gegenüber vergleichbaren GPU-basierten Instances um 97% reduziert und gleichzeitig die Kosten gesenkt. Wir waren sehr erfreut, in unseren ersten Testergebnissen auf Amazon EC2 Inf2-Instances weitere Leistungsverbesserungen zu sehen. Mit demselben benutzerdefinierten NLP-Modell konnte AWS Inf2 die Latenz gegenüber Inf1 weiter um das 10-fache reduzieren. Während wir zu größeren Modellen mit mehreren Milliarden Parametern übergehen, gibt uns Inf2 die Zuversicht, dass wir unseren Kunden weiterhin ein hervorragendes durchgängiges Benutzererlebnis bieten können. „

Takuya Nakade, CTO bei Money Forward Inc.

 

Missing alt text value

Datei gelesen

„Bei Fileread.ai entwickeln wir Lösungen, um die Interaktion mit Ihren Dokumenten so einfach wie das Stellen von Fragen zu machen, sodass Benutzer in all ihren Dokumenten das finden, wonach sie suchen, und schneller die richtigen Informationen erhalten. Seit der Umstellung auf die neue Inf2-EC2-Instance haben wir eine deutliche Verbesserung unserer NLP-Inferenzfunktionen festgestellt. Allein die Kosteneinsparungen waren für uns ein entscheidender Faktor und haben es uns ermöglicht, Ressourcen effizienter einzusetzen, ohne die Qualität zu beeinträchtigen. Wir haben unsere Inferenzlatenz um 33 % reduziert und gleichzeitig den Durchsatz um 50 % erhöht, was unsere Kunden mit schnelleren Durchlaufzeiten erfreut. Unser Team war überwältigt von der Geschwindigkeit und Leistung von Inf2 im Vergleich zu den älteren G5-Instances, und es ist klar, dass dies die Zukunft der Bereitstellung von NLP-Modellen ist.“

Daniel Hu, CEO bei Fileread

Missing alt text value

Yaraku

„Unsere Mission bei Yaraku ist es, die Infrastruktur aufzubauen, die Menschen hilft, über Sprachbarrieren hinweg zu kommunizieren. Unser Hauptprodukt, YarakuZen, ermöglicht es jedem, vom professionellen Übersetzer bis zum einsprachigen Privatmann, Texte und Dokumente sicher zu übersetzen und nachzubearbeiten. Um diesen Prozess zu unterstützen, bieten wir eine breite Palette von hochentwickelten Werkzeugen an, die auf DL-Modellen basieren und Aufgaben wie Übersetzung, Bitext-Wort-Alignment, Satzsegmentierung, Sprachmodellierung und viele andere abdecken. Durch den Einsatz von Inf1-Instances konnten wir unsere Services beschleunigen, um der steigenden Nachfrage gerecht zu werden, und gleichzeitig die Inferenzkosten im Vergleich zu GPU-basierten Instances um mehr als 50 % senken. Wir beginnen jetzt mit der Entwicklung größerer Modelle der nächsten Generation, die die erweiterten Fähigkeiten von Inf2-Instances erfordern, um die Nachfrage zu befriedigen und gleichzeitig eine niedrige Latenz zu gewährleisten. Mit Inf2 werden wir in der Lage sein, unsere Modelle bei gleichem Durchsatz um das Zehnfache zu skalieren, sodass wir unseren Kunden ein noch höheres Qualitätsniveau bieten können. „

Giovanni Giacomo, NLP Lead bei Yaraku

Missing alt text value

Hugging Face

„Die Mission von Hugging Face ist es, gutes ML zu demokratisieren, um ML-Entwicklern auf der ganzen Welt zu helfen, reale Probleme zu lösen. Und der Schlüssel dazu ist, dass die neuesten und besten Modelle so schnell und effizient wie möglich auf den besten ML-Chips in der Cloud laufen. Wir freuen uns sehr über das Potenzial von Inferentia2, der neue Standard für den Einsatz generativer KI-Modelle in großem Maßstab zu werden. Mit Inf1 konnten wir die Kosten im Vergleich zu herkömmlichen GPU-basierten Instances um bis zu 70 % senken, und mit Inf2 haben wir eine bis zu 8-mal geringere Latenz für BERT-ähnliche Transformers im Vergleich zu Inferentia1 festgestellt. Mit Inferentia2 wird unsere Community in der Lage sein, diese Leistung problemlos auf LLMs mit einer Parameterskala von über 100 B und auch auf die neuesten Diffusions- und Computer Vision-Modelle zu skalieren. „

Hugging Face logo featuring a smiling face emoji with open hands and the text 'Hugging Face' next to it.

PyTorch

„PyTorch beschleunigt den Weg von der Prototypenerstellung in der Forschung bis hin zur Serienbereitstellung für ML-Entwickler. Wir haben mit dem AWS-Team zusammengearbeitet, um native PyTorch-Unterstützung für die neuen AWS Inferentia2-betriebenen Amazon-EC2-Inf2-Instances bereitzustellen. Da immer mehr Mitglieder unserer Community große generative KI-Modelle einsetzen möchten, freuen wir uns über die Zusammenarbeit mit dem AWS-Team, um die verteilte Inferenz auf Inf2-Instances mit der Hochgeschwindigkeitsverbindung NeuronLink zwischen Chips zu optimieren. Mit Inf2 können Entwickler, die PyTorch verwenden, jetzt problemlos ultragroße LLMs und Vision-Transformer-Modelle bereitstellen. Darüber hinaus bieten Inf2-Instances PyTorch-Entwicklern weitere innovative Funktionen, darunter effiziente Datentypen, dynamische Formen, benutzerdefinierte Operatoren und hardwareoptimierte stochastische Rundungen, wodurch sie sich gut für eine breite Akzeptanz in der PyTorch-Community eignen. „

The PyTorch logo featuring a black wordmark and an orange flame icon.

Nextira

„Die historische Herausforderung bei LLMs und allgemeiner bei generativen KI-Anwendungen auf Unternehmensebene sind die Kosten, die mit dem Training und Betrieb leistungsstarker DL-Modelle verbunden sind. Zusammen mit AWS Trainium beseitigt AWS Inferentia2 die finanziellen Kompromisse, die unsere Kunden eingehen, wenn sie leistungsstarke Trainings benötigen. Jetzt können unsere Kunden, die nach Vorteilen in den Bereichen Training und Inferenz suchen, bessere Ergebnisse für weniger Geld erzielen. Trainium und Inferentia beschleunigen die Skalierung, um selbst die anspruchsvollsten DL-Anforderungen der größten Unternehmen von heute zu erfüllen. Viele Nextira-Kunden, die große KI-Workloads ausführen, werden direkt von diesen neuen Chipsätzen profitieren, was die Effizienz in Bezug auf Kosteneinsparungen und Leistung erhöht und zu schnelleren Ergebnissen auf ihrem Markt führt. „

Jason Cutrer, Gründer und CEO von Nextira

Logo for AWS Elastic Inference, featuring the service name with a green accent mark on a dark background.

Amazon CodeWhisperer

Amazon CodeWhisperer ist ein KI-Codierungsbegleiter, der in Ihrer integrierten Entwicklungsumgebung (IDE) in Echtzeit einzeilige oder voll funktionsfähige Codeempfehlungen generiert, um Sie bei der schnellen Erstellung von Software zu unterstützen.

„Mit CodeWhisperer verbessern wir die Produktivität von Softwareentwicklern, indem wir Codeempfehlungen mithilfe generativer KI-Modelle bereitstellen. Um hocheffektive Codeempfehlungen zu entwickeln, haben wir unser DL-Netzwerk auf Milliarden von Parametern skaliert. Unsere Kunden benötigen während der Eingabe Codeempfehlungen in Echtzeit, daher sind Antworten mit geringer Latenz von entscheidender Bedeutung. Große generative KI-Modelle benötigen leistungsstarke Rechenleistung, um Reaktionszeiten in Sekundenbruchteilen zu liefern. Mit Inf2 erreichen wir die gleiche Latenz wie bei der Ausführung von CodeWhisperer auf trainingsoptimierten GPU-Instances für große Eingabe- und Ausgabesequenzen. Somit helfen uns Inf2-Instances dabei, Kosten und Strom zu sparen und gleichzeitig Entwicklern das bestmögliche Erlebnis zu bieten. „

Doug Seven, Geschäftsführer bei Amazon CodeWhisperer

Amazon logo featuring the brand name in black text with a yellow smile-shaped arrow underneath.

Amazon-Suche

Die Produktsuchmaschine von Amazon indexiert Milliarden von Produkten, bedient täglich Milliarden von Kundenanfragen und ist einer der meistgenutzten Dienste der Welt.

„Ich freue mich riesig auf den Start von Inf2 GA. Die überragende Leistung von Inf2 in Verbindung mit seiner Fähigkeit, größere Modelle mit Milliarden von Parametern zu verarbeiten, macht es zur perfekten Wahl für unsere Dienstleistungen und ermöglicht es uns, neue Möglichkeiten in Bezug auf Modellkomplexität und Genauigkeit zu erschließen. Mit der erheblichen Beschleunigung und Kosteneffizienz, die Inf2 bietet, kann die Integration in die Amazon-Search-Serving-Infrastruktur uns helfen, die wachsenden Anforderungen unserer Kunden zu erfüllen. Wir planen, unsere neuen Einkaufserlebnisse mithilfe generativer LLMs mithilfe von Inf2 zu verbessern. „

Trishul Chilimbi, VP bei Amazon Search

Amazon logo featuring the brand name in black text with a yellow smile-shaped arrow underneath.

Erste Schritte

Stellen Sie Modelle mit Amazon SageMaker einfacher auf Inf2-Instances bereit und senken Sie die Kosten für die Bereitstellung von ML-Modellen erheblich, und steigern Sie die Leistung, ohne die Infrastruktur verwalten zu müssen. SageMaker ist ein vollständig verwalteter Dienst und lässt sich in MLOps-Tools integrieren. Daher können Sie Ihre Modellbereitstellung skalieren, Modelle in der Produktion effektiver verwalten und den Betriebsaufwand reduzieren.

Die AWS-Deep-Learning-AMIs (DLAMI) bieten DL-Praktikern und -Forschern die Infrastruktur und Tools, um Deep Learning in der Cloud in jedem Maß zu beschleunigen. Die AWS Neuron-Treiber sind in der DLAMI vorkonfiguriert, um Ihre DL-Modelle optimal auf Inf2-Instances bereitzustellen.

Sie können jetzt Inf2-Instances in Amazon Elastic Kubernetes Service (EKS), einem vollständig verwalteten Kubernetes-Service, und in Amazon Elastic Container Service (Amazon ECS), einem vollständig verwalteten Container-Orchestrierungs-Service, bereitstellen. Neuron ist auch in AWS-Deep-Learning-Containers vorinstalliert verfügbar. Weitere Informationen zum Ausführen von Containern auf Inf2-Instances finden Sie in den Tutorials zu Neuron-Containern.