Amazon-EC2-Inf2-Instances

Hohe Leistung zu den niedrigsten Kosten in Amazon EC2 für die anspruchsvollsten Inferenz-Workloads

Amazon Elastic Compute Cloud (Amazon EC2) Inf2-Instances sind speziell für Deep-Learning(DL)-Inferenzen entwickelt worden. Sie wurden entwickelt, um hohe Leistung bei niedrigsten Kosten in Amazon EC2 für Ihre anspruchsvollsten DL-Anwendungen zu liefern. Sie können Inf2-Instances verwenden, um Ihre Inferenz-Anwendungen zum Verstehen der natürlichen Sprache, Sprachübersetzungen, Video- und Bildgenerierung, Spracherkennung, Personalisierung, Betrugserkennung und mehr auszuführen.

Inf2-Instances werden von AWS Inferentia2, dem AWS Inferentia-Beschleuniger der zweiten Generation, unterstützt. Im Vergleich zu Inf1-Instances bieten Inf2-Instances eine 3-mal höhere Rechenleistung, 4-mal höheren Beschleunigerspeicher, bis zu 4-mal höheren Durchsatz und bis zu 10-mal geringere Latenz. Inf2-Instances sind optimiert, um immer komplexere Modelle, wie z. B. große Sprachmodelle (LLM) und Bildtransformatoren, in großem Umfang einzusetzen. Inf2-Instances sind die ersten für Inferenzen optimierten Instances in Amazon EC2, die skalierbare verteilte Inferenzen mit Ultra-High-Speed-Konnektivität zwischen Beschleunigern unterstützen. Sie können jetzt ein 175B-Parametermodell zur Inferenz über mehrere Beschleuniger auf einer einzigen Inf2-Instance effizient einsetzen. Inf2-Instances bieten außerdem eine bessere Preisleistung als Inf1 für kleinere Modelle.

AWS Neuron ist ein SDK, das Entwicklern hilft, Modelle auf dem AWS-Trainium zu trainieren und Modelle auf AWS-Inferentia-Beschleunigern bereitzustellen. Es lässt sich nativ in Frameworks wie PyTorch und TensorFlow integrieren, damit Sie Ihre bestehenden Workflows weiter nutzen und mit nur wenigen Zeilen Code auf Inf2-Instances ausführen können.

Vorteile

Parametermodelle über 100B in großem Umfang einsetzen


Inf2-Instances sind die ersten für Inferenzen optimierten Instances in Amazon EC2, die skalierbare verteilte Inferenzen unterstützen und Ultra-High-Speed-Konnektivität zwischen Beschleunigern bieten. Sie können jetzt ein 175B-Parametermodell zur Inferenz über mehrere Beschleuniger auf einer einzigen Inf2-Instance effizient einsetzen.

Verbessern Sie die Leistung während Inferenzkosten erheblich gesenkt werden

Inf2-Instances wurden entwickelt, um hohe Leistung bei niedrigsten Kosten in Amazon EC2 für Ihre DL-Bereitstellungen zu liefern. Sie bieten bis zu viermal schnelleren Durchsatz und einer bis zu zehnfach geringeren Latenz als Amazon-EC2-Inf1-Instances.

Genießen Sie native Unterstützung für ML-Frameworks und -Bibliotheken


AWS Neuron SDK macht es leicht für Sie, mit nur ein paar Zeilen Code die volle Leistung aus Inf2-Instances zu gewinnen. Wenn Sie das Neuron SDK verwenden, können Sie Ihre Anwendungen auf Inf2-Instances ausführen und weiterhin Ihre bestehenden Workflows in PyTorch und TensorFlow nutzen.

Verwirklichen Sie Ihre Ziele in Sachen Nachhaltigkeit mit einer energieeffizienten Lösung

Inf2-Instances bieten eine bis zu 50 % bessere Leistung/Watt im Vergleich zu GPU-basierten Instances in Amazon EC2, da sie und die zugrunde liegenden Inferentia2-Beschleuniger speziell für die Ausführung von DL-Modellen in großem Maßstab entwickelt wurden. Inf2-Instances helfen Ihnen, Ihre Nachhaltigkeitsziele bei der Bereitstellung extrem großer Modelle zu erreichen.

Funktionen

Bis zu 2.3 Petaflops mit AWS Inferentia2

Inf2-Instances werden von bis zu zwölf AWS-Inferentia2-Beschleunigern angetrieben, die mit Ultra-High-Speed-NeuronLink für optimierte kollektive Kommunikationen verbunden sind. Sie bieten bis zu 2.3 Petaflops an Rechenleistung und bis zu viermal schnelleren Durchsatz und einer zehnfach niedrigeren Latenz als Inf1-Instances.

Bis zu 384 GB Beschleunigerspeicher mit hoher Bandbreite

Um sich großen DL-Modellen anzupassen bieten Inf2-Instances bis zu 384 GB an geteiltem Beschleunigerspeicher (32 GB HBM2e in jedem Inferentia2-Beschleuniger) mit 9,8 TB/s Gesamtspeicherbandbreite.

Inf2-Instances unterstützen NeuronLink, eine Intra-Instance Ultra-High-Speed nichtverriegelnde Vernetzung, für eine schnelle Kommunikation zwischen Beschleunigern.

Unterstützung für sechs Datentypen mit automatischem Casting

Inf2-Instances verfügen über eine vollständige Unterstützung für die Datentypen FP32, TF32, BF16, FP16, UINT8 und den neu konfigurierbaren Datentyp FP8 (cFP8). AWS Neuron übernimmt hochpräzise FP32-Modelle und wandelt sie automatisch in Datentypen mit geringerer Genauigkeit um, wobei Genauigkeit und Leistung optimiert werden. Autocasting verkürzt die Zeit bis zur Markteinführung, da keine Nachschulung mit geringerer Präzision erforderlich ist.

Hochmoderne Deep-Learning-Optimierungen

Inf2-Instances bieten Hardware-Optimierungen und Software-Support für dynamische Eingabegrößen und benutzerdefinierte Operatoren, die in C++ geschrieben sind. Sie unterstützen auch das stochastische Runden, eine Methode des wahrscheinlichkeitsbasierten Rundens, das im Vergleich zu herkömmlichen Rundungsmodi eine hohe Leistung und höhere Genauigkeit ermöglicht.

Produktdetails

Instance-Größe Inferentia2-Beschleuniger Accelerator
Arbeitsspeicher
(GB)
vCPU Arbeitsspeicher
(GiB)
Lokal
Speicherung
Inter-Beschleuniger
Verbindung
Netzwerk
Bandbreite
(Gbps)
EBS
Bandbreite
(Gbps)
inf2.xlarge 1 32 4 16 EBSOnly Entf. Bis zu 15 Bis zu 6,6
inf2.8xlarge 1 32 32 128 Nur EBS Entf. Bis zu 25 6,6
inf2.24xlarge 6 192 96 384 Nur EBS Ja 50 20
inf2.48xlarge 12 384 192 768 Nur EBS Ja 100 40

Kundenberichte

Qualtrics

Qualtrics entwirft und entwickelt Software für das Erfahrungsmanagement.

„Bei Qualtrics konzentrieren wir uns auf die Entwicklung von Technologien, die Erfahrungslücken für Kunden, Mitarbeiter, Marken und Produkte schließen. Um dies zu erreichen, entwickeln wir komplexe Multi-Task- und multimodale Deep-Learning-Modelle, um neue Funktionen einzuführen, wie z. B. Textklassifizierung, Sequenz-Tagging, Diskursanalyse, Extraktion von Schlüsselsätzen, Themenextraktion, Clustering und durchgängiges Gesprächsverständnis. Da wir diese komplexeren Modelle in immer mehr Anwendungen einsetzen, wächst das Volumen an unstrukturierten Daten, und wir benötigen leistungsfähigere, für Inferenzen optimierte Lösungen, die diesen Anforderungen gerecht werden, wie z. B. Inf2-Instances, um unseren Kunden die besten Erfahrungen zu bieten. Wir freuen uns über die neuen Inf2-Instances, weil wir damit nicht nur einen höheren Durchsatz erzielen und gleichzeitig die Latenzzeit drastisch reduzieren können, sondern auch Funktionen wie verteilte Inferenz und verbesserte Unterstützung für dynamische Eingabeformen einführen, die uns bei der Skalierung helfen werden, um den Einsatzanforderungen gerecht zu werden, wenn wir auf größere, komplexere große Modelle zusteuern.“

Aaron Colak, Head of Core Machine Learning, Qualtrics

Print

Finch Computing ist ein Technologieunternehmen für natürliche Sprache, das Anwendungen für künstliche Intelligenz für Behörden, Finanzdienstleister und Datenintegratoren anbietet.

„Um den Bedarf unserer Kunden an natürlicher Sprachverarbeitung in Echtzeit zu decken, entwickeln wir hochmoderne Deep-Learning-Modelle, die für große Produktions-Workloads skalierbar sind. Wir müssen Transaktionen mit niedrigen Latenzzeiten anbieten und hohe Durchsätze erreichen, um globale Datenströme zu verarbeiten. Wir haben bereits viele Produktions-Workloads auf Inf1-Instances migriert und dabei eine Kostenreduzierung von 80 % gegenüber GPUs erzielt. Jetzt entwickeln wir größere, komplexere Modelle, die eine tiefere, aufschlussreichere Bedeutung von geschriebenem Text ermöglichen. Viele unserer Kunden benötigen diese Einblicke in Echtzeit und die Leistung der Inf2-Instances wird uns helfen, niedrigere Latenzzeiten und einen höheren Durchsatz als bei Inf1-Instances zu erzielen. Mit den Leistungsverbesserungen von Inf2 und den neuen Inf2-Funktionen, wie der Unterstützung dynamischer Eingabegrößen, verbessern wir unsere Kosteneffizienz, erhöhen das Echtzeit-Kundenerlebnis und helfen unseren Kunden, neue Erkenntnisse aus ihren Daten zu gewinnen.“

Franz Weckesser, Chief Architect, Finch Computing

Registrieren Sie sich für ein AWS-Konto

Registrieren Sie sich für ein AWS-Konto

Sie erhalten sofort Zugriff auf das kostenlose Kontingent für AWS.

Mit einfachen Tutorials lernen

Erfahren Sie mehr in unseren 10-minütigen Tutorials

Entdecken und lernen Sie mit einfachen Tutorials.

Beginnen Sie mit der Entwicklung mit EC2 in der Konsole

Beginnen Sie mit der Entwicklung in der Konsole

Erstellen Sie mithilfe von schrittweisen Anleitungen AWS-Projekte.