Amazon-EC2-Inf2-Instances

Hohe Leistung zu den niedrigsten Kosten in Amazon EC2 für generative KI-Inferenz

Erste Schritte mit Inf2-Instances mit AWS Neuron

Amazon-Elastic-Compute-Cloud-Inf2-Instances (Amazon EC2) sind speziell für Deep-Learning-Inferenzen (DL) entwickelt worden. Sie liefern hohe Leistung zu den niedrigsten Kosten in Amazon EC2 für generative Modelle der künstlichen Intelligenz (KI), einschließlich großer Sprachmodelle (LLMs) und Vision-Transformatoren. Sie können Inf2-Instances verwenden, um Ihre Inferenzanwendungen für Textzusammenfassung, Codegenerierung, Video- und Bilderzeugung, Spracherkennung, Personalisierung, Betrugserkennung und mehr auszuführen.

Inf2-Instanzen werden von AWS Inferentia2, dem AWS Inferentia-Chip der zweiten Generation, betrieben. Inf2-Instances steigern die Leistung von Inf1, indem sie eine dreifach höhere Rechenleistung, einen vierfach größeren Gesamtspeicher für den Beschleuniger, einen bis zu vierfach höheren Durchsatz und eine bis zu zehnfach geringere Latenz bieten. Inf2-Instanzen sind die ersten für Inferenzen optimierten Instanzen in Amazon EC2, die verteilte Inferenzen mit Ultra-Hochgeschwindigkeits-Konnektivität zwischen Inferentia-Chips unterstützen. Sie können jetzt effizient und kostengünstig Modelle mit Hunderten von Milliarden von Parametern über mehrere Chips auf Inf2-Instanzen bereitstellen.

Das AWS Neuron SDK hilft Entwicklern, Modelle auf den AWS Inferentia-Chips bereitzustellen (und sie auf AWS Trainium-Chips zu trainieren). Es lässt sich nativ in Frameworks wie PyTorch und TensorFlow integrieren, so dass Sie Ihre bestehenden Workflows und Ihren Anwendungscode weiter nutzen und auf Inf2-Instances ausführen können.

Funktionsweise

Verwendung von AWS DLAMI
Amazon EKS verwenden
Amazon ECS verwenden
Amazon SageMaker verwenden

Verwendung von AWS DLAMI
Das Diagramm zeigt den Arbeitsablauf für die Bereitstellung von Amazon-EC2-Inf2-Instances mithilfe von AWS Deep Learning AMIs (DLAMI).

Die erste Spalte umfasst zwei vertikal gestapelte Abschnitte. Der erste Abschnitt oben enthält die folgenden Benutzeranwendungen, die in einem Feld gruppiert sind: AWS-Befehlszeilenschnittstelle (CLI), AWS-Tools und SDKs und AWS Cloud Control API. Der folgende Abschnitt enthält die AWS-Managementkonsole.

Der erste Abschnitt in dieser ersten Spalte enthält einen Pfeil, der auf eine startende Rakete zeigt, und darunter den folgenden Text: „DLAMI automatisch mit AWS CLI, SDK oder API starten“. Im zweiten Abschnitt dieser ersten Spalte zeigt ein Pfeil auf einen Raketenstart mit dem folgenden Text: „DLAMI über die Konsole starten.“

Beide Raketensymbole haben einen gemeinsamen Pfeil, der auf ein Feld zeigt, das Amazon-EC2-Inf2-Instances darstellt.

Rechts neben dem Inf2-Instance-Feld befindet sich ein Feld, das DLAMI darstellt. Dieses DLAMI-Feld ist in einem Feld um den folgenden Text gruppiert: „Lokales Terminal“, „EC2-Remote-Terminal“ und „Anwendungsskript“. Zu diesen drei Elementen gehört ein Pfeil, der zurück auf das DLAMI-Feld zeigt. Das DLAMI-Feld hat dann einen Pfeil, der zurück auf das Inf2-Instances-Feld zeigt.

Zum Vergrößern klicken
Amazon EKS verwenden
Das Diagramm zeigt den Arbeitsablauf für die Erstellung von Kubernetes-Clustern, die Bereitstellung von Amazon-EC2-Inf2-Instances für Ihre Cluster und die Ausführung Ihrer Inferenzanwendungen auf Kubernetes.

Das erste Feld steht für Amazon Elastic Kubernetes Service (Amazon EKS) und enthält den folgenden Text: „Kubernetes-Cluster erstellen (powered by Amazon EKS Distro).“

Ein Pfeil zeigt vom ersten Feld zum zweiten Feld für Amazon-EC2-Inf2-Instances. Dieses Feld enthält den folgenden Text: „Stellen Sie Inf2-Worker-Knoten für Ihren EKS-Cluster bereit.“

Ein Pfeil zeigt von diesem zweiten Feld zum letzten Element mit dem folgenden Text: „Führen Sie Ihre Inferenzanwendungen auf Kubernetes aus.“

Zum Vergrößern klicken
Amazon ECS verwenden
Das Diagramm zeigt den Arbeitsablauf für die Bereitstellung von Amazon-EC2-Inf2-Instances mithilfe von AWS-Deep-Learning-Containers mit Amazon Elastic Container Service (Amazon ECS).

Das erste Feld steht für Amazon Elastic Container Registry (Amazon ECR). Es enthält den folgenden Text: „Erstellen Sie Images und speichern Sie sie mit ECR oder einem anderen Repository.“

Ein Pfeil zeigt von diesem Feld auf ein Feld für Amazon ECS.

Ein Pfeil zeigt von diesem Feld auf ein Element, das den folgenden Text enthält: „Wählen Sie das Deep-Learning-Containerbild für Ihre Anwendung aus.“

Ein Pfeil zeigt von diesen Informationen auf ein Feld für Amazon-EC2-Inf2-Instances. Dieses Feld enthält den folgenden Text: „Inferenz-Workload auf Inf2 bereitstellen.“

Ein Pfeil zeigt von diesem Feld auf ein Element, das den folgenden Text enthält: „Container mit Amazon ECS verwalten.“

Zum Vergrößern klicken
Amazon SageMaker verwenden
Das Diagramm zeigt den Arbeitsablauf für die Verwendung von Modellartefakten, die in einem Amazon-Simple Storage-Service-Bucket (Amazon S3) und einem Amazon-ECR-Containerbild mit Amazon SageMaker gespeichert sind, um Inferenzen auf Inf2-Instances bereitzustellen.

Die erste Gruppe enthält zwei vertikal gestapelte Boxen. Das erste Feld oben ist für Amazon S3 und enthält den folgenden Text: „Im S3-Bucket gespeicherte Modellartefakte.“ Das zweite Feld darunter ist für Amazon Elastic Container Registry (Amazon ECR) und enthält den folgenden Text: „Containerbild.“

Diese erste Gruppe hat einen Pfeil, der auf Amazon SageMaker zeigt. Dieses Element ist mit einem Feld gruppiert, das die folgenden Workflow-Informationen enthält:

Zuerst folgt der folgende Text: „Erstellen Sie ein SageMaker-Modell.“ Ein Pfeil zeigt von diesem Element auf ein Feld für Amazon-EC2-Inf2-Instances mit dem folgenden Text: „Wählen Sie Inf2 als Ihre SageMaker-Inferenzoption (ml.inf2).“ Der nächste Pfeil zeigt von diesem Feld aus auf den folgenden Text: „Konfigurieren, erstellen und aufrufen Sie einen SageMaker-Endpunkt, um Inferenz zu erhalten.“

Zum Vergrößern klicken

Vorteile

Bereitstellen von generativen KI-Modellen mit 100B+-Parametern in großem Maßstab

Inf2-Instances sind die ersten inferenzoptimierten Instances in Amazon EC2, die verteilte Inferenz in großem Maßstab unterstützen. Sie können jetzt effizient Modelle mit Hunderten von Milliarden von Parametern über mehrere Inferentia-Chips auf Inf2-Instanzen bereitstellen und dabei die Ultra-Hochgeschwindigkeits-Konnektivität zwischen den Chips nutzen.

Steigern Sie die Leistung und senken Sie gleichzeitig die Kosten für Inferenzen erheblich

Inf2-Instances wurden entwickelt, um hohe Leistung bei niedrigsten Kosten in Amazon EC2 für Ihre DL-Bereitstellungen zu liefern. Diese bieten bis zu viermal schnelleren Durchsatz und eine bis zu zehnfach geringere Latenz als Amazon-EC2-Inf1-Instances. Inf2-Instances bieten eine bis zu 40 % bessere Preisleistung als andere vergleichbare Amazon-EC2-Instances.

Ihre vorhandenen ML-Frameworks und -Bibliotheken nutzen

Verwenden Sie AWS Neuron SDK, um die volle Leistung von Inf2-Instances zu extrahieren. Mit Neuron können Sie Ihre bestehenden Frameworks wie PyTorch und TensorFlow verwenden und erhalten eine optimierte Out-of-the-Box-Leistung für Modelle in beliebten Repositories wie Hugging Face. Neuron unterstützt Laufzeitintegrationen mit Serving-Tools wie TorchServe und TensorFlow Serving. Es hilft auch bei der Optimierung der Leistung mit integrierten Profil- und Debugging-Tools wie Neuron-Top und lässt sich in beliebte Visualisierungstools wie TensorBoard integrieren.

Verwirklichen Sie Ihre Ziele in Sachen Nachhaltigkeit mit einer energieeffizienten Lösung

Inf2-Instances liefern bis zu 50 % mehr Leistung/Watt als andere vergleichbare Amazon-EC2-Instances. Diese Instanzen und die zugrundeliegenden Inferentia2-Chips nutzen fortschrittliche Siliziumprozesse sowie Hardware- und Softwareoptimierungen, um eine hohe Energieeffizienz bei der Ausführung von DL-Modellen im großen Maßstab zu erreichen. Verwenden Sie Inf2-Instances, um Ihre Nachhaltigkeitsziele zu erreichen, wenn Sie ultragroße Modelle einsetzen.

Features

Bis zu 2.3 Petaflops mit AWS Inferentia2

Inf2-Instanzen werden von bis zu 12 AWS Inferentia2-Chips angetrieben, die mit dem ultraschnellen NeuronLink für eine optimierte kollektive Kommunikation verbunden sind. Sie bieten eine Rechenleistung von bis zu 2,3 Petaflops sowie einen bis zu viermal höheren Durchsatz und eine zehnmal geringere Latenz als Inf1-Instances.

Bis zu 384 GB Beschleunigerspeicher mit hoher Bandbreite

Um große DL-Modelle unterzubringen, bieten Inf2-Instances bis zu 384 GB gemeinsam genutzten Beschleunigerspeicher (32 GB HBM in jedem Inferentia2-Chip, viermal größer als Inferentia der ersten Generation) mit einer Gesamtspeicherbandbreite von 9,8 TB/s (zehnmal schneller als Inferentia der ersten Generation).

NeuronLink-Verbindung

Für die schnelle Kommunikation zwischen den Inferentia2-Chips unterstützen die Inferentia2-Instances 192 GB/s NeuronLink, einen schnellen, nicht blockierenden Interconnect. Inf2 ist die einzige inferenzoptimierte Instance, die diese Verbindung anbietet, ein Feature, die nur in teureren Trainingsinstances verfügbar ist. Bei sehr großen Modellen, die nicht in einen einzigen Chip passen, fließen die Daten mit NeuronLink direkt zwischen den Chips, so dass die CPU vollständig umgangen wird. Mit NeuronLink unterstützt Inf2 schnellere verteilte Inferenz und verbessert den Durchsatz und die Latenz.

Optimiert für neuartige Datentypen mit automatischem Casting

Inferentia2 unterstützt FP32, TF32, BF16, FP16, UINT8 und den neuen konfigurierbaren FP8-Datentyp (cFP8). AWS Neuron kann hochpräzise FP32- und FP16-Modelle nehmen und sie automatisch in Datentypen mit geringerer Genauigkeit übertragen, während die Genauigkeit und Leistung optimiert wird. Autocasting verkürzt die Zeit bis zur Markteinführung, da keine Nachschulung mit geringerer Genauigkeit mehr erforderlich ist und die Inferenz mit kleineren Datentypen leistungsfähiger wird.

DL-Optimierungen auf dem neuesten Stand der Technik

Um das schnelle Tempo der DL-Innovation zu unterstützen, verfügen Inf2-Instances über mehrere Innovationen, die sie flexibel und erweiterbar machen, um die sich ständig weiterentwickelnden DL-Modelle einzusetzen. Inf2-Instances verfügen über Hardwareoptimierungen und Softwareunterstützung für dynamische Eingabeformen. Um in Zukunft die Unterstützung neuer Operatoren zu ermöglichen, unterstützen sie benutzerdefinierte Operatoren, die in C++ geschrieben wurden. Sie unterstützen auch das stochastische Runden, eine Methode des wahrscheinlichkeitsbasierten Rundens, das im Vergleich zu herkömmlichen Rundungsmodi eine hohe Leistung und höhere Genauigkeit ermöglicht.

Produktdetails

Instance-Größe	Inferentia2-Chips	Beschleuniger Arbeitsspeicher (GB)	vCPU	Arbeitsspeicher (GiB)	Lokale Speicherung	Inter-Chip Interconnect	Netzwerk Bandbreite (Gbit/s)	EBS Bandbreite (Gbit/s)	On-Demand-Preise	Reservierte Instance für 1 Jahr	Reservierte Instance für 3 Jahre
inf2.xlarge	1	32	4	16	Nur EBS	–	Bis zu 15	Bis zu 10	0,76 USD	0,45 USD	0,30 USD
inf2.8xlarge	1	32	32	128	Nur EBS	–	Bis zu 25	10	1,97 USD	1,81 USD	0,79 USD
inf2.24xlarge	6	192	96	384	Nur EBS	Ja	50	30	6,49 USD	3,89 USD	2,60 USD
inf2.48xlarge	12	384	192	768	Nur EBS	Ja	100	60	12,98 USD	7,79 USD	5,19 USD

Kundenreferenzen

„Unser Team bei Leonardo nutzt generative KI, um Kreativprofis und -enthusiasten in die Lage zu versetzen, visuelle Inhalte mit unübertroffener Qualität, Geschwindigkeit und Stilkonsistenz zu produzieren. Das Preis-Leistungs-Verhältnis von AWS Inf2 Durch den Einsatz von AWS Inf2 können wir unsere Kosten um 80 % senken, ohne Abstriche bei der Leistung machen zu müssen. Dadurch ändert sich das Wertangebot für unsere Kunden grundlegend, da wir unsere fortschrittlichsten Features zu einem günstigeren Preis anbieten können. Außerdem werden dadurch Bedenken hinsichtlich der Kosten und der Verfügbarkeit von Kapazitäten für unsere zusätzlichen KI-Dienste ausgeräumt, die mit unserem Wachstum und unserer Größe immer wichtiger werden. Sie ist eine Schlüsseltechnologie für uns, mit der wir die Grenzen dessen, was mit generativer KI möglich ist, weiter ausreizen und eine neue Ära der Kreativität und Ausdruckskraft für unsere Nutzer ermöglichen.“

Pete Werner, Head of AI, Leonardo.ai

„Unsere KI-Magic-Tools bei Runway ermöglichen es unseren Nutzern, Inhalte wie nie zuvor zu erstellen und zu bearbeiten. Wir verschieben ständig die Grenzen dessen, was mit KI-gestützter Inhaltserstellung möglich ist, und da unsere KI-Modelle immer komplexer werden, können die zugrunde liegenden Infrastrukturkosten für den Betrieb dieser Modelle in großem Maßstab teuer werden. Durch unsere Zusammenarbeit mit Amazon-EC2-Inf2-Instances, die von AWS Inferentia betrieben werden, sind wir in der Lage, einige unserer Modelle mit einem bis zu zweimal höheren Durchsatz als vergleichbare GPU-basierte Instances auszuführen. Diese hochleistungsfähige und kostengünstige Inferenz ermöglicht es uns, mehr Features einzuführen, komplexere Modelle bereitzustellen und letztendlich ein besseres Erlebnis für die Millionen von Kreativen zu bieten, die Runway nutzen.“

Cristóbal Valenzuela, Cofounder and CEO, Runway

Qualtrics entwirft und entwickelt Software für das Erfahrungsmanagement.

„Bei Qualtrics konzentrieren wir uns auf die Entwicklung von Technologien, die Erfahrungslücken für Kunden, Mitarbeiter, Marken und Produkte schließen. Um dies zu erreichen, entwickeln wir komplexe Multi-Task- und multimodale DL-Modelle, um neue Features einzuführen, wie z. B. Textklassifizierung, Sequenz-Tagging, Diskursanalyse, Extraktion von Schlüsselsätzen, Themenextraktion, Clustering und durchgängiges Gesprächsverständnis. Da wir diese komplexeren Modelle in immer mehr Anwendungen einsetzen, wächst das Volumen an unstrukturierten Daten, und wir benötigen leistungsfähigere, inferenzoptimierte Lösungen, die diesen Anforderungen gerecht werden, wie z. B. Inf2-Instances, um unseren Kunden die besten Erlebnisse zu bieten. Wir freuen uns über die neuen Inf2-Instances, weil wir damit nicht nur einen höheren Durchsatz erreichen und gleichzeitig die Latenzzeit drastisch reduzieren können, sondern auch Features wie verteilte Inferenz und verbesserte Unterstützung für dynamische Eingabeformen einführen, die uns bei der Skalierung helfen werden, um den Bereitstellungsanforderungen gerecht zu werden, wenn wir auf größere, komplexere große Modelle zusteuern.“

Aaron Colak, Head of Core Machine Learning, Qualtrics

Finch Computing ist ein Technologieunternehmen für natürliche Sprache, das Anwendungen für künstliche Intelligenz für Behörden, Finanzdienstleistungen und Datenintegratoren anbietet.

„Um den Bedarf unserer Kunden an natürlicher Sprachverarbeitung in Echtzeit zu decken, entwickeln wir hochmoderne DL-Modelle, die für große Produktions-Workloads skalierbar sind. Wir müssen Transaktionen mit niedrigen Latenzzeiten anbieten und hohe Durchsätze erreichen, um globale Datenströme zu verarbeiten. Wir haben bereits viele Produktions-Workloads auf Inf1-Instances migriert und dabei eine Kostenreduzierung von 80 % gegenüber GPUs erzielt. Jetzt entwickeln wir größere, komplexere Modelle, die eine tiefere, aufschlussreichere Bedeutung von geschriebenen Texten ermöglichen. Viele unserer Kunden benötigen den Zugang zu diesen Erkenntnissen in Echtzeit, und die Leistung der Inf2-Instances wird uns helfen, niedrigere Latenzzeiten und einen höheren Durchsatz als bei Inf1-Instances zu erzielen. Mit den Leistungsverbesserungen von Inf2 und den neuen Inf2-Features, wie der Unterstützung dynamischer Eingabegrößen, verbessern wir unsere Kosteneffizienz, erhöhen das Echtzeit-Kundenerlebnis und helfen unseren Kunden, neue Erkenntnisse aus ihren Daten zu gewinnen.“

Franz Weckesser, Chief Architect, Finch Computing

Money Forward, Inc. bietet Unternehmen und Privatpersonen eine offene und faire Finanzplattform. Als Teil dieser Plattform bietet HiTTO Inc., ein Unternehmen der Money Forward-Gruppe, einen KI-Chatbot-Service an, der maßgeschneiderte Modelle zur Verarbeitung natürlicher Sprache (NLP) verwendet, um auf die unterschiedlichen Bedürfnisse ihrer Firmenkunden einzugehen.

„Wir haben einen groß angelegten KI-Chatbot-Service auf den Amazon EC2 Inf1-Instances gestartet und unsere Inferenzlatenz um 97 % gegenüber vergleichbaren GPU-basierten Instances reduziert und gleichzeitig die Kosten gesenkt. Wir waren sehr erfreut, in unseren ersten Testergebnissen auf Amazon EC2 Inf2-Instances weitere Leistungsverbesserungen zu sehen. Mit demselben benutzerdefinierten NLP-Modell konnte AWS Inf2 die Latenz gegenüber Inf1 weiter um das 10-fache reduzieren. Während wir zu größeren Modellen mit mehreren Milliarden Parametern übergehen, gibt uns Inf2 die Gewissheit, dass wir unseren Kunden weiterhin ein erstklassiges durchgängiges Benutzererlebnis bieten können.“

Takuya Nakade, CTO, Money Forward Inc.

„Wir bei Fileread.ai entwickeln Lösungen, die die Interaktion mit Ihren Dokumenten so einfach wie das Stellen von Fragen macht. So können Benutzer das Gesuchte in all ihren Dokumenten finden und erhalten schneller die richtigen Informationen. Seit der Umstellung auf die neue Inf2-EC2-Instance haben wir eine deutliche Verbesserung unserer NLP-Inferenzfunktionen festgestellt. Allein die Kosteneinsparungen waren für uns ein entscheidender Faktor und haben es uns ermöglicht, Ressourcen effizienter einzusetzen, ohne die Qualität zu beeinträchtigen. Wir haben unsere Inferenzlatenz um 33 % reduziert und gleichzeitig den Durchsatz um 50 % erhöht, was unsere Kunden mit schnelleren Durchlaufzeiten erfreut. Unser Team ist von der Geschwindigkeit und Leistung von Inf2 im Vergleich zu den älteren G5-Instances begeistert, und es ist klar, dass dies die Zukunft für den Einsatz von NLP-Modellen ist."

Daniel Hu, CEO, Fileread

„Wir bei Yaraku haben es uns zur Aufgabe gemacht, eine Infrastruktur aufzubauen, die den Menschen hilft, über Sprachbarrieren hinweg zu kommunizieren. Unser Hauptprodukt, YarakuZen, ermöglicht es jedem, vom professionellen Übersetzer bis zum einsprachigen Privatmann, Texte und Dokumente sicher zu übersetzen und nachzubearbeiten. Um diesen Prozess zu unterstützen, bieten wir eine breite Palette von hochentwickelten Werkzeugen an, die auf DL-Modellen basieren und Aufgaben wie Übersetzung, Bitext-Wort-Alignment, Satzsegmentierung, Sprachmodellierung und viele andere abdecken. Durch den Einsatz von Inf1-Instances konnten wir unsere Services beschleunigen, um der steigenden Nachfrage gerecht zu werden, und gleichzeitig die Inferenzkosten im Vergleich zu GPU-basierten Instances um mehr als 50 % senken. Wir beginnen jetzt mit der Entwicklung größerer Modelle der nächsten Generation, die die erweiterten Fähigkeiten von Inf2-Instances erfordern, um die Nachfrage zu befriedigen und gleichzeitig eine niedrige Latenz zu gewährleisten. Mit Inf2 werden wir in der Lage sein, unsere Modelle bei gleichbleibendem Durchsatz um das 10-fache zu skalieren, sodass wir unseren Kunden ein noch höheres Qualitätsniveau bieten können.“

Giovanni Giacomo, NLP Lead, Yaraku

Erfahrungsberichte von AWS-Partnern

„Hugging Face hat es sich zur Aufgabe gemacht, gute ML zu demokratisieren, um ML-Entwicklern auf der ganzen Welt zu helfen, reale Probleme zu lösen. Und der Schlüssel dazu ist, dass die neuesten und besten Modelle so schnell und effizient wie möglich auf den besten ML-Chips in der Cloud laufen. Wir freuen uns sehr über das Potenzial von Inferentia2, der neue Standard für den Einsatz generativer KI-Modelle in großem Maßstab zu werden. Mit Inf1 konnten wir die Kosten im Vergleich zu herkömmlichen GPU-basierten Instances um bis zu 70 % senken, und mit Inf2 haben wir eine bis zu 8-mal geringere Latenz für BERT-ähnliche Transformers im Vergleich zu Inferentia1 festgestellt. Mit Inferentia2 wird unsere Community in der Lage sein, diese Leistung problemlos auf LLMs mit mehr als 100B Parametern zu skalieren, und auch auf die neuesten Diffusions- und Computer-Vision-Modelle."

„PyTorch beschleunigt den Weg vom Forschungsprototyping zum Produktionseinsatz für ML-Entwickler. Wir haben mit dem AWS-Team zusammengearbeitet, um native PyTorch-Unterstützung für die neuen AWS Inferentia2-betriebenen Amazon-EC2-Inf2-Instances bereitzustellen. Da immer mehr Mitglieder unserer Community große generative KI-Modelle einsetzen möchten, freuen wir uns über die Zusammenarbeit mit dem AWS-Team, um die verteilte Inferenz auf Inf2-Instances mit der Hochgeschwindigkeitsverbindung NeuronLink zwischen Chips zu optimieren. Mit Inf2 können Entwickler, die PyTorch verwenden, jetzt problemlos ultragroße LLMs und Vision-Transformer-Modelle bereitstellen. Darüber hinaus bieten Inf2-Instances weitere innovative Fähigkeiten für PyTorch-Entwickler, einschließlich effizienter Datentypen, dynamischer Formen, benutzerdefinierter Operatoren und Hardware-optimierter stochastischer Rundung, was sie für eine breite Akzeptanz in der PyTorch-Gemeinschaft prädestiniert.“

„Weights & Biases (W&B) bietet Entwicklertools für ML-Ingenieure und Datenwissenschaftler, mit denen sie schneller bessere Modelle erstellen können. Die W&B-Plattform bietet ML-Praktikern eine Vielzahl von Einblicken zur Verbesserung der Leistung von Modellen, einschließlich der Nutzung der zugrunde liegenden Recheninfrastruktur. Wir haben mit dem AWS-Team zusammengearbeitet, um unserem Systemmetrik-Dashboard Unterstützung für Amazon Trainium und Inferentia2 hinzuzufügen, was wertvolle Daten liefert, die während der Modellexperimente und des Trainings dringend benötigt werden. So können ML-Anwender ihre Modelle optimieren, um die Vorteile der speziell entwickelten AWS-Hardware voll auszuschöpfen und ihre Modelle schneller und kostengünstiger zu trainieren.“

Phil Gurbacki, VP of Product, Weights & Biases

„OctoML hilft Entwicklern dabei, Kosten zu senken und skalierbare KI-Anwendungen zu erstellen, indem sie ihre DL-Modelle so verpacken, dass sie auf Hochleistungshardware laufen. Wir haben die letzten Jahre damit verbracht, Fachwissen über die besten Software- und Hardwarelösungen aufzubauen und diese in unsere Plattform zu integrieren. Unsere Wurzeln als Chipdesigner und Systemhacker machen AWS Trainium und Inferentia für uns noch spannender. Wir sehen diese Chips als einen wichtigen Faktor für die Zukunft der KI-Innovation in der Cloud. Die GA-Einführung von Inf2-Instances kommt genau zum richtigen Zeitpunkt, da sich LLM zu einem wichtigen Baustein für AI-Anwendungen der nächsten Generation entwickelt. Wir freuen uns, diese Instances auf unserer Plattform verfügbar zu machen, damit Entwickler ihre hohen Leistungs- und Kosteneinsparungsvorteile problemlos nutzen können.“

Jared Roesch, CTO and Cofounder, OctoML

„Die historische Herausforderung bei LLMs und generell bei generativen KI-Anwendungen auf Unternehmensebene sind die Kosten, die mit dem Training und dem Betrieb von Hochleistungs-DL-Modellen verbunden sind. Zusammen mit AWS Trainium beseitigt AWS Inferentia2 die finanziellen Kompromisse, die unsere Kunden eingehen, wenn sie leistungsstarke Trainings benötigen. Jetzt können unsere Kunden, die nach Vorteilen in den Bereichen Training und Inferenz suchen, bessere Ergebnisse für weniger Geld erzielen. Trainium und Inferentia beschleunigen die Skalierung, um selbst die anspruchsvollsten DL-Anforderungen der größten Unternehmen von heute zu erfüllen. Viele Nextira-Kunden, die große KI-Workloads ausführen, werden direkt von diesen neuen Chipsätzen profitieren, die die Effizienz bei Kosteneinsparungen und Leistung steigern und zu schnelleren Ergebnissen auf ihrem Markt führen.“

Jason Cutrer, founder and CEO, Nextira

Amazon-Services mit Amazon-EC2-Inf2-Instances

Amazon CodeWhisperer ist ein KI-Codierungsbegleiter, der in Ihrer integrierten Entwicklungsumgebung (IDE) in Echtzeit einzeilige oder voll funktionsfähige Codeempfehlungen generiert, um Sie bei der schnellen Erstellung von Software zu unterstützen.

„Mit CodeWhisperer verbessern wir die Produktivität von Softwareentwicklern, indem wir Codeempfehlungen mithilfe generativer KI-Modelle bereitstellen. Um hocheffektive Codeempfehlungen zu entwickeln, haben wir unser DL-Netzwerk auf Milliarden von Parametern skaliert. Unsere Kunden benötigen während der Eingabe Codeempfehlungen in Echtzeit, daher sind Antworten mit geringer Latenz von entscheidender Bedeutung. Große generative KI-Modelle benötigen leistungsstarke Rechenleistung, um Reaktionszeiten in Sekundenbruchteilen zu liefern. Mit Inf2 erreichen wir die gleiche Latenz wie bei der Ausführung von CodeWhisperer auf trainingsoptimierten GPU-Instances für große Eingabe- und Ausgabesequenzen. So helfen uns die Inf2-Instances, Kosten und Energie zu sparen und gleichzeitig die bestmögliche Erfahrung für Entwickler zu bieten.“

Doug Seven, Geschäftsführer von Amazon CodeWhisperer

Die Produktsuchmaschine von Amazon indexiert Milliarden von Produkten, bedient täglich Milliarden von Kundenanfragen und ist einer der meistgenutzten Dienste der Welt.

„Ich freue mich sehr auf den Start von Inf2 GA. Die überragende Leistung von Inf2 in Verbindung mit seiner Fähigkeit, größere Modelle mit Milliarden von Parametern zu verarbeiten, macht es zur perfekten Wahl für unsere Dienstleistungen und ermöglicht es uns, neue Möglichkeiten in Bezug auf Modellkomplexität und Genauigkeit zu erschließen. Mit der erheblichen Beschleunigung und Kosteneffizienz, die Inf2 bietet, kann die Integration in die Amazon-Search-Serving-Infrastruktur uns helfen, die wachsenden Anforderungen unserer Kunden zu erfüllen. Wir planen, unsere neuen Einkaufserlebnisse mit generativen LLMs unter Verwendung von Inf2 zu betreiben.“

Trishul Chilimbi, VP, Amazon Search

Erste Schritte

Amazon SageMaker verwenden

Stellen Sie Modelle mit Amazon SageMaker einfacher auf Inf2-Instances bereit und senken Sie die Kosten für die Bereitstellung von ML-Modellen erheblich, und steigern Sie die Leistung, ohne die Infrastruktur verwalten zu müssen. SageMaker ist ein vollständig verwalteter Dienst und lässt sich in MLOps-Tools integrieren. Daher können Sie Ihre Modellbereitstellung skalieren, Modelle in der Produktion effektiver verwalten und den Betriebsaufwand reduzieren.

Verwendung der AWS-Deep-Learning-AMIs

DieAWS-Deep-Learning-AMIs (DLAMI) bieten DL-Praktikern und -Forschern die Infrastruktur und Tools, um Deep Learning in der Cloud in jedem Maß zu beschleunigen. Die AWS Neuron-Treiber sind in der DLAMI vorkonfiguriert, um Ihre DL-Modelle optimal auf Inf2-Instances bereitzustellen.

Verwenden von AWS-Deep-Learning-Containers

Sie können jetzt Inf2-Instances in Amazon Elastic Kubernetes Service (EKS), einem vollständig verwalteten Kubernetes-Service, und in Amazon Elastic Container Service (Amazon ECS), einem vollständig verwalteten Container-Orchestrierungs-Service, bereitstellen. Neuron ist auch in AWS-Deep-Learning-Containers vorinstalliert verfügbar. Weitere Informationen zum Ausführen von Containern auf Inf2-Instances finden Sie in denTutorials zu Neuron-Containern.

Für ein AWS-Konto registrieren

Sie erhalten sofort Zugriff auf das kostenlose Kontingent für AWS.

Erfahren Sie mehr in unseren 10-minütigen Tutorials

Entdecken und lernen Sie mit einfachen Tutorials.

Beginnen Sie mit der Entwicklung in der Konsole

Erstellen Sie mithilfe von schrittweisen Anleitungen AWS-Projekte.