Amazon-EC2-Inf2-Instances

Hohe Leistung zu den niedrigsten Kosten in Amazon EC2 für generative KI-Inferenz

Amazon-Elastic-Compute-Cloud-Inf2-Instances (Amazon EC2) sind speziell für Deep-Learning-Inferenzen (DL) entwickelt worden. Sie liefern hohe Leistung zu den niedrigsten Kosten in Amazon EC2 für generative Modelle der künstlichen Intelligenz (KI), einschließlich großer Sprachmodelle (LLMs) und Vision-Transformatoren. Sie können Inf2-Instanzen verwenden, um Ihre Inferenzanwendungen für Textzusammenfassung, Codegenerierung, Video- und Bilderzeugung, Spracherkennung, Personalisierung, Betrugserkennung und mehr auszuführen.

Inf2-Instances werden von AWS Inferentia2, dem AWS-Inferentia-Beschleuniger der zweiten Generation, unterstützt. Inf2-Instanzen steigern die Leistung von Inf1, indem sie eine dreifach höhere Rechenleistung, einen vierfach größeren Gesamtspeicher für den Beschleuniger, einen bis zu vierfach höheren Durchsatz und eine bis zu zehnfach geringere Latenz bieten. Inf2-Instances sind die ersten für Inferenzen optimierten Instances in Amazon EC2, die skalierbare verteilte Inferenzen mit Ultra-High-Speed-Konnektivität zwischen Beschleunigern unterstützen. Sie können jetzt effizient und kostengünstig Modelle mit Hunderten von Milliarden von Parametern für mehrere Beschleuniger auf Inf2-Instances bereitstellen.

Das AWS-Neuron-SDK hilft Entwicklern, Modelle auf den AWS-Inferentia-Beschleunigern bereitzustellen (und sie auf AWS-Trainium-Beschleunigern zu trainieren). Es lässt sich nativ in Frameworks wie PyTorch und TensorFlow integrieren, so dass Sie Ihre bestehenden Workflows und Ihren Anwendungscode weiter nutzen und auf Inf2-Instances ausführen können.

Funktionsweise

  • Verwendung von AWS DLAMI
  • Diagramm, das den Arbeitsablauf für die Bereitstellung von Amazon-EC2-Inf2-Instances mit AWS Deep Learning AMIs (DLAMI) zeigt.
  • Amazon EKS verwenden
  • Diagramm, das den Arbeitsablauf für die Erstellung von Kubernetes-Clustern, die Bereitstellung von Amazon-EC2-Inf2-Instances für Ihre Cluster und die Ausführung Ihrer Inferenzanwendungen auf Kubernetes zeigt.
  • Amazon ECS verwenden
  • Diagramm, das den Arbeitsablauf für die Bereitstellung von Amazon-EC2-Inf2-Instances mit AWS-Deep-Learning-Containers mit Amazon ECS zeigt.
  • Amazon SageMaker verwenden
  • Diagramm, das den Arbeitsablauf für die Verwendung von in einem Amazon S3-Bucket gespeicherten Modellartefakten und einem Amazon ECR-Containerbild mit Amazon SageMaker zeigt, um Inferenz auf Inf2-Instances bereitzustellen.

Vorteile

Bereitstellen von generativen KI-Modellen mit 100B+-Parametern in großem Maßstab

Inf2-Instances sind die ersten inferenzoptimierten Instances in Amazon EC2, die verteilte Inferenz in großem Maßstab unterstützen. Sie können jetzt Modelle mit Hunderten von Milliarden von Parametern für mehrere Beschleuniger auf Inf2-Instances effizient bereitstellen, indem Sie die Ultrahochgeschwindigkeitskonnektivität zwischen Beschleunigern nutzen.

Steigern Sie die Leistung und senken Sie gleichzeitig die Kosten für Inferenzen erheblich.

Inf2-Instances wurden entwickelt, um hohe Leistung bei niedrigsten Kosten in Amazon EC2 für Ihre DL-Bereitstellungen zu liefern. Diese bieten bis zu viermal schnelleren Durchsatz und eine bis zu zehnfach geringere Latenz als Amazon-EC2-Inf1-Instances. Inf2-Instances bieten eine bis zu 40 % bessere Preisleistung als andere vergleichbare Amazon-EC2-Instances.

Ihre vorhandenen ML-Frameworks und -Bibliotheken nutzen


Verwenden Sie AWS Neuron SDK, um die volle Leistung von Inf2-Instances zu extrahieren. Mit Neuron können Sie Ihre bestehenden Frameworks wie PyTorch und TensorFlow verwenden und erhalten eine optimierte Out-of-the-Box-Leistung für Modelle in beliebten Repositories wie Hugging Face. Neuron unterstützt Laufzeitintegrationen mit Serving-Tools wie TorchServe und TensorFlow Serving. Es hilft auch bei der Optimierung der Leistung mit integrierten Profil- und Debugging-Tools wie Neuron-Top und lässt sich in beliebte Visualisierungstools wie TensorBoard integrieren.

Verwirklichen Sie Ihre Ziele in Sachen Nachhaltigkeit mit einer energieeffizienten Lösung

Inf2-Instances liefern bis zu 50 % mehr Leistung/Watt als andere vergleichbare Amazon-EC2-Instances. Diese Instances und die zugrundeliegenden Inferentia2-Beschleuniger nutzen fortschrittliche Siliziumprozesse sowie Hardware- und Softwareoptimierungen, um eine hohe Energieeffizienz bei der Ausführung von DL-Modellen im großen Maßstab zu erreichen. Verwenden Sie Inf2-Instances, um Ihre Nachhaltigkeitsziele zu erreichen, wenn Sie ultragroße Modelle einsetzen

Features

Bis zu 2.3 Petaflops mit AWS Inferentia2

Inf2-Instances werden von bis zu 12 AWS Inferentia2-Beschleunigern angetrieben, die mit dem ultraschnellen NeuronLink für eine optimierte kollektive Kommunikation verbunden sind. Sie bieten eine Rechenleistung von bis zu 2,3 Petaflops sowie einen bis zu viermal höheren Durchsatz und eine zehnmal geringere Latenz als Inf1-Instances.

Bis zu 384 GB Beschleunigerspeicher mit hoher Bandbreite

Um große DL-Modelle unterzubringen, bieten Inf2-Instances bis zu 384 GB gemeinsam genutzten Beschleunigerspeicher (32 GB HBM in jedem Inferentia2-Beschleuniger, viermal größer als Inferentia der ersten Generation) mit einer Gesamtspeicherbandbreite von 9,8 TB/s (zehnmal schneller als Inferentia der ersten Generation).

Für die schnelle Kommunikation zwischen den Beschleunigern unterstützen die Inf2-Instances 192 GB/s NeuronLink, einen schnellen, nicht blockierenden Interconnect. Inf2 ist die einzige inferenzoptimierte Instance, die diese Verbindung anbietet, ein Feature, die nur in teureren Trainingsinstances verfügbar ist. Bei extrem großen Modellen, die nicht in einen einzigen Beschleuniger passen, fließen Daten mit NeuronLink direkt zwischen den Beschleunigern, wobei die CPU vollständig umgangen wird. Mit NeuronLink unterstützt Inf2 schnellere verteilte Inferenz und verbessert den Durchsatz und die Latenz.

Optimiert für neuartige Datentypen mit automatischem Casting

Inferentia2 unterstützt FP32, TF32, BF16, FP16, UINT8 und den neuen konfigurierbaren FP8-Datentyp (cFP8). AWS Neuron kann hochpräzise FP32- und FP16-Modelle nehmen und sie automatisch in Datentypen mit geringerer Genauigkeit übertragen, während die Genauigkeit und Leistung optimiert wird. Autocasting verkürzt die Zeit bis zur Markteinführung, da keine Nachschulung mit geringerer Genauigkeit mehr erforderlich ist und die Inferenz mit kleineren Datentypen leistungsfähiger wird.

DL-Optimierungen auf dem neuesten Stand der Technik

Um das schnelle Tempo der DL-Innovation zu unterstützen, verfügen Inf2-Instances über mehrere Innovationen, die sie flexibel und erweiterbar machen, um die sich ständig weiterentwickelnden DL-Modelle einzusetzen. Inf2-Instances verfügen über Hardwareoptimierungen und Softwareunterstützung für dynamische Eingabeformen. Um in Zukunft die Unterstützung neuer Operatoren zu ermöglichen, unterstützen sie benutzerdefinierte Operatoren, die in C++ geschrieben wurden. Sie unterstützen auch das stochastische Runden, eine Methode des wahrscheinlichkeitsbasierten Rundens, das im Vergleich zu herkömmlichen Rundungsmodi eine hohe Leistung und höhere Genauigkeit ermöglicht. 

Produktdetails

Instance-Größe Inferentia2-Beschleuniger Beschleuniger
Arbeitsspeicher
(GB)
vCPU Arbeitsspeicher
(GiB)
Lokale
Speicherung
Inter-Beschleuniger
Interconnect
Netzwerk
Bandbreite
(Gbit/s)
EBS
Bandbreite
(Gbit/s)
On-Demand-Preise Reservierte Instance für 1 Jahr Reservierte Instance für 3 Jahre
inf2.xlarge 1 32 4 16 Nur EBS Bis zu 15 Bis zu 10 0,76 USD 0,45 USD 0,30 USD
inf2.8xlarge 1 32 32 128 Nur EBS Bis zu 25 10 1,97 USD 1,81 USD 0,79 USD
inf2.24xlarge 6 192 96 384 Nur EBS Ja 50 30 6,49 USD 3,89 USD 2,60 USD
inf2.48xlarge 12 384 192 768 Nur EBS Ja 100 60 12,98 USD 7,79 USD 5,19 USD

Kundenreferenzen

„Unser Team bei Leonardo nutzt generative KI, um Kreativprofis und -enthusiasten in die Lage zu versetzen, visuelle Inhalte mit unübertroffener Qualität, Geschwindigkeit und Stilkonsistenz zu produzieren. Das Preis-Leistungs-Verhältnis von AWS Inf2 Durch den Einsatz von AWS Inf2 können wir unsere Kosten um 80 % senken, ohne Abstriche bei der Leistung machen zu müssen. Dadurch ändert sich das Wertangebot für unsere Kunden grundlegend, da wir unsere fortschrittlichsten Features zu einem günstigeren Preis anbieten können. Außerdem werden dadurch Bedenken hinsichtlich der Kosten und der Verfügbarkeit von Kapazitäten für unsere zusätzlichen KI-Dienste ausgeräumt, die mit unserem Wachstum und unserer Größe immer wichtiger werden. Sie ist eine Schlüsseltechnologie für uns, mit der wir die Grenzen dessen, was mit generativer KI möglich ist, weiter ausreizen und eine neue Ära der Kreativität und Ausdruckskraft für unsere Nutzer ermöglichen.“

Pete Werner, Head of AI, Leonardo.ai
Runway-Logo
„Unsere KI-Magic-Tools bei Runway ermöglichen es unseren Nutzern, Inhalte wie nie zuvor zu erstellen und zu bearbeiten. Wir verschieben ständig die Grenzen dessen, was mit KI-gestützter Inhaltserstellung möglich ist, und da unsere KI-Modelle immer komplexer werden, können die zugrunde liegenden Infrastrukturkosten für den Betrieb dieser Modelle in großem Maßstab teuer werden. Durch unsere Zusammenarbeit mit Amazon-EC2-Inf2-Instances, die von AWS Inferentia betrieben werden, sind wir in der Lage, einige unserer Modelle mit einem bis zu zweimal höheren Durchsatz als vergleichbare GPU-basierte Instances auszuführen. Diese hochleistungsfähige und kostengünstige Inferenz ermöglicht es uns, mehr Features einzuführen, komplexere Modelle bereitzustellen und letztendlich ein besseres Erlebnis für die Millionen von Kreativen zu bieten, die Runway nutzen.“

Cristóbal Valenzuela, Cofounder and CEO, Runway
Qualtrics

Qualtrics entwirft und entwickelt Software für das Erfahrungsmanagement.

„Bei Qualtrics konzentrieren wir uns auf die Entwicklung von Technologien, die Erfahrungslücken für Kunden, Mitarbeiter, Marken und Produkte schließen. Um dies zu erreichen, entwickeln wir komplexe Multi-Task- und multimodale DL-Modelle, um neue Features einzuführen, wie z. B. Textklassifizierung, Sequenz-Tagging, Diskursanalyse, Extraktion von Schlüsselsätzen, Themenextraktion, Clustering und durchgängiges Gesprächsverständnis. Da wir diese komplexeren Modelle in immer mehr Anwendungen einsetzen, wächst das Volumen an unstrukturierten Daten, und wir benötigen leistungsfähigere, inferenzoptimierte Lösungen, die diesen Anforderungen gerecht werden, wie z. B. Inf2-Instances, um unseren Kunden die besten Erlebnisse zu bieten. Wir freuen uns über die neuen Inf2-Instances, weil wir damit nicht nur einen höheren Durchsatz erreichen und gleichzeitig die Latenzzeit drastisch reduzieren können, sondern auch Features wie verteilte Inferenz und verbesserte Unterstützung für dynamische Eingabeformen einführen, die uns bei der Skalierung helfen werden, um den Bereitstellungsanforderungen gerecht zu werden, wenn wir auf größere, komplexere große Modelle zusteuern.“

Aaron Colak, Head of Core Machine Learning, Qualtrics
Finch Computing

Finch Computing ist ein Technologieunternehmen für natürliche Sprache, das Anwendungen für künstliche Intelligenz für Behörden, Finanzdienstleistungen und Datenintegratoren anbietet.

„Um den Bedarf unserer Kunden an natürlicher Sprachverarbeitung in Echtzeit zu decken, entwickeln wir hochmoderne DL-Modelle, die für große Produktions-Workloads skalierbar sind. Wir müssen Transaktionen mit niedrigen Latenzzeiten anbieten und hohe Durchsätze erreichen, um globale Datenströme zu verarbeiten. Wir haben bereits viele Produktions-Workloads auf Inf1-Instances migriert und dabei eine Kostenreduzierung von 80 % gegenüber GPUs erzielt. Jetzt entwickeln wir größere, komplexere Modelle, die eine tiefere, aufschlussreichere Bedeutung von geschriebenen Texten ermöglichen. Viele unserer Kunden benötigen den Zugang zu diesen Erkenntnissen in Echtzeit, und die Leistung der Inf2-Instances wird uns helfen, niedrigere Latenzzeiten und einen höheren Durchsatz als bei Inf1-Instances zu erzielen. Mit den Leistungsverbesserungen von Inf2 und den neuen Inf2-Features, wie der Unterstützung dynamischer Eingabegrößen, verbessern wir unsere Kosteneffizienz, erhöhen das Echtzeit-Kundenerlebnis und helfen unseren Kunden, neue Erkenntnisse aus ihren Daten zu gewinnen.“

Franz Weckesser, Chief Architect, Finch Computing
Logo von Money Forward

Money Forward, Inc. bietet Unternehmen und Privatpersonen eine offene und faire Finanzplattform. Als Teil dieser Plattform bietet HiTTO Inc., ein Unternehmen der Money Forward-Gruppe, einen KI-Chatbot-Service an, der maßgeschneiderte Modelle zur Verarbeitung natürlicher Sprache (NLP) verwendet, um auf die unterschiedlichen Bedürfnisse ihrer Firmenkunden einzugehen.

„Wir haben einen groß angelegten KI-Chatbot-Service auf den Amazon EC2 Inf1-Instances gestartet und unsere Inferenzlatenz um 97 % gegenüber vergleichbaren GPU-basierten Instances reduziert und gleichzeitig die Kosten gesenkt. Wir waren sehr erfreut, in unseren ersten Testergebnissen auf Amazon EC2 Inf2-Instances weitere Leistungsverbesserungen zu sehen. Mit demselben benutzerdefinierten NLP-Modell konnte AWS Inf2 die Latenz gegenüber Inf1 weiter um das 10-fache reduzieren. Während wir zu größeren Modellen mit mehreren Milliarden Parametern übergehen, gibt uns Inf2 die Gewissheit, dass wir unseren Kunden weiterhin ein erstklassiges durchgängiges Benutzererlebnis bieten können.“

Takuya Nakade, CTO, Money Forward Inc.
Logo von Fileread.ai
„Wir bei Fileread.ai entwickeln Lösungen, die die Interaktion mit Ihren Dokumenten so einfach wie das Stellen von Fragen macht. So können Benutzer das Gesuchte in all ihren Dokumenten finden und erhalten schneller die richtigen Informationen. Seit der Umstellung auf die neue Inf2-EC2-Instance haben wir eine deutliche Verbesserung unserer NLP-Inferenzfunktionen festgestellt. Allein die Kosteneinsparungen waren für uns ein entscheidender Faktor und haben es uns ermöglicht, Ressourcen effizienter einzusetzen, ohne die Qualität zu beeinträchtigen. Wir haben unsere Inferenzlatenz um 33 % reduziert und gleichzeitig den Durchsatz um 50 % erhöht, was unsere Kunden mit schnelleren Durchlaufzeiten erfreut. Unser Team ist von der Geschwindigkeit und Leistung von Inf2 im Vergleich zu den älteren G5-Instances begeistert, und es ist klar, dass dies die Zukunft für den Einsatz von NLP-Modellen ist."

Daniel Hu, CEO, Fileread
Yaraku-Logo
„Wir bei Yaraku haben es uns zur Aufgabe gemacht, eine Infrastruktur aufzubauen, die den Menschen hilft, über Sprachbarrieren hinweg zu kommunizieren. Unser Hauptprodukt, YarakuZen, ermöglicht es jedem, vom professionellen Übersetzer bis zum einsprachigen Privatmann, Texte und Dokumente sicher zu übersetzen und nachzubearbeiten. Um diesen Prozess zu unterstützen, bieten wir eine breite Palette von hochentwickelten Werkzeugen an, die auf DL-Modellen basieren und Aufgaben wie Übersetzung, Bitext-Wort-Alignment, Satzsegmentierung, Sprachmodellierung und viele andere abdecken. Durch den Einsatz von Inf1-Instances konnten wir unsere Services beschleunigen, um der steigenden Nachfrage gerecht zu werden, und gleichzeitig die Inferenzkosten im Vergleich zu GPU-basierten Instances um mehr als 50 % senken. Wir beginnen jetzt mit der Entwicklung größerer Modelle der nächsten Generation, die die erweiterten Fähigkeiten von Inf2-Instances erfordern, um die Nachfrage zu befriedigen und gleichzeitig eine niedrige Latenz zu gewährleisten. Mit Inf2 werden wir in der Lage sein, unsere Modelle bei gleichbleibendem Durchsatz um das 10-fache zu skalieren, sodass wir unseren Kunden ein noch höheres Qualitätsniveau bieten können.“

Giovanni Giacomo, NLP Lead, Yaraku

Erfahrungsberichte von AWS-Partnern

Hugging Face-Logo
„Hugging Face hat es sich zur Aufgabe gemacht, gute ML zu demokratisieren, um ML-Entwicklern auf der ganzen Welt zu helfen, reale Probleme zu lösen. Und der Schlüssel dazu ist, dass die neuesten und besten Modelle so schnell und effizient wie möglich auf den besten ML-Beschleunigern in der Cloud laufen. Wir freuen uns sehr über das Potenzial von Inferentia2, der neue Standard für den Einsatz generativer KI-Modelle in großem Maßstab zu werden. Mit Inf1 konnten wir die Kosten im Vergleich zu herkömmlichen GPU-basierten Instances um bis zu 70 % senken, und mit Inf2 haben wir eine bis zu 8-mal geringere Latenz für BERT-ähnliche Transformers im Vergleich zu Inferentia1 festgestellt. Mit Inferentia2 wird unsere Community in der Lage sein, diese Leistung problemlos auf LLMs mit mehr als 100B Parametern zu skalieren, und auch auf die neuesten Diffusions- und Computer-Vision-Modelle."  
PyTorch-Logo
„PyTorch beschleunigt den Weg vom Forschungsprototyping zum Produktionseinsatz für ML-Entwickler. Wir haben mit dem AWS-Team zusammengearbeitet, um native PyTorch-Unterstützung für die neuen AWS Inferentia2-betriebenen Amazon-EC2-Inf2-Instances bereitzustellen. Da immer mehr Mitglieder unserer Community große generative KI-Modelle einsetzen möchten, freuen wir uns über die Zusammenarbeit mit dem AWS-Team, um die verteilte Inferenz auf Inf2-Instances mit der Hochgeschwindigkeitsverbindung NeuronLink zwischen Beschleunigern zu optimieren. Mit Inf2 können Entwickler, die PyTorch verwenden, jetzt problemlos ultragroße LLMs und Vision Transformer-Modelle bereitstellen. Darüber hinaus bieten Inf2-Instances weitere innovative Fähigkeiten für PyTorch-Entwickler, einschließlich effizienter Datentypen, dynamischer Formen, benutzerdefinierter Operatoren und Hardware-optimierter stochastischer Rundung, was sie für eine breite Akzeptanz in der PyTorch-Gemeinschaft prädestiniert.“ 
Weight & Biases-Logo
„Weights & Biases (W&B) bietet Entwicklertools für ML-Ingenieure und Datenwissenschaftler, mit denen sie schneller bessere Modelle erstellen können. Die W&B-Plattform bietet ML-Praktikern eine Vielzahl von Einblicken zur Verbesserung der Leistung von Modellen, einschließlich der Nutzung der zugrunde liegenden Recheninfrastruktur. Wir haben mit dem AWS-Team zusammengearbeitet, um unserem Systemmetrik-Dashboard Unterstützung für Amazon Trainium und Inferentia2 hinzuzufügen, was wertvolle Daten liefert, die während der Modellexperimente und des Trainings dringend benötigt werden. So können ML-Anwender ihre Modelle optimieren, um die Vorteile der speziell entwickelten AWS-Hardware voll auszuschöpfen und ihre Modelle schneller und kostengünstiger zu trainieren.“

Phil Gurbacki, VP of Product, Weights & Biases
OctoML-Logo
„OctoML hilft Entwicklern dabei, Kosten zu senken und skalierbare KI-Anwendungen zu erstellen, indem sie ihre DL-Modelle so verpacken, dass sie auf Hochleistungshardware laufen. Wir haben die letzten Jahre damit verbracht, Fachwissen über die besten Software- und Hardwarelösungen aufzubauen und diese in unsere Plattform zu integrieren. Unsere Wurzeln als Chipdesigner und Systemhacker machen AWS Trainium und Inferentia für uns noch spannender. Wir sehen diese Beschleuniger als einen wichtigen Faktor für die Zukunft der KI-Innovation in der Cloud. Die GA-Einführung von Inf2-Instances kommt genau zum richtigen Zeitpunkt, da sich LLM zu einem wichtigen Baustein für KI-Anwendungen der nächsten Generation entwickelt. Wir freuen uns, diese Instances auf unserer Plattform verfügbar zu machen, damit Entwickler ihre hohen Leistungs- und Kosteneinsparungsvorteile problemlos nutzen können.“
 
Jared Roesch, CTO and Cofounder, OctoML
OctoML-Logo
„Die historische Herausforderung bei LLMs und generell bei generativen KI-Anwendungen auf Unternehmensebene sind die Kosten, die mit dem Training und dem Betrieb von Hochleistungs-DL-Modellen verbunden sind. Zusammen mit AWS Trainium beseitigt AWS Inferentia2 die finanziellen Kompromisse, die unsere Kunden eingehen, wenn sie leistungsstarke Trainings benötigen. Jetzt können unsere Kunden, die nach Vorteilen in den Bereichen Training und Inferenz suchen, bessere Ergebnisse für weniger Geld erzielen. Trainium und Inferentia beschleunigen die Skalierung, um selbst die anspruchsvollsten DL-Anforderungen der größten Unternehmen von heute zu erfüllen. Viele Nextira-Kunden, die große KI-Workloads ausführen, werden direkt von diesen neuen Chipsätzen profitieren, die die Effizienz bei Kosteneinsparungen und Leistung steigern und zu schnelleren Ergebnissen auf ihrem Markt führen.“

Jason Cutrer, founder and CEO, Nextira

Amazon-Services mit Amazon-EC2-Inf2-Instances

Amazon-Logo

Amazon CodeWhisperer ist ein KI-Codierungsbegleiter, der in Ihrer integrierten Entwicklungsumgebung (IDE) in Echtzeit einzeilige oder voll funktionsfähige Codeempfehlungen generiert, um Sie bei der schnellen Erstellung von Software zu unterstützen.

„Mit CodeWhisperer verbessern wir die Produktivität von Softwareentwicklern, indem wir Codeempfehlungen mithilfe generativer KI-Modelle bereitstellen. Um hocheffektive Codeempfehlungen zu entwickeln, haben wir unser DL-Netzwerk auf Milliarden von Parametern skaliert. Unsere Kunden benötigen während der Eingabe Codeempfehlungen in Echtzeit, daher sind Antworten mit geringer Latenz von entscheidender Bedeutung. Große generative KI-Modelle benötigen leistungsstarke Rechenleistung, um Reaktionszeiten in Sekundenbruchteilen zu liefern. Mit Inf2 erreichen wir die gleiche Latenz wie bei der Ausführung von CodeWhisperer auf trainingsoptimierten GPU-Instances für große Eingabe- und Ausgabesequenzen. So helfen uns die Inf2-Instances, Kosten und Energie zu sparen und gleichzeitig die bestmögliche Erfahrung für Entwickler zu bieten.“  

Doug Seven, Geschäftsführer von Amazon CodeWhisperer

Amazon-Logo

Die Produktsuchmaschine von Amazon indexiert Milliarden von Produkten, bedient täglich Milliarden von Kundenanfragen und ist einer der meistgenutzten Dienste der Welt.

„Ich freue mich sehr auf den Start von Inf2 GA. Die überragende Leistung von Inf2 in Verbindung mit seiner Fähigkeit, größere Modelle mit Milliarden von Parametern zu verarbeiten, macht es zur perfekten Wahl für unsere Dienstleistungen und ermöglicht es uns, neue Möglichkeiten in Bezug auf Modellkomplexität und Genauigkeit zu erschließen. Mit der erheblichen Beschleunigung und Kosteneffizienz, die Inf2 bietet, kann die Integration in die Amazon-Search-Serving-Infrastruktur uns helfen, die wachsenden Anforderungen unserer Kunden zu erfüllen. Wir planen, unsere neuen Einkaufserlebnisse mit generativen LLMs unter Verwendung von Inf2 zu betreiben.“ 

Trishul Chilimbi, VP, Amazon Search

Erste Schritte

Amazon SageMaker verwenden

Stellen Sie Modelle mit Amazon SageMaker einfacher auf Inf2-Instances bereit und senken Sie die Kosten für die Bereitstellung von ML-Modellen erheblich, und steigern Sie die Leistung, ohne die Infrastruktur verwalten zu müssen. SageMaker ist ein vollständig verwalteter Dienst und lässt sich in MLOps-Tools integrieren. Daher können Sie Ihre Modellbereitstellung skalieren, Modelle in der Produktion effektiver verwalten und den Betriebsaufwand reduzieren.

Verwendung der AWS-Deep-Learning-AMIs

DieAWS-Deep-Learning-AMIs (DLAMI) bieten DL-Praktikern und -Forschern die Infrastruktur und Tools, um Deep Learning in der Cloud in jedem Maß zu beschleunigen. Die AWS Neuron-Treiber sind in der DLAMI vorkonfiguriert, um Ihre DL-Modelle optimal auf Inf2-Instances bereitzustellen.

Verwenden von AWS-Deep-Learning-Containers

Sie können jetzt Inf2-Instances in Amazon Elastic Kubernetes Service (EKS), einem vollständig verwalteten Kubernetes-Service, und in Amazon Elastic Container Service (Amazon ECS), einem vollständig verwalteten Container-Orchestrierungs-Service, bereitstellen. Neuron ist auch in AWS-Deep-Learning-Containers vorinstalliert verfügbar. Weitere Informationen zum Ausführen von Containern auf Inf2-Instances finden Sie in denTutorials zu Neuron-Containern.

Registrieren Sie sich für ein AWS-Konto

Für ein AWS-Konto registrieren

Sie erhalten sofort Zugriff auf das kostenlose Kontingent für AWS.

Mit einfachen Tutorials lernen

Erfahren Sie mehr in unseren 10-minütigen Tutorials

Entdecken und lernen Sie mit einfachen Tutorials.

Beginnen Sie mit der Entwicklung mit EC2 in der Konsole

Beginnen Sie mit der Entwicklung in der Konsole

Erstellen Sie mithilfe von schrittweisen Anleitungen AWS-Projekte.