Produkte›
Machine Learning›
AWS Inferentia

AWS Inferentia

Erzielen Sie eine hohe Leistung bei niedrigsten Kosten in Amazon EC2 für Deep Learning- und generative KI-Inferenz

Erste Schritte mit AWS-Inferentia-Beschleunigern mit AWS Neuron

Warum Inferentia?

AWS Inferentia-Beschleuniger wurden von AWS entwickelt, um für Ihre Deep Learning- (DL) und generativen KI-Inferenzanwendungen eine hohe Leistung bei niedrigsten Kosten in Amazon EC2 bereitzustellen.

Der AWS-Inferentia-Beschleuniger der ersten Generation treibt Amazon Elastic Compute Cloud (Amazon EC2)-Inf1-Instances an, die einen bis zu 2,3-fach höheren Durchsatz und bis zu 70 % niedrigere Kosten pro Inferenz als vergleichbare Amazon-EC2-Instances bieten. Viele Kunden, darunter Airbnb, Snap, Sprinklr, Money Forward und Amazon Alexa, haben Inf1-Instances eingeführt und die Leistungs- und Kostenvorteile erkannt.

AWS Inferentia2-Beschleuniger bieten einen bis zu 4-mal höheren Durchsatz und eine bis zu 10-mal niedrigere Latenzzeit im Vergleich zu Inferentia. Inferentia2-basierte Amazon-EC2-Inf2-Instances sind für die skalierbare Bereitstellung zunehmend komplexer Modelle wie große Sprachmodelle (LLM) und latenter Diffusionsmodelle optimiert. Inf2-Instances sind die ersten für Inferenzen optimierten Instances in Amazon EC2, die skalierbare verteilte Inferenzen mit Ultra-High-Speed-Konnektivität zwischen Beschleunigern unterstützen. Viele Kunden, darunter Leonardo.ai, die Deutsche Telekom und Qualtrics, haben Inf2-Instances für ihre DL- und generativen KI-Anwendungen eingeführt.

AWS Neuron SDK hilft Entwicklern, Modelle auf den AWS-Inferentia-Beschleunigern bereitzustellen (und sie auf AWS-Trainium-Beschleunigern zu trainieren). Es lässt sich nativ in gängige Frameworks wie PyTorch und TensorFlow integrieren, sodass Sie Ihren bestehenden Code und Workflows weiter nutzen und auf Inferentia-Beschleunigern ausführen können.

Vorteile von Inferentia

Optimiert für hohen Durchsatz und niedrige Latenz

Jeder Inferentia-Beschleuniger der ersten Generation verfügt über vier NeuronCores der ersten Generation mit bis zu 16 Inferentia-Beschleunigern pro EC2-Inf1-Instance. Jeder Inferentia2-Beschleuniger verfügt über zwei NeuronCores der zweiten Generation mit bis zu 12 Inferentia2-Beschleunigern pro EC2-Inf2-Instance. Jeder Inferentia2-Beschleuniger unterstützt bis zu 190 Tera-Gleitkommeoperationen pro Sekunde (TFLOPS) FP16-Leistung. Die erste Generation von Inferentia verfügt über 8 GB DDR4-Speicher pro Beschleuniger und bietet außerdem eine große Menge an On-Chip-Speicher. Inferentia2 bietet 32 GB HBM pro Beschleuniger, was den Gesamtspeicher um das Vierfache und die Speicherbandbreite um das Zehnfache gegenüber Inferentia erhöht.

Native Unterstützung für ML-Frameworks

AWS Neuron SDK lässt sich nativ in beliebte ML-Frameworks wie PyTorch und TensorFlow integrieren. Mit AWS Neuron können Sie diese Frameworks nutzen, um DL-Modelle auf beiden AWS-Inferentia-Beschleunigern bereitzustellen, und Neuron ist so konzipiert, dass Codeänderungen und die Bindung an anbieterspezifische Lösungen minimiert werden. Neuron hilft Ihnen, Ihre Inferenzanwendungen für natürliche Sprachverarbeitung (NLP)/Verständnis, Sprachübersetzung, Textzusammenfassung, Video- und Bilderzeugung, Spracherkennung, Personalisierung, Betrugserkennung und mehr auf Inferentia-Beschleunigern auszuführen.

Große Auswahl an Datentypen mit automatischem Casting

Inferentia der ersten Generation unterstützt die Datentypen FP16, BF16 und INT8. Inferentia2 bietet zusätzliche Unterstützung für FP32, TF32 und den neuen konfigurierbaren FP8 (cFP8) Datentyp, um Entwicklern mehr Flexibilität zur Optimierung von Leistung und Genauigkeit zu bieten. AWS Neuron übernimmt hochpräzise FP32-Modelle und wandelt sie automatisch in Datentypen mit geringerer Genauigkeit um, wobei Genauigkeit und Leistung optimiert werden. Autocasting verkürzt die Zeit bis zur Markteinführung, da keine Nachschulung mit geringerer Präzision erforderlich ist.

Modernste DL-Fähigkeiten

Inferentia2 bietet Hardware-Optimierungen für dynamische Eingabegrößen und benutzerdefinierte, in C++ geschriebene Operatoren. Es unterstützt auch das stochastische Runden, eine Art des wahrscheinlichkeitsbasierten Rundens, das im Vergleich zu herkömmlichen Rundungsmodi eine hohe Leistung und höhere Genauigkeit ermöglicht.

Für Nachhaltigkeit gebaut

Inf2-Instances bieten eine bis zu 50 % bessere Leistung/Watt im Vergleich zu vergleichbaren Amazon-EC2-Instances, da sie und die zugrunde liegenden Inferentia2-Beschleuniger speziell für die Ausführung von DL-Modellen in großem Maßstab entwickelt wurden. Inf2-Instances helfen Ihnen, Ihre Nachhaltigkeitsziele bei der Bereitstellung extrem großer Modelle zu erreichen.

Videos

Ein Blick hinter die Kulissen der generativen KI-Infrastruktur bei Amazon

Einführung in Amazon-EC2-Inf2-Instances, die von AWS Inferentia2 unterstützt werden

Wie vier AWS-Kunden mit AWS Inferentia die ML-Kosten senkten und Innovationen vorantrieben

Ressourcen

Optimieren und implementieren Sie Llama 2-Modelle kosteneffizient in Amazon SageMaker JumpStart mit AWS Inferentia und AWS Trainium

Optimieren Sie Llama 2 mit QLoRA und stellen Sie es mit AWS Inferentia2 auf Amazon SageMaker bereit

Erhöhen Sie die Stable Diffusion-Leistung und senken Sie die Inferenzkosten mit AWS Inferentia2

Erzielen Sie eine hohe Leistung bei niedrigsten Kosten für generative KI-Inferenz mit AWS Inferentia2 und AWS Trainium in Amazon SageMaker

ByteDance spart mit AWS Inferentia bis zu 60 % der Inferenzkosten ein und reduziert gleichzeitig die Latenz und erhöht den Durchsatz

Wie Amazon Search mit AWS Inferentia die Kosten für ML-Inferenzen um 85 % reduzierte

Additional resources

Verwenden Sie AWS Neuron und beginnen Sie mit AWS Inferentia in TensorFlow, PyTorch oder MXNet

Weitere Informationen

Additional resources

AWS-Neuron-Funktions-Roadmap

Weitere Informationen

Erste Schritte mit Inferentia

Beginnen Sie mit der Entwicklung in der Konsole

Inferenzbeispiele/Tutorials (Inf2/Trn1)

Weitere Informationen