AWS Inferentia

Hochleistungsfähiger Inferenzchip für Machine Learning, eigens von AWS entwickelt

AWS möchte Deep Learning allen Entwicklern zugänglich machen und den Zugriff auf modernste Infrastruktur allgemein und zu geringen, verbrauchsbasierten Kosten anbieten. AWS Inferentia ist Amazons erstes maßgefertigtes Silizium, das entwickelt wurde, um Deep Learning-Workloads zu beschleunigen, und ist Teil einer langfristigen Strategie zur Verwirklichung dieser Vision. AWS Inferentia wurde entwickelt, um Inferenz in der AWS Cloud mit hoher Leistung zu ermöglichen, die Gesamtkosten für Inferenz zu senken und es Entwicklern leicht zu machen, Machine Learning in ihre Anwendungen zu integrieren. Das AWS Neuron Software Development Kit (SDK), das aus einem Compiler, Laufzeit- und Profiling-Tools besteht, die zur Optimierung der Leistung von Workloads für AWS Inferentia beitragen, ermöglicht die Ausführung komplexer neuronaler Netzmodelle, die in gängigen Frameworks wie Tensorflow, PyTorch und MXNet erstellt und trainiert wurden, mit AWS Inferentia-basierten Amazon EC2 Inf1-Instanzen.

Amazon Alexa führt AWS Inferentia ein, um die Kosten für ML Inference zu senken

Vorteile

Hohe Leistung

Jeder AWS Inferentia Chip unterstützt bis zu 128 TOPS (Billionen von Operationen pro Sekunde) Leistung mit bis zu 16 Inferentia Chips pro EC2 Inf1 Instance. Inferentia ist für die Maximierung des Durchsatzes bei kleinen Losgrößen optimiert, was besonders für Anwendungen mit strengen Latenzanforderungen wie Sprachgenerierung und -suche von Vorteil ist.

Niedrige Latenz

AWS Inferentia verfügt über eine große Menge an On-Chip-Speicher, der für das Caching großer Modelle verwendet werden kann, anstatt diese Off-Chip zu speichern. Dies hat erhebliche Auswirkungen auf die Reduzierung der Inferenzlatenz, da die Verarbeitungs-Cores von Inferentia, die so genannten Neuron-Cores, mit hoher Geschwindigkeit auf Modelle zugreifen können, die im On-Chip-Speicher gespeichert und nicht durch die Bandbreite des Off-Chip-Speichers begrenzt sind.

Flexibilität

Entwickler können Modelle unter Verwendung gängiger Frameworks wie TensorFlow, PyTorch und MXNet schulen und sie mit Hilfe des AWS Neuron SDK leicht auf AWS Inferentia-basierten Inf1 Instances einsetzen. AWS Inferentia unterstützt die Datentypen FP16, BF16 und INT8. Darüber hinaus kann Inferentia ein trainiertes 32-Bit-Modell automatisch mit der Geschwindigkeit eines 16-Bit-Modells unter Verwendung von BFloat16 ausführen.

Amazon EC2 Inf1-Instances Powered by AWS Inferentia

Amazon EC2 Inf1 Instances, die auf AWS Inferentia Chips basieren, liefern bis zu 30 % höheren Durchsatz und bis zu 45 % niedrigere Kosten pro Inferenz als Amazon EC2 G4 Instances, die bereits die kostengünstigste Instance für Machine Learning Inferenz in der AWS Cloud waren. Inf1-Instances verfügen über bis zu 16 AWS Inferentia-Chips, die neuesten kundenspezifischen Intel® Xeon® Scalable-Prozessoren der 2. Generation und bis zu 100 Gbit/s Netzwerkfähigkeit, um Inferenzen mit hohem Durchsatz zu ermöglichen. Der einfachste und schnellste Weg mit Inf1-Instances zu beginnen, ist die Verwendung von Amazon SageMaker – ein vollständig verwalteter Service, der es Entwicklern ermöglicht, Machine Learning-Modelle schnell zu erstellen, zu schulen und bereitzustellen. Entwickler, die containerisierte Anwendungen verwenden, können auch den Amazon Elastic Kubernetes Service (EKS) verwenden, um Inf1-Instances bereitzustellen.

Weitere Informationen »

AWS Neuron SDK

AWS Neuron ist ein Softwareentwicklungskit (SDK) für die Durchführung von Inferenzen beim Machine Learning unter Verwendung von AWS Inferentia-Chips. Die Chips bestehen aus Compiler, Laufzeit- und Profilerstellungstools, die es Entwicklern ermöglichen, hochleistungsfähige und latenzarme Inferenz-Workloads auf AWS Inferentia-basierten Inf1-Instances auszuführen. AWS Neuron bietet Entwicklern die Flexibilität, ihre Machine Learning-Modelle in allen gängigen Frameworks wie TensorFlow, PyTorch und MXNet zu trainieren und optimal auf Amazon EC2 Inf1-Instances auszuführen. Das AWS Neuron-SDK ist in AWS Deep Learning-AMIs sowie in AWS Deep Learning Containers vorinstalliert.

Weitere Informationen » oder Erste Schritte »

Videos

AWS re:Invent 2019: Sehen Sie, wie Andy Jassy über Silizium-Investitionen und Inf1 spricht
AWS re:Invent 2019: ML Inferenz mit neuen Amazon EC2 Inf1-Instances, mit Amazon Alexa
Senken Sie die Kosten für die Ausführung von ML-Anwendungen mit neuen Amazon EC2 Inf1-Instances – AWS Online Tech Talks
Sign up for a free account
Registrieren Sie sich und erhalten Sie ein kostenloses Konto

Sie erhalten sofort Zugriff auf das kostenlose AWS-Kontingent. 

Registrieren 
Standard Product Icons (Start Building) Squid Ink
Entwicklung in der Konsole – Erste Schritte

Lernen Sie mehr über Machine Learning in der AWS-Konsole.

Anmeldung