AWS Inferentia

Hochleistungsfähiger Inferenzchip für Machine Learning, eigens von AWS entwickelt

AWS möchte Deep Learning allen Entwicklern zugänglich machen und den Zugriff auf modernste Infrastruktur allgemein und zu geringen, verbrauchsbasierten Kosten anbieten. AWS Inferentia ist Amazons erstes maßgefertigtes Silizium, das entwickelt wurde, um Deep Learning-Workloads zu beschleunigen, und ist Teil einer langfristigen Strategie zur Verwirklichung dieser Vision. AWS Inferentia wurde entwickelt, um Inferenz in der AWS-Cloud mit hoher Leistung zu ermöglichen, die Gesamtkosten für Inferenz zu senken und es Entwicklern leicht zu machen, Machine Learning in ihre Anwendungen zu integrieren.

Das AWS Neuron Software Development Kit (SDK) besteht aus einem Compiler, Laufzeittreiber und Profilerstellungs-Tools, die zur Optimierung der Leistung von Workloads für AWS Inferentia beitragen. Entwickler können komplexe neuronale Netzwerkmodelle bereitstellen, die mit gängigen Frameworks wie Tensorflow, PyTorch und MXNet erstellt und trainiert wurden, und sie auf AWS-Inferentia-basierten Amazon-EC2-Inf1-Instances bereitstellen. Sie können weiterhin die gleichen ML-Frameworks verwenden, die Sie heute einsetzen, und Ihre Modelle mit minimalen Code-Änderungen und ohne Bindung an herstellerspezifische Lösungen auf Inf1 migrieren.

Amazon Alexa führt AWS Inferentia ein, um die Kosten für ML-Inference zu senken

Vorteile

Hohe Leistung

Jeder AWS Inferentia Chip unterstützt bis zu 128 TOPS (Billionen von Operationen pro Sekunde) Leistung mit bis zu 16 Inferentia Chips pro EC2 Inf1 Instance. Inferentia ist für die Maximierung des Durchsatzes bei kleinen Losgrößen optimiert, was besonders für Anwendungen mit strengen Latenzanforderungen wie Sprachgenerierung und -suche von Vorteil ist.

Niedrige Latenz

AWS Inferentia verfügt über eine große Menge an On-Chip-Speicher, der für das Caching großer Modelle verwendet werden kann, anstatt diese Off-Chip zu speichern. Dies hat erhebliche Auswirkungen auf die Reduzierung der Inferenzlatenz, da die Verarbeitungs-Cores von Inferentia, die so genannten Neuron-Cores, mit hoher Geschwindigkeit auf Modelle zugreifen können, die im On-Chip-Speicher gespeichert und nicht durch die Bandbreite des Off-Chip-Speichers begrenzt sind.

Einfache Nutzung

Entwickler können Modelle unter Verwendung gängiger Frameworks wie TensorFlow, PyTorch und MXNet schulen und sie mit Hilfe des AWS Neuron SDK leicht auf AWS-Inferentia-basierten Inf1 Instances einsetzen. AWS Inferentia unterstützt die Datentypen FP16, BF16 und INT8. Darüber hinaus kann Inferentia ein trainiertes 32-Bit-Modell automatisch mit der Geschwindigkeit eines 16-Bit-Modells unter Verwendung von BFloat16 ausführen.

Amazon-EC2 Inf1-Instances Powered by AWS Inferentia

Amazon-EC2 Inf1-Instances, die auf AWS-Inferentia-Chips basieren, liefern einen bis zu 2,3-fach höheren Durchsatz und bis zu 70 % niedrigere Kosten pro Inferenz als vergleichbare GPU-basierte Amazon-Inf1-Instances der aktuellen Generation. Inf1-Instances verfügen über bis zu 16 AWS-Inferentia-Chips, die neuesten kundenspezifischen Intel®-Xeon®-Scalable-Prozessoren der 2. Generation und bis zu 100 Gbit/s Netzwerkfähigkeit, um Inferenzen mit hohem Durchsatz zu ermöglichen. Der einfachste und schnellste Weg mit Inf1-Instances zu beginnen, ist die Verwendung von Amazon SageMaker – ein vollständig verwalteter Service, der es Entwicklern ermöglicht, Machine Learning-Modelle schnell zu erstellen, zu schulen und bereitzustellen. Entwickler, die containerisierte Anwendungen verwenden, können auch den Amazon Elastic Kubernetes Service (EKS) verwenden, um Inf1-Instances bereitzustellen.

Weitere Informationen »

AWS Neuron SDK

AWS Neuron ist ein Software-Development-Kit (SDK) für die Durchführung von Inferenzen beim Machine Learning unter Verwendung von AWS-Inferentia-Chips. Die Chips bestehen aus Compiler, Laufzeit- und Profilerstellungs-Tools, die es Entwicklern ermöglichen, hochleistungsfähige und latenzarme Inferenz-Workloads auf AWS-Inferentia-basierten Amazon-EC2-Inf1-Instances auszuführen. Mit Neuron können Entwickler ihre Machine-Learning-Modelle einfach auf jedem gängigen Framework wie TensorFlow, PyTorch und MXNet zu trainieren und optimal auf EC2-Inf1-Instances auszuführen. Sie können weiterhin die gleichen ML-Frameworks verwenden, die Sie heute einsetzen, und Ihre Software mit minimalen Code-Änderungen und ohne Bindung an herstellerspezifische Lösungen auf Inf1-Instances migrieren. AWS Neuron SDK ist in AWS-Deep-Learning-AMIs sowie in AWS-Deep-Learning-Containern vorinstalliert und erleichtert den Einstieg in Inf1-Instances.

Weitere Informationen » oder Erste Schritte »

Videos

AWS re:Invent 2019: Sehen Sie, wie Andy Jassy über Silizium-Investitionen und Inf1 spricht
AWS re:Invent 2019: ML Inferenz mit neuen Amazon EC2 Inf1-Instances, mit Amazon Alexa
Senken Sie die Kosten für die Ausführung von ML-Anwendungen mit neuen Amazon EC2 Inf1-Instances – AWS Online Tech Talks
Sign up for a free account
Registrieren Sie sich und erhalten Sie ein kostenloses Konto

Sie erhalten sofort Zugriff auf das kostenlose AWS-Kontingent. 

Registrieren 
Standard Product Icons (Start Building) Squid Ink
Entwicklung in der Konsole – Erste Schritte

Lernen Sie mehr über Machine Learning in der AWS-Konsole.

Anmeldung