AWS Inferentia

Hochleistungsfähiger Inferenzchip für Machine Learning, eigens von AWS entwickelt

Die Nachfrage nach schnellerem Deep Learning nimmt rasant zu und wird immer vielseitiger. Anwendungen wie personalisierte Suchempfehlungen, dynamische Preise oder automatisierter Kundenservice werden immer ausgereifter und in der Produktion stets teurer. Da sich immer mehr Anwendungen Machine Learning zunutze machen, muss ein größerer Anteil an Workloads beschleunigt werden, einschließlich jener mit hohen Latenz- und Leistungsanforderungen. Diese Anwendungen profitieren von einer Infrastruktur, die für das Ausführen von Machine-Learning-Algorithmen optimiert ist.

AWS möchte Deep Learning allen Entwicklern zugänglich machen und den Zugriff auf modernste Hardware allgemein und zu geringen, verbrauchsbasierten Kosten anbieten. AWS Inferentia ist ein großer Schritt hin zu diesem Ziel. AWS Inferentia soll hohe Inferenzleistung per Cloud bereitstellen, die Gesamtkosten für Inferenz senken und die standardmäßige Integration von Machine Learning in die Funktionen Ihrer Anwendungen vereinfachen. AWS Inferentia beinhaltet das AWS Neuron-SDK (Software Development Kit), das aus einem Compiler, Laufzeit- und Profilerstellungstools besteht. Es ermöglicht komplexe Modelle neuronaler Netze, die in gängigen Frameworks wie Tensorflow, PyTorch und MXNet erstellt und geschult wurden und auf AWS Inferentia-basierten Amazon EC2 Inf1-Instances ausgeführt werden sollen.

AWS Inferentia

Vorteile

Hohe Leistung

Jeder AWS Inferentia-Chip unterstützt bis zu 128 TOPS (Trillions of Operations Per Second, Billionen Operationen pro Sekunde) bei geringerer Leistungsaufnahme, um mehrere Chips pro EC2-Instance einsetzen zu können. AWS Inferentia unterstützt die Datentypen FP16, BF16 und INT8. Außerdem kann Inferentia ein trainiertes 32-Bit-Modell per BFloat16 mit der Geschwindigkeit eines 16-Bit-Modells ausführen.

Niedrige Latenz

AWS Inferentia verfügt über eine große Menge an On-Chip-Speicher, der für das Caching umfangreicher Modelle verwendet werden kann, wodurch die Notwendigkeit entfällt, sie außerhalb des Chips zu speichern. Die Latenz bei der Inferenz wird so deutlich gesenkt, da die Verarbeitungskerne von Inferentia – die Neuron Cores – Hochgeschwindigkeitszugriff auf Modelle haben und nicht durch die Off-Chip-Speicherbandbreite limitiert sind.

Einfache Nutzung

Geschulte Machine Learning-Modelle können mit minimalen Code-Änderungen problemlos auf AWS Inferentia-basierte Amazon EC2 Inf1-Instances angewendet werden. Für einen schnellen Einstieg können Sie Amazon SageMaker verwenden, einen vollständig verwalteten Dienst zur Erstellung, Schulung und Bereitstellung von Machine Learning-Modellen. Entwickler die lieber ihre eigenen Workflows für die Erstellung und Bereitstellung ihrer Modelle verwalten möchten, können direkt das AWS Neuron-SDK verwenden, das nativ in gängige Frameworks wie TensorFlow, PyTorch und MXNet integriert ist. AWS Neuron ist auch in den AWS Deep Learning AMIs vorinstalliert und kann auch ohne Framework in Ihrer individuellen Umgebung installiert werden.

Amazon EC2 Inf1-Instances Powered by AWS Inferentia

Amazon EC2 Inf1-Instances bieten hohe Leistung und die niedrigsten Kosten für Machine Learning-Inferenz in der Cloud. Mit Inf1-Instances können Kunden groß angelegte Machine Learning-Inferenzanwendungen wie Bilderkennung, Spracherkennung, Verarbeitung natürlicher Sprache, Personalisierung und Betrugserkennung zu den niedrigsten Kosten in der Cloud ausführen.

Weitere Informationen »

Product-Page_Standard-Icons_02_Sign-Up_SqInk
Für ein kostenloses Konto registrieren

Sie erhalten sofort Zugriff auf das kostenlose AWS-Kontingent. 

Registrieren 
Product-Page_Standard-Icons_03_Start-Building_SqInk
Entwicklung in der Konsole – Erste Schritte

Lernen Sie mehr über Machine Learning in der AWS-Konsole.

Anmeldung