Amazon EC2 Inf1-Instances

Hohe Leistung und niedrigste Kosten für Machine Learning in der Cloud

Amazon EC2 Inf1-Instances bieten hohe Leistung und die niedrigsten Kosten für Machine Learning in der Cloud. Inf1-Instances sind von Grund auf neu entwickelt worden, um Inferenzanwendungen für Machine Learning zu unterstützen. Inf1-Instances verfügen über bis zu 16 AWS Inferentia-Chips – leistungsstarke Machine Learning-Inferenz-Chips, die von AWS entwickelt und gebaut wurden. Darüber hinaus haben wir die Inferentia-Chips mit den neuesten kundenspezifischen Intel® Xeon® Scalable-Prozessoren der zweiten Generation und bis zu 100 Gbit/s Networking verbunden, um eine Inferenz mit hohem Durchsatz zu ermöglichen. Diese leistungsstarke Konfiguration ermöglicht es Inf1-Instances, bis zu 3x höheren Durchsatz und bis zu 40 % niedrigere Kosten pro Inferenz zu liefern als Amazon EC2 G4-Instances, die bereits die kostengünstigste Instance für Machine Learning-Inferenzen in der Cloud waren. Mit Inf1-Instances können Kunden groß angelegte Machine Learning-Inferenzanwendungen wie Bilderkennung, Spracherkennung, Verarbeitung natürlicher Sprache, Personalisierung und Betrugserkennung zu den niedrigsten Kosten in der Cloud ausführen.

Kunden aus einer Vielzahl von Branchen wenden sich dem Machine Learning zu, um gängige Anwendungsfälle für Anwendungen wie die Bereitstellung personalisierter Einkaufsempfehlungen, die Verbesserung der Sicherheit durch Moderation von Online-Inhalten und die Verbesserung der Kundenbindung durch Chatbots zu behandeln. Kunden wünschen sich mehr Leistung für ihre Machine-Learning-Anwendungen, um das bestmögliche Endbenutzererlebnis zu bieten.

Um mit Machine Learning-Inferenzen unter Verwendung von Inf1-Instances zu beginnen, können Sie Ihr geschultes Machine Learning-Modell nutzen und es so kompilieren, dass es über AWS Inferentia-Chip mittels AWS Neuron ausgeführt wird. AWS Neuron ist ein Software Development Kit (SDK) bestehend aus Compiler-, Laufzeit- und Profilierungs-Tools, welche die Machine Learning-Inferenzleistung von Inferentia-Chips optimieren. Es ist in beliebte Machine Learning-Frameworks wie TensorFlow, PyTorch und MXNet integriert, wird in AWS Deep Learning AMIs vorinstalliert und kann auch ohne Framework in Ihrer benutzerdefinierten Umgebung installiert werden. Der einfachste und schnellste Weg mit Inf1-Instances zu beginnen, ist die Verwendung von Amazon SageMaker – ein vollständig verwalteter Service, der es Entwicklern ermöglicht, Machine Learning-Modelle schnell zu erstellen, zu schulen und bereitzustellen. Amazon SageMaker unterstützt Inf1-Instances und AWS Neuron, um die Bereitstellung von Machine Learning-Modellen auf Auto Scaling Inf1-Instances mit einem Klick über mehrere Availability Zones hinweg zu ermöglichen und so eine hohe Redundanz zu gewährleisten.

SiteMerch-EC2-Instances_accelerated-trial_2up

Kostenlose Testversion: Bis zu 10.000 USD AWS-Guthaben für EC2 Hardware Accelerated-Instances, ideal für ML-, HPC- und Grafikanwendungen.

Zum Bewerben hier klicken 
Amazon EC2 Inf1-Instances basierend auf AWS Inferentia (2:51)

Vorteile

Bis zu 40 % weniger Kosten pro Inferenz

Der hohe Durchsatz von Inf1-Instanzen ermöglicht die niedrigsten Kosten pro Inferenz in der Cloud, bis zu 40 % weniger Kosten pro Inferenz als Amazon EC2 G4-Instances, die bereits die niedrigsten Kosten für Machine Learning-Inferenzen in der Cloud waren. Mit einem Anteil von bis zu 90 % an den Gesamtbetriebskosten für den Betrieb von Machine Learning-Workloads führt dies zu erheblichen Kosteneinsparungen.

Bis zu 3x höherer Durchsatz

Inf1-Instanzen liefern einen hohen Durchsatz für Batch-Inferenzanwendungen, bis zu 3x mehr Durchsatz als Amazon EC2 G4-Instances. Batch-Inferenzanwendungen, wie z. B. Photo-Tagging, reagieren empfindlich auf den Inferenzdurchsatz oder wie viele Inferenzen pro Sekunde verarbeitet werden können. Mit 1 bis 16 AWS Inferentia-Chips pro Instance können Inf1-Instances in der Leistung auf bis zu 2000 Tera Operations pro Sekunde (TOPS) skaliert werden.

Äußerst niedrige Latenz

Inf1-Instances bieten extrem niedrige Latenz für Echtzeitanwendungen. Echtzeit-Inferenzanwendungen, wie z. B. die Spracherkennung, müssen Inferenzen als Reaktion auf die Eingaben eines Benutzers schnell durchführen und sind empfindlich gegenüber Inferenz-Latenz. Der große On-Chip-Speicher auf AWS Inferentia-Chips, die in Inf1-Instances verwendet werden, ermöglicht das Caching von ML-Modellen direkt auf dem Chip. Dadurch entfällt der Zugriff auf externe Speicherressourcen während der Inferenz und eine geringe Latenz ohne Beeinträchtigung der Bandbreite wird ermöglicht.

Einfache Nutzung

Inf1-Instances sind einfach zu bedienen und erfordern wenig oder gar keine Code-Änderungen, um die Bereitstellung von Modellen zu unterstützen, die mit den gängigsten Machine Learning-Frameworks wie TensorFlow, PyTorch und MXNet geschult wurden. Der einfachste und schnellste Weg mit Inf1-Instances zu beginnen, ist die Verwendung von Amazon SageMaker – ein vollständig verwalteter Service, der es Entwicklern ermöglicht, Machine Learning-Modelle schnell zu erstellen, zu schulen und bereitzustellen.

Flexibilität für verschiedene Machine Learning-Modelle

Mit AWS Neuron unterstützen Inf1-Instances viele gängige Machine Learning-Modelle wie Single Shot Detector (SSD) und ResNet zur Bilderkennung/-klassifizierung sowie Transformer und BERT zur Verarbeitung und Übersetzung natürlicher Sprache.

Unterstützung für mehrere Datentypen

Inf1-Instances unterstützen mehrere Datentypen wie INT8, BF16 und FP16 mit gemischter Präzision, um eine Vielzahl von Modellen und Leistungsanforderungen zu unterstützen.

Amazon SageMaker

Amazon SageMaker macht es Ihnen leicht, Ihr geschultes Machine Learning-Modell in der Produktion auf Amazon Inf1-Instances zu kompilieren und bereitzustellen, damit Sie mit der Generierung von Echtzeit-Prognosen mit niedriger Latenz beginnen können. Amazon SageMaker ist ein vollständig verwalteter Dienst, der jedem Entwickler und Daten-Wissenschaftler die Möglichkeit bietet, Machine Learning-Modelle schnell zu erstellen, zu schulen und bereitzustellen. Amazon SageMaker beseitigt in jedem Schritt des Machine Learning-Prozesses die schwierigen Aufgaben und vereinfacht so die Entwicklung hochwertiger Modelle, ihre Abstimmung zur Leistungsoptimierung und eine schnelle Bereitstellung in der Produktion. AWS Neuron ist der Compiler für AWS Inferentia und bereits in Amazon SageMaker Neo integriert, sodass Sie Ihre geschulten Machine Learning-Modelle so kompilieren können, dass sie auf Inf1-Instances optimal ausgeführt werden. Mit Amazon SageMaker können Sie Ihre Modelle problemlos auf Auto Scaling-Clustern von Inf1-Instances, die über mehrere Availability Zones verteilt sind, ausführen lassen, um sowohl höchste Leistungen als auch Echtzeit-Inferences mit höchster Verfügbarkeit zu gewährleisten.

Weitere Informationen »

Funktionsweise

Verwendungsweise von Inf1 und AWS Inferentia

AWS Inferentia-Chips

AWS Inferentia ist ein Inferenzchip für Machine Learning, der von AWS entwickelt und gebaut wurde, um hohe Leistung zu niedrigen Kosten zu liefern. Jeder AWS Inferentia-Chip hat 4 Neuronen-Kerne und unterstützt die Datentypen FP16, BF16 und INT8. AWS Inferentia-Chips verfügen über einen großen On-Chip-Speicher, der für das Caching umfangreicher Modelle verwendet werden kann, was besonders bei Modellen mit häufigen Speicherzugriffen vorteilhaft ist. AWS Inferentia wird mit dem AWS Neuron Software Development Kit (SDK) bereitgestellt, das Compiler-, Laufzeit- und Profilierungs-Tools umfasst. Es ermöglicht die Ausführung komplexer neuronaler Netzmodelle, die in gängigen Frameworks wie Tensorflow, PyTorch und MXNet erstellt und geschult wurden, unter Verwendung von auf AWS Inferentia basierenden Amazon EC2 Inf1-Instances. AWS Neuron unterstützt auch die Möglichkeit, große Modelle für die Ausführung auf mehreren Inferentia-Chips aufzuteilen, indem eine sehr schnelle physikalische Chip-to-Chip Interconnect verwendet wird. Dadurch wird ein hoher Inferenzdurchsatz und niedrigere Inferenzkosten erreicht.

Weitere Informationen >>

Anwendungsfälle

Empfehlungen

Machine Learning wird zunehmend dazu verwendet, die Kundenbindung durch Förderung personalisierter Produkt- und Inhaltsempfehlungen, maßgeschneiderte Suchergebnisse und zielgerichtete Marketing-Werbekampagnen zu verbessern.

Prognosen

Heutzutage verwenden Unternehmen alles Mögliche, von einfachen Tabellenblättern bis hin zu komplexer Software zur Finanzplanung, um präzise Prognosen zu zukünftigen Unternehmensergebnissen zu stellen, wie z. B. Produktnachfrage, Mittelbedarf oder finanzielle Leistungsfähigkeit. Diese Tools erstellen Prognosen anhand von Zeitreihen historischer Daten, die als Zeitreihendaten bezeichnet werden. Unternehmen nutzen zunehmend Machine Learning, um Zeitreihendaten mit zusätzlichen Variablen zu kombinieren und Prognosen zu erstellen.

Bild- und Videoanalyse

Machine Learning wird heute verwendet, um Objekte, Personen, Texte, Szenen und Aktivitäten zu identifizieren und unangemessene Inhalte in Bildern oder Videos zu erkennen. Darüber hinaus können Gesichtsanalyse und Gesichtserkennung bei Bildern und Videos durchgeführt werden, um zu erkennen, analysieren und vergleichen, z. B. für die Benutzerverifizierung, zum Zählen von Personen und im Rahmen der öffentlichen Sicherheit.

Erweiterte Textanalyse

Machine Learning ist in einem nahezu unbegrenzten Ausmaß besonders gut für die akkurate Erkennung bestimmter relevanter Elemente in umfangreichen Textschwaden (wie z. B. Firmennamen in analytischen Berichten) geeignet und kann die in der Sprache verborgene Stimmung (negative Rezensionen oder positive Kundeninteraktionen mit Kundendienstmitarbeitern) aufdecken.

Dokumentenanalyse

Machine Learning kann verwendet werden, um sofort praktisch jede Art von Dokument zu lesen und Texte und Daten korrekt zu extrahieren – ganz ohne manuelle Prüfung oder angepassten Code. Sie können Dokumenten-Workflows schnell automatisieren und so eine Million Dokumentenseiten in wenigen Stunden verarbeiten.

Stimme

Unternehmen können Machine Learning verwenden, um Text in realistische Sprachausgabe zu verwandeln, sodass Sie sprechende Anwendungen und ganz neue Kategorien sprachfähiger Produkte entwickeln können. Der Text-zu-Sprache (TTS)-Service synthetisiert mit Hilfe modernster Deep Learning-Technologien Sprache, die sich wie eine menschliche Stimme anhört.

Gesprächsagenten

Die KI spielt eine Rolle bei der Verbesserung des Kundenerlebnisses in Call Centern, um die Kundeneinbindung durch Chatbots – intelligente, natürlichsprachige virtuelle Assistenten – zu ermöglichen. Diese Chatbots sind in der Lage, menschliche Sprache zu erkennen und die Absicht des Anrufers zu verstehen, ohne dass der Anrufer in bestimmten Sätzen sprechen muss. Anrufer können beispielsweise ihr Passwort ändern, ihren Kontostand abrufen oder einen Termin vereinbaren, ohne mit einem Mitarbeiter des Kontaktcenters zu sprechen.

Übersetzung

Unternehmen können Machine Learning-basierte Übersetzungen verwenden, um genauere und natürlichere Übersetzungen als herkömmliche statistische und regelbasierte Übersetzungsalgorithmen zu liefern. Unternehmen können Inhalte wie Websites und Anwendungen für Benutzer einer anderen Sprache lokalisieren und große Textmengen effizient übersetzen.

Transkription

Machine Learning-Transkription kann für viele gängige Anwendungen verwendet werden, einschließlich der Transkription von Anrufen beim Kundenservice und dem Generieren von Untertiteln für Audio- und Videoinhalte. Transkriptionsservices können jedes Wort mit einem Zeitstempel versehen, so dass Sie das Audio in der Originalquelle leicht finden können, indem Sie nach dem Text suchen.

Betrugserkennung

Betrugserkennung mittels Machine Learning erkennt potenziell betrügerischer Aktivitäten und kennzeichnet sie zur Überprüfung. Die Betrugserkennung wird typischerweise in der Finanzdienstleistungsbranche verwendet, um Transaktionen als legitim oder betrügerisch einzustufen, wobei ein Modell verwendet wird, das eine Transaktion anhand von Betrag, Standort, Händler oder Zeit bewertet.

Gesundheitswesen

Das Ziel von Machine Learning im Gesundheitswesen besteht darin, Ärzten die Möglichkeit zu geben, Patienten schneller zu behandeln und nicht nur Kosten zu senken, sondern auch die Ergebnisse zu verbessern. Krankenhäuser verbessern traditionelle Bildgebungstechnologien wie Ultraschall und CT-Scans, indem sie eine Vielzahl von Datensätzen – von Patienten erfasste Daten, Sensordaten und zahlreiche andere Quellen – in den Scanprozess integrieren, und Machine Learning-Algorithmen sind in der Lage, den Unterschied zwischen normalen und abnormalen Ergebnissen zu erkennen.

Preise

Erste Schritte

Um ein geschultes Machine Learning-Modell auf Inf1 zu kompilieren und bereitzustellen, können Sie Amazon SageMaker oder das AWS Neuron SDK verwenden.

• Erste Schritte mit AWS Neuron auf Github
• Erhalten Sie Support im AWS Neuron-Entwicklerforum
• Lernen Sie mit Amazon SageMaker-Beispielen auf Github, wie man Inf1 mit Amazon SageMaker bereitstellt