Amazon EC2 Inf1-Instances

Hohe Leistung und niedrigste Kosten für Machine Learning in der Cloud

Amazon EC2 Inf1-Instances sind von Grund auf neu entwickelt worden, um Inferenzanwendungen für Machine Learning zu unterstützen. Inf1-Instanzen verfügen über bis zu 16 AWS Inferentia-Chips, leistungsstarke maschinell lernende Inferenz-Chips, die von AWS entwickelt und gebaut wurden. Darüber hinaus haben wir die Inferentia-Chips mit den neuesten kundenspezifischen Intel® Xeon® Scalable-Prozessoren der zweiten Generation und bis zu 100 Gbit/s Networking verbunden, um eine Inferenz mit hohem Durchsatz zu ermöglichen. Diese leistungsstarke Konfiguration ermöglicht es Inf1-Instances, bis zu 3x höheren Durchsatz und bis zu 40 % niedrigere Kosten pro Inferenz zu liefern als Amazon EC2 G4-Instances, die bereits die kostengünstigste Instance für ML-Inferenzen in der Cloud waren. Mit Inf1-Instances können Kunden groß angelegte Inferenzanwendungen wie Bilderkennung, Spracherkennung, Verarbeitung natürlicher Sprache, Personalisierung und Betrugserkennung zu den niedrigsten Kosten in der Cloud ausführen.

Inf1-Instances

Kunden aus einer Vielzahl von Branchen wenden sich dem Machine Learning zu, um gängige Anwendungsfälle für Anwendungen wie die Bereitstellung personalisierter Einkaufsempfehlungen, die Verbesserung der Sicherheit durch Moderation von Online-Inhalten und die Verbesserung der Kundenbindung durch Chatbots zu behandeln. Kunden wünschen sich mehr Leistung für ihre ML-Anwendungen, um das bestmögliche Endbenutzererlebnis zu bieten.

Amazon EC2 Inf1-Instances bieten hohe Leistung und die niedrigsten Kosten für Machine Learning in der Cloud. Sie können Ihren ML-Workflow starten, indem Sie Ihr Modell in einem der gängigen ML-Frameworks wie TensorFlow, PyTorch oder MXNet erstellen und GPU-Instances wie P3 oder P3dn zum Trainieren Ihres Modells verwenden. Sobald Ihr Machine Learning-Modell so geschult ist, dass es Ihren Anforderungen entspricht, können Sie Ihr Modell auf Inf1-Instances bereitstellen, indem Sie AWS Neuron verwenden, ein spezialisiertes Software Development Kit (SDK), bestehend aus einem Compiler, Laufzeit- und Profilerstellungstools, das die Inferenzleistung von Inferentia-Chips optimiert. Neuron ist in den AWS Deep Learning AMIs vorinstalliert und kann auch ohne Framework in Ihrer individuellen Umgebung installiert werden. Darüber hinaus wird Neuron in AWS Deep Learning Containern und Amazon SageMaker vorinstalliert, dem einfachsten Weg, um mit Machine Learning erfolgreich zu sein.

Vorteile

Bis zu 40 % weniger Kosten pro Inferenz

Der hohe Durchsatz von Inf1-Instanzen ermöglicht die niedrigsten Kosten pro Inferenz in der Cloud, bis zu 40 % weniger Kosten pro Inferenz als Amazon EC2 G4-Instances, die bereits die niedrigsten Kosten für ML-Inferenzen in der Cloud waren. Mit einem Anteil von bis zu 90 % an den Gesamtbetriebskosten für den Betrieb von ML-Workloads führt dies zu erheblichen Kosteneinsparungen.

Bis zu 3x höherer Durchsatz

Inf1-Instanzen liefern einen hohen Durchsatz für Batch-Inferenzanwendungen, bis zu 3x mehr Durchsatz als Amazon EC2 G4-Instances. Batch-Inferenzanwendungen, wie z. B. Photo-Tagging, reagieren empfindlich auf den Inferenzdurchsatz oder wie viele Inferenzen pro Sekunde verarbeitet werden können. Mit 1 bis 16 AWS Inferentia-Chips pro Instance können Inf1-Instances in der Leistung auf bis zu 2000 Tera Operations pro Sekunde (TOPS) skaliert werden.

Äußerst niedrige Latenz

Inf1-Instances bieten extrem niedrige Latenz für Echtzeitanwendungen. Echtzeit-Inferenzanwendungen, wie z. B. die Spracherkennung, müssen Inferenzen als Reaktion auf die Eingaben eines Benutzers schnell durchführen und sind empfindlich gegenüber Inferenz-Latenz. Der große On-Chip-Speicher auf AWS Inferentia-Chips, die in Inf1-Instances verwendet werden, ermöglicht das Caching von ML-Modellen direkt auf dem Chip. Dadurch entfällt der Zugriff auf externe Speicherressourcen während der Inferenz und eine geringe Latenz ohne Beeinträchtigung der Bandbreite wird ermöglicht.

Einfache Nutzung

Inf1-Instances sind einfach zu bedienen und erfordern wenig oder gar keine Code-Änderungen, um Modelle zu unterstützen, die mit den gängigsten ML-Frameworks wie TensorFlow, PyTorch und MXNet trainiert wurden.

Flexibilität für verschiedene Machine Learning-Modelle

Mit AWS Neuron unterstützen Inf1-Instances viele gängige ML-Modelle wie Single Shot Detector (SSD) und ResNet zur Bilderkennung/-klassifizierung sowie Transformer und BERT zur Verarbeitung und Übersetzung natürlicher Sprache.

Unterstützung für mehrere Datentypen

Inf1-Instances unterstützen mehrere Datentypen wie INT8, BF16 und FP16 mit gemischter Präzision, um eine Vielzahl von Modellen und Leistungsanforderungen zu unterstützen.

Amazon SageMaker (Unterstützung für Inf1-Instances in Kürze erhältlich)

Amazon SageMaker vereinfacht die Bereitstellung Ihres trainierten Modells in der Produktion auf Amazon EC2 Inf1-Instances mit nur einem Mausklick, sodass Sie unmittelbar beginnen können, Prognosen für Echtzeit- oder Stapeldaten zu generieren. Amazon SageMaker ist ein vollständig verwalteter Service, der den gesamten Workflow des Machine Learning abdeckt. Er kennzeichnet und präpariert Ihre Daten, wählt einen Algorithmus aus, trainiert das Modell, optimiert und passt es für die Bereitstellung an, trifft Voraussagen und ergreift Maßnahmen. Ihre Modelle können mit geringerem Aufwand und zu niedrigeren Kosten schneller in der Produktion bereitgestellt werden. Ihr Modell wird auf einem Cluster aus Amazon SageMaker Inf1-Instances mit Auto Scaling ausgeführt, die über mehrere Availability Zones verteilt sind, um sowohl höchste Leistung als auch höchste Verfügbarkeit zu gewährleisten.

Weitere Informationen »

Funktionsweise

Verwendungsweise von Inf1 und AWS Inferentia

AWS Inferentia-Chips

AWS Inferentia ist ein Inferenzchip für Machine Learning, der von AWS entwickelt und gebaut wurde, um hohe Leistung zu niedrigen Kosten zu liefern. Jeder AWS Inferentia-Chip hat 4 Neuron-Kerne und unterstützt die Datentypen FP16, BF16 und INT8. AWS Inferentia-Chips verfügen über eine große Menge an On-Chip-Speicher, der für das Caching großer Modelle verwendet werden kann, wodurch die Notwendigkeit entfällt, sie außerhalb des Chips zu speichern. Darüber hinaus kann das AWS Neuron SDK, ein spezielles SDK für AWS Inferentia-Chips, große Modelle über mehrere Inferentia-Chips mittels eines Hochgeschwindigkeits-Interconnects aufteilen und so eine leistungsstarke Inferenzverarbeitungspipeline aufbauen.

Weitere Informationen >>

AWS Neuron SDK

AWS Neuron ist ein spezialisiertes SDK für AWS Inferentia-Chips, das die Inferenzleistung von Inferentia-Chips optimiert. Es besteht aus einem Compiler, Laufzeit- und Profilerstellungstools für AWS Inferentia-Chips, die es Entwicklern ermöglichen, hochleistungsfähige und latenzarme Inferenz-Workloads auf Inferentia-basierten EC2 Inf1-Instances auszuführen.

Weitere Informationen >>

Anwendungsfälle

Empfehlungen

Machine Learning wird zunehmend dazu verwendet, die Kundenbindung durch Förderung personalisierter Produkt- und Inhaltsempfehlungen, maßgeschneiderte Suchergebnisse und zielgerichtete Marketing-Werbekampagnen zu verbessern.

Prognosen

Heutzutage verwenden Unternehmen alles Mögliche, von einfachen Tabellenblättern bis hin zu komplexer Software zur Finanzplanung, um präzise Prognosen zu zukünftigen Unternehmensergebnissen zu stellen, wie z. B. Produktnachfrage, Mittelbedarf oder finanzielle Leistungsfähigkeit. Diese Tools erstellen Prognosen anhand von Zeitreihen historischer Daten, die als Zeitreihendaten bezeichnet werden. Unternehmen nutzen zunehmend Machine Learning, um Zeitreihendaten mit zusätzlichen Variablen zu kombinieren und Prognosen zu erstellen.

Bild- und Videoanalyse

Machine Learning wird heute verwendet, um Objekte, Personen, Texte, Szenen und Aktivitäten zu identifizieren und unangemessene Inhalte in Bildern oder Videos zu erkennen. Darüber hinaus können Gesichtsanalyse und Gesichtserkennung bei Bildern und Videos durchgeführt werden, um zu erkennen, analysieren und vergleichen, z. B. für die Benutzerverifizierung, zum Zählen von Personen und im Rahmen der öffentlichen Sicherheit.

Erweiterte Textanalyse

Machine Learning ist in einem nahezu unbegrenzten Ausmaß besonders gut für die akkurate Erkennung bestimmter relevanter Elemente in umfangreichen Textschwaden (wie z. B. Firmennamen in analytischen Berichten) geeignet und kann die in der Sprache verborgene Stimmung (negative Rezensionen oder positive Kundeninteraktionen mit Kundendienstmitarbeitern) aufdecken.

Dokumentenanalyse

Machine Learning kann verwendet werden, um sofort praktisch jede Art von Dokument zu lesen und Texte und Daten korrekt zu extrahieren – ganz ohne manuelle Prüfung oder angepassten Code. Sie können Dokumenten-Workflows schnell automatisieren und so eine Million Dokumentenseiten in wenigen Stunden verarbeiten.

Stimme

Unternehmen können Machine Learning verwenden, um Text in realistische Sprachausgabe zu verwandeln, sodass Sie sprechende Anwendungen und ganz neue Kategorien sprachfähiger Produkte entwickeln können. Der Text-zu-Sprache (TTS)-Service synthetisiert mit Hilfe modernster Deep Learning-Technologien Sprache, die sich wie eine menschliche Stimme anhört.

Gesprächsagenten

Die KI spielt eine Rolle bei der Verbesserung des Kundenerlebnisses in Call Centern, um die Kundeneinbindung durch Chatbots – intelligente, natürlichsprachige virtuelle Assistenten – zu ermöglichen. Diese Chatbots sind in der Lage, menschliche Sprache zu erkennen und die Absicht des Anrufers zu verstehen, ohne dass der Anrufer in bestimmten Sätzen sprechen muss. Anrufer können beispielsweise ihr Passwort ändern, ihren Kontostand abrufen oder einen Termin vereinbaren, ohne mit einem Mitarbeiter des Kontaktcenters zu sprechen.

Übersetzung

Unternehmen können ML-basierte Übersetzungen verwenden, um genauere und natürlichere Übersetzungen als herkömmliche statistische und regelbasierte Übersetzungsalgorithmen zu liefern. Unternehmen können Inhalte wie Websites und Anwendungen für Benutzer einer anderen Sprache lokalisieren und große Textmengen effizient übersetzen.

Transkription

ML-Transkription kann für viele gängige Anwendungen verwendet werden, einschließlich der Transkription von Anrufen beim Kundenservice und dem Generieren von Untertiteln für Audio- und Videoinhalte. Transkriptionsservices können jedes Wort mit einem Zeitstempel versehen, so dass Sie das Audio in der Originalquelle leicht finden können, indem Sie nach dem Text suchen.

Betrugserkennung

Betrugserkennung mittels Machine Learning erkennt potenziell betrügerischer Aktivitäten und kennzeichnet sie zur Überprüfung. Die Betrugserkennung wird typischerweise in der Finanzdienstleistungsbranche verwendet, um Transaktionen als legitim oder betrügerisch einzustufen, wobei ein Modell verwendet wird, das eine Transaktion anhand von Betrag, Standort, Händler oder Zeit bewertet.

Gesundheitswesen

Das Ziel von Machine Learning im Gesundheitswesen besteht darin, Ärzten die Möglichkeit zu geben, Patienten schneller zu behandeln und nicht nur Kosten zu senken, sondern auch die Ergebnisse zu verbessern. Krankenhäuser verbessern traditionelle Bildgebungstechnologien wie Ultraschall und CT-Scans, indem sie eine Vielzahl von Datensätzen – von Patienten erfasste Daten, Sensordaten und zahlreiche andere Quellen – in den Scanprozess integrieren, und ML-Algorithmen sind in der Lage, den Unterschied zwischen normalen und abnormalen Ergebnissen zu erkennen.

Preise