Amazon EC2 Inf1-Instances

Hohe Leistung und niedrigste Kosten für Machine Learning in der Cloud

Unternehmen aus den verschiedensten Branchen wenden sich dem Machine Learning zu, um Anwendungsfälle wie die Bereitstellung personalisierter Einkaufsempfehlungen, die Verbesserung der Moderation von Online-Inhalten und die Steigerung der Kundenbindung mit kontextbezogenen Chatbots zu bewältigen. Je leistungsfähiger Machine Learning-Modelle werden, desto komplexer werden sie jedoch auch. Dies treibt den Bedarf an Datenverarbeitung in die Höhe, was zu gesteigerten Kosten führt. In vielen Fällen entfallen bis zu 90 % der Infrastrukturausgaben für die Entwicklung und den Betrieb einer ML-Anwendung auf die Inferenz, was den Bedarf an einer leistungsstarken, kostengünstigen ML-Inferenzinfrastruktur ausschlaggebend macht.

Amazon EC2 Inf1 Instances liefern bis zu 30 % höheren Durchsatz und bis zu 45 % niedrigere Kosten pro Inferenz als Amazon EC2-G4-Instances, die bereits die kostengünstigste Instance für Machine Learning-Inferenz in der Cloud waren. Inf1-Instances sind von Grund auf neu entwickelt worden, um Inferenzanwendungen für Machine Learning zu unterstützen. Diese Instances verfügen über bis zu 16 AWS Inferentia-Chips – leistungsstarke Machine Learning-Inferenz-Chips, die von AWS entwickelt und gebaut wurden. Außerdem verfügen Inf1-Instances verfügen über die neuesten Intel® Xeon® Scalable-Prozessoren der 2. Generation und bis zu 100 Gbit/s Netzwerkfähigkeit, um Inferenzen mit hohem Durchsatz zu ermöglichen. Mit Inf1-Instances können Kunden groß angelegte Machine Learning-Inferenzanwendungen wie Suchempfehlung, Computervision, Spracherkennung, Verarbeitung natürlicher Sprache, Personalisierung und Betrugserkennung zu den niedrigsten Kosten in der Cloud ausführen.

Entwickler können ihre Machine Learning-Modelle mithilfe des AWS Neuron SDK, das in gängige Machine Learning-Frameworks wie TensorFlow, PyTorch und MXNet integriert ist, auf Inf1-Instances anwenden. Es besteht aus einem Compiler, einer Laufzeit und Profilerstellungstools zur Optimierung der Inferenzleistung in AWS Inferentia. Der einfachste und schnellste Weg mit Inf1-Instances zu beginnen, ist die Verwendung von Amazon SageMaker – ein vollständig verwalteter Service, der es Entwicklern ermöglicht, Machine Learning-Modelle schnell zu erstellen, zu schulen und bereitzustellen. Entwickler, die lieber ihre eigenen Entwicklungsplattformen für Machine Learning-Anwendungen verwalten, können entweder mit Inf1-Instances mit AWS Deep Learning-AMIs starten, die das Neuron SDK enthalten, oder Inf1-Instances über Amazon Elastic Kubernetes Service (EKS) oder Amazon Elastic Container Service (ECS) für containerisierte ML-Anwendungen verwenden.

SiteMerch-EC2-Instances_accelerated-trial_2up

Kostenlose Testversion: Bis zu 10 000 USD in AWS-Guthaben für EC2 Hardware Accelerated Instances, ideal für ML-, HPC- und Grafikanwendungen.

Zum Bewerben hier klicken 
Amazon EC2 Inf1-Instances basierend auf AWS Inferentia (2:51)

Vorteile

Bis zu 45 % weniger Kosten pro Inferenz

Der hohe Durchsatz von Inf1-Instances ermöglicht die niedrigsten Kosten pro Inferenz in der Cloud, bis zu 45 % weniger Kosten pro Inferenz als Amazon EC2 G4-Instances, die bereits die niedrigsten Kosten für Machine Learning-Inferenzen in der Cloud waren. Mit einem Anteil von bis zu 90 % an den Gesamtbetriebskosten für den Betrieb von Machine Learning-Workloads führt dies zu erheblichen Kosteneinsparungen.

Bis zu 30 % mehr Durchsatz

Inf1-Instanzen liefern einen hohen Durchsatz für Batch-Inferenzanwendungen, bis zu 30 % mehr Durchsatz als Amazon EC2-G4-Instances. Batch-Inferenzanwendungen, wie z. B. Photo-Tagging, reagieren empfindlich auf den Inferenzdurchsatz oder wie viele Inferenzen pro Sekunde verarbeitet werden können. Inf1-Instances sind optimiert, um eine hohe Leistung für kleine Batches zu bieten, was für Anwendungen mit strikten Anforderungen an die Antwortzeit von entscheidender Bedeutung ist. Mit 1 bis 16 AWS Inferentia-Chips pro Instance können Inf1-Instances in der Leistung auf bis zu 2000 Tera Operations pro Sekunde (TOPS) skaliert werden.

Äußerst niedrige Latenz

Inf1-Instances bieten niedrige Latenz für Echtzeitanwendungen. Echtzeit-Inferenzanwendungen, wie z. B. Sprachgenerierung und Suche müssen Inferenzen als Reaktion auf die Eingaben eines Benutzers schnell durchführen und sind empfindlich gegenüber Inferenz-Latenz. Der große On-Chip-Speicher auf AWS Inferentia-Chips, die in Inf1-Instances verwendet werden, ermöglicht das Caching von ML-Modellen direkt auf dem Chip. Dadurch entfällt der Zugriff auf externe Speicherressourcen während der Inferenz und eine geringe Latenz ohne Beeinträchtigung der Bandbreite wird ermöglicht.

Machine Learning-Inferenz für ein breites Spektrum von Anwendungsfällen

Entwickler können hohe Leistung, geringe Latenzzeiten und kostengünstige Inferenz mit Inf1-Instances für eine breite Palette von Machine Learning-Anwendungen nutzen, die in verschiedenen Geschäftsbereichen eingesetzt werden können, darunter Bild- und Videoanalyse, Gesprächsagenten, Betrugserkennung, Finanzprognosen, Automatisierung im Gesundheitswesen, Empfehlungsmodule, Textanalyse und Transkription.

Einfache Nutzung und Code-Portabilität

Da das Neuron SDK in gängige Machine Learning-Frameworks wie TensorFlow und PyTorch integriert ist, können Entwickler ihre vorhandenen Modelle mit minimalen Code-Änderungen auf EC2 Inf1-Instances bereitstellen. Dies gibt ihnen die Freiheit, weiterhin das ML-Framework ihrer Wahl zu verwenden, die Datenverarbeitungsplattform zu wählen, die ihren Anforderungen an das Preis-Leistungs-Verhältnis am besten entspricht, und die Vorteile der neuesten Technologien zu nutzen, ohne an herstellerspezifische Software-Bibliotheken gebunden zu sein.

Unterstützung verschiedener Machine Learning-Modelle und Datentypen

Mit AWS Neuron unterstützen Inf1-Instances viele gängige Machine Learning-Modelle wie Single Shot Detector (SSD) und ResNet zur Bilderkennung/-klassifizierung sowie Transformer und BERT zur Verarbeitung und Übersetzung natürlicher Sprache. Außerdem werden auch mehrere Datentypen wie INT8, BF16 und FP16 mit gemischter Präzision für eine Vielzahl von Modellen und Leistungsanforderungen unterstützt.

Funktionen

Powered By AWS Inferentia

AWS Inferentia ist ein Machine Learning-Chip, der von AWS entwickelt und gebaut wurde, um hohe Inferenzleistung zu niedrigen Kosten zu liefern. Jeder AWS Inferentia-Chip bietet eine Leistung von bis zu 128 TOPS (Trillions of Operations Per Second, Billionen Vorgänge pro Sekunde) und Unterstützung für FP16-, BF16- und INT8-Datentypen. AWS Inferentia-Chips verfügen auch über einen großen On-Chip-Speicher, der für das Caching umfangreicher Modelle verwendet werden kann, was besonders bei Modellen mit häufigen Speicherzugriffen vorteilhaft ist.

Das AWS Neuron Software Development Kit (SDK) umfasst einen Compiler, eine Laufzeit und Profilerstellungstools. Es ermöglicht die Ausführung komplexer neuronaler Netzmodelle, die in gängigen Frameworks wie TensorFlow, PyTorch und MXNet erstellt und geschult wurden, unter Verwendung von Inf1-Instances. AWS Neuron unterstützt auch die Möglichkeit, große Modelle für die Ausführung auf mehreren Inferentia-Chips aufzuteilen, indem eine sehr schnelle physikalische Chip-to-Chip Interconnect verwendet wird. Dadurch wird ein hoher Inferenzdurchsatz und niedrigere Inferenzkosten erreicht.

Hochleistungsnetzwerk und -speicher

Inf1-Instances bieten einen Netzwerkdurchsatz von bis zu 100 Gbit/s für Anwendungen, die Zugang zu Hochgeschwindigkeitsnetzwerken benötigen. ENA-(Elastic Network Adapter-) und NVMe-(NVM Express-)Technologie der nächsten Generation bieten Inf1-Instances mit Schnittstellen mit hohem Durchsatz und geringer Latenz für Netzwerke und Amazon Elastic Block Store (Amazon EBS).

Baut auf dem AWS Nitro System auf

Das AWS Nitro-System ist eine umfangreiche Sammlung von Modulbausteinen, die viele der herkömmlichen Virtualisierungsfunktionen auf spezielle Hard- und Software auslagern, sodass hohe Leistung, Verfügbarkeit und Sicherheit bei gleichzeitig geringerem Virtualisierungsaufwand gewährleistet werden.

Funktionsweise

Verwendungsweise von Inf1 und AWS Inferentia

Erfahrungen von Kunden

Anthem
Anthem ist eines der führenden Unternehmen der Nation im Bereich der Gesundheitsfürsorge, das die Bedürfnisse von über 40 Millionen Mitgliedern in Dutzenden von Bundesstaaten erfüllt. "Der Markt der digitalen Gesundheitsplattformen wächst mit einer bemerkenswerten Geschwindigkeit. Das Sammeln von Informationen über diesen Markt ist aufgrund der riesigen Menge an Kundenmeinungsdaten und seiner unstrukturierten Natur eine schwierige Aufgabe. Unsere Anwendung automatisiert die Generierung von handlungsrelevanten Erkenntnissen aus Kundenmeinungen über natürlichsprachliche Deep Learning-Modelle (Transformers). Unsere Anwendung ist rechenintensiv und muss hochleistungsfähig bereitgestellt werden. Wir stellten unser Deep Learning-Inferencing Workload nahtlos auf Amazon EC2 Inf1-Instances zur Verfügung, die mit dem AWS Inferentia Prozessor betrieben werden. Die neuen Inf1-Instances bieten einen 2-fach höheren Durchsatz für GPU-basierte Instances und ermöglichten es uns, unsere Inferenz-Workloads zu rationalisieren."

Numan Laanait, PhD, leitender KI/Datenwissenschaftler & Miro Mihaylov, PhD, leitender KI/Daten-Wissenschaftler

Condé Nast
„Das globale Portfolio von Condé Nast umfasst über 20 führende Medienmarken, darunter Wired, Vogue und Vanity Fair. Innerhalb weniger Wochen war unser Team in der Lage, unseren Empfehlungs-Engine mit AWS Inferentia-Chips zu integrieren. Diese Kombination ermöglicht mehrere Laufzeitoptimierungen für modernste natürliche Sprachmodelle auf den Inf1-Instances von SageMaker. Wir beobachteten eine Leistungsverbesserung von 72 % Kostenreduzierung im Vergleich zu den zuvor eingesetzten GPU-Instances.“

Paul Fryzel, Principal Engineer, AI Infrastructure

Asahi Shimbun
"Der Asahi Shimbun ist eine der beliebtesten Tageszeitungen in Japan. Das Media Lab, das als eine der Abteilungen unseres Unternehmens eingerichtet wurde, hat die Aufgabe, die neuesten Technologien, insbesondere KI, zu erforschen und die Spitzentechnologien für neue Unternehmen zu verbinden. Mit der Einführung der auf AWS Inferentia basierenden Amazon EC2 Inf1 Instances in Tokio testeten wir unsere auf PyTorch basierende Anwendung zur Textzusammenfassungs-KI an diesen Instances. Diese Anwendung verarbeitet eine große Menge an Text und erzeugt Überschriften und zusammenfassende Sätze, die auf Artikeln aus den letzten 30 Jahren trainiert wurden. Mit Inferentia konnten wir die Kosten im Vergleich zu CPU-basierten Instances um eine Größenordnung senken. Diese dramatische Kostenreduzierung wird es uns ermöglichen, unsere komplexesten Modelle im Maßstab bereitzustellen, was wir bisher für wirtschaftlich nicht machbar hielten."

Hideaki Tamori, PhD, Leitender Verwalter, Media Lab, The Asahi Shimbun Company

CS Disco
„CS Disco erfindet als führender Anbieter von KI-Lösungen für E-Discovery, die von Juristen für Juristen entwickelt wurden, die Rechtstechnologie neu. Disco AI beschleunigt die undankbare Aufgabe, Terabytes von Daten zu durchforsten, die Überprüfungszeiten zu verkürzen und die Überprüfungsgenauigkeit zu verbessern, indem komplexe Modelle zur Verarbeitung natürlicher Sprache genutzt werden, die rechenaufwändig und kostenintensiv sind. Disco hat festgestellt, dass auf AWS Inferentia basierende Inf1-Instances die Kosten der Inferenz in Disco AI um mindestens 35 % im Vergleich zu den heutigen GPU-Instances reduzieren. Basierend auf diesen positiven Erfahrungen mit Inf1-Instances wird CS Disco die Möglichkeiten für eine Migration nach Inferentia untersuchen.“

Alan Lockett, Sr. Director of Research bei CS Disco

Talroo
"Bei Talroo stellen wir unseren Kunden eine datengesteuerte Plattform zur Verfügung, die es ihnen ermöglicht, einzigartige Stellenbewerber anzuziehen, so dass sie Einstellungen vornehmen können. Wir erforschen ständig neue Technologien, um sicherzustellen, dass wir unseren Kunden die besten Produkte und Services anbieten. Mit Inferentia extrahieren wir Erkenntnisse aus einem Korpus von Textdaten, um unsere KI-gestützte Such- und Match-Technologie zu verbessern. Talroo nutzt Amazon EC2 Inf1 Instances von Amazon EC2, um mit SageMaker Modelle zum Verstehen natürlicher Sprache mit hohem Durchsatz zu erstellen. Die ersten Tests von Talroo zeigen, dass die Amazon EC2 Inf1 Instances von Amazon EC2 im Vergleich zu G4dn GPU-basierten Instances eine 40 % geringere Inferenzlatenz und einen 2-fach höheren Durchsatz liefern. Basierend auf diesen Ergebnissen freut sich Talroo darauf, Amazon EC2 Inf1 Instances als Teil seiner AWS Infrastruktur zu nutzen."

Janet Hu, Software Engineer, Talroo

Digital Media Professionals (DMP)
Digital Media Professionals (DMP) visualisiert die Zukunft mit einer auf KI (Künstliche Intelligenz) basierenden Echtzeit-ZIA-Plattform. Die effizienten Computer Vision-Klassifikationstechnologien von DMP werden eingesetzt, um auf der Grundlage großer Mengen von Echtzeit-Bilddaten Erkenntnisse zu gewinnen, z. B. bei der Zustandsbeobachtung, der Kriminalitäts- und Unfallprävention. Wir evaluieren aktiv Inf1 Instanzen gegenüber alternativen Optionen, da wir glauben, dass Inferentia uns die Leistung und Kostenstruktur bieten wird, die wir benötigen, um unsere KI-Anwendungen in großem Maßstab bereitzustellen." 

Hiroyuki Umeda – Direktor & Generaldirektor, Verkaufs- & Marketinggruppe, Fachleute für digitale Medien

Hotpot.ai
Hotpot.ai versetzt Nicht-Designer in die Lage, attraktive Grafiken zu erstellen, und hilft professionellen Designern bei der Automatisierung von Routineaufgaben. "Da Machine Learning der Kern unserer Strategie ist, waren wir begeistert, AWS Inferentia-basierte Inf1-Instances auszuprobieren. Wir fanden die Inf1-Instances leicht in unsere Forschungs- und Entwicklungspipeline zu integrieren. Am wichtigsten ist, dass wir im Vergleich zu den G4dn GPU-basierten Instances beeindruckende Leistungssteigerungen beobachten konnten. Mit unserem ersten Modell erbrachten die Inf1-Instances einen etwa 45 % höheren Durchsatz und verringerten die Kosten pro Inferenz um fast 50 %. Wir beabsichtigen, eng mit dem AWS Team zusammenzuarbeiten, um andere Modelle zu portieren und den größten Teil unserer ML Inferenz-Infrastruktur auf AWS Inferentia umzustellen."

Clarence Hu, Gründer, Hotpot.ai

INGA
„Der Auftrag von INGA besteht darin, fortschrittliche Textzusammenfassungslösungen zu erstellen, die auf künstlicher Intelligenz und Deep Learning-Technologien basieren und sich leicht in aktuelle Geschäftspipelines integrieren lassen. Wir glauben, dass die Textzusammenfassung von entscheidender Bedeutung sein wird, um Unternehmen dabei zu helfen, aussagekräftige Erkenntnisse aus Daten zu gewinnen. Wir haben die auf AWS Inferentia basierenden Amazon EC2-Inf1-Instances schnell hochgefahren und sie in unsere Entwicklungspipeline integriert. Die Wirkung zeigte sich unmittelbar und signifikant. Die Inf1-Instances bieten eine hohe Leistungsfähigkeit, die es uns ermöglicht, die Effizienz und Effektivität unserer Inferenzmodell-Pipelines zu verbessern. Im Vergleich zu unserer früheren GPU-basierten Pipeline haben wir sofort einen viermal höheren Durchsatz und 30 % niedrigere Gesamtkosten der Pipeline verzeichnet.“

Yaroslav Shakula, Chief Business Development Officer, INGA Technologies

SkyWatch
„SkyWatch verarbeitet Hunderte von Billionen von Pixeln an Erdbeobachtungsdaten, die täglich aus dem Weltraum aufgenommen werden. Die Einführung der neuen AWS Inferentia-basierten Inf1-Instances auf Basis von Amazon SageMaker zur Wolkenerkennung in Echtzeit und Bewertung der Bildqualität ging schnell und einfach vonstatten. Es war alles eine Frage der Umstellung des Instance-Typs in unserer Bereitstellungskonfiguration. Durch die Umstellung der Instance-Typen auf Inferentia-basiertes Inf1 haben wir die Leistung um 40 % verbessert und die Gesamtkosten um 23 % gesenkt. Das ist ein großer Gewinn. Es hat uns in die Lage versetzt, unsere Gesamtbetriebskosten zu senken und gleichzeitig unsere Kunden mit minimalem technischen Aufwand weiterhin mit qualitativ hochwertigen Satellitenbilder zu versorgen. Wir freuen uns darauf, alle unsere Inferenzendpunkte und Batch-ML-Prozesse auf die Verwendung von Inf1-Instances umzustellen, um unsere Datenzuverlässigkeit und Kundenerfahrung weiter zu verbessern.“

Adler Santos, Engineering Manager, SkyWatch

Amazon-Services mit Amazon EC2-Inf1-Instances

Amazon Alexa

Über 100 Millionen Alexa-Geräte wurden weltweit verkauft und Kunden haben auch über 400 000 Fünf-Sterne-Bewertungen für Echo-Geräte bei Amazon hinterlassen. „Die KI- und ML-basierte Intelligenz von Amazon Alexa, die von Amazon Web Services unterstützt wird, ist heute auf mehr als 100 Millionen Geräten verfügbar – und unser Versprechen an die Kunden ist, dass Alexa immer intelligenter, gesprächiger, proaktiver und noch reizvoller wird“, sagte Tom Taylor, Senior Vice President, Amazon Alexa. „Um dieses Versprechen zu halten, müssen die Antwortzeiten und die Infrastrukturkosten für Machine Learning kontinuierlich verbessert werden. Deshalb freuen wir uns, Amazon EC2 Inf1 zu nutzen, um die Inferenz-Latenzzeit und die Kosten pro Inferenz bei Alexa Text-to-Speech zu senken. Mit Amazon EC2 Inf1 werden wir in der Lage sein, den Service für die zig Millionen Kunden, die Alexa jeden Monat nutzen, noch besser zu machen.“

Preise

* Die angegebenen Preise gelten in der AWS-Region USA Ost (Nord-Virginia). Preise für Reserved Instances für 1 Jahr und 3 Jahre gelten für Bezahloptionen mit teilweiser Vorauszahlung oder, im Fall von instances ohne die Option der teilweisen Vorauszahlung, ohne Vorauszahlung.

Amazon EC2-Inf1-Instances sind als On-Demand, Reserved oder Spot-Instances in den AWS Regionen USA Ost (Nord-Virginia) und USA West (Oregon) verfügbar.

Erste Schritte

Verwendung von Amazon SageMaker

Amazon SageMaker macht es Ihnen leicht, Ihr geschultes Machine Learning-Modell in der Produktion auf Amazon Inf1-Instances zu kompilieren und bereitzustellen, damit Sie mit der Generierung von Echtzeit-Prognosen mit niedriger Latenz beginnen können. AWS Neuron ist der Compiler für AWS Inferentia und bereits in Amazon SageMaker Neo integriert, sodass Sie Ihre geschulten Machine Learning-Modelle so kompilieren können, dass sie auf Inf1-Instances optimal ausgeführt werden. Mit Amazon SageMaker können Sie Ihre Modelle problemlos auf Auto Scaling-Clustern von Inf1-Instances, die über mehrere Availability Zones verteilt sind, ausführen lassen, um sowohl höchste Leistungen als auch Echtzeit-Inferences mit höchster Verfügbarkeit zu gewährleisten. Lernen Sie mit Beispielen auf Github, wie man mit Amazon SageMaker für Inf1 bereitstellt.

Verwendung von AWS Deep Learning-AMIs

Mit den AWS Deep Learning AMIs (DLAMI) erhalten ML-Nutzer und Wissenschaftler die Infrastruktur und Tools, um Deep-Learning-Arbeiten beliebiger Größenordnungen in der Cloud zu beschleunigen. Das AWS Neuron SDK ist in AWS Deep Learning-AMIs vorinstalliert, um Ihre Machine Learning-Modelle optimal auf Inf1-Instances zu kompilieren und auszuführen. Sehen Sie sich den AMI-Auswahlleitfaden und weitere Deep-Learning-Ressourcen an, um in die Materie einzutauchen. Im Handbuch zu den ersten Schritte mit AWS DLAMI erfahren Sie, wie das DLAMI mit Neuron verwendet wird.

Verwendung von Deep Learning-Containern

Entwickler können jetzt Inf1-Instanzen in Amazon Elastic Kubernetes Service (EKS), einem vollständig verwalteten Kubernetes-Service, sowie in Amazon Elastic Container Service (ECS), einem vollständig verwalteten Container-Orchestrierungsdienst von Amazon, bereitstellen. In diesem Blog erfahren Sie mehr über die ersten Schritte mit Inf1 in Amazon EKS. Weitere Einzelheiten zum Ausführen von Containern auf Inf1-Instances finden Sie auf der Tutorial-Seite für Neuron-Container-Tools. Inf1-Unterstützung für AWS DL-Containers wird in Kürze verfügbar sein.