Infrastruktur von AWS Machine Learning

Leistungsstarke, kosteneffiziente, skalierbare Infrastruktur für jeden Workload

Nirgendwo sonst wird so viel Machine Learning generiert wie auf AWS.

Mehr Kunden aus den unterschiedlichsten Branchen bevorzugen AWS vor anderen Clouds, um ihre Machine Learning (ML)-Anwendungen zu erstellen, zu trainieren und bereitzustellen. AWS bietet die größte Auswahl an leistungsstarken Datenverarbeitungssystemen, Hochgeschwindigkeitsnetzwerken und skalierbaren Hochleistungsspeicheroptionen für jedes ML-Projekt und jede Anwendung.

Jedes ML-Projekt ist anders – mit AWS können Sie Ihre Infrastruktur an Ihre Leistungs- und Budgetanforderungen anpassen. Von der Verwendung des ML-Frameworks, das für Ihr Team am besten geeignet ist, bis hin zur Auswahl der richtigen Hardwareplattform zum Hosten Ihrer ML-Modelle: AWS bietet eine große Auswahl an Services, die Ihre Anforderungen erfüllen werden.

Unternehmen haben neue Wege für den Einsatz von ML für Empfehlungsmaschinen, Objekterkennung, Sprachassistenten, Betrugserkennung und vieles mehr gefunden. Auch wenn die Nutzung von ML zunehmend an Bedeutung gewinnt, ist die Schulung und der Einsatz von ML-Modellen teuer und die Modellentwicklungszeit lang. Auch die Beschaffung der richtigen Infrastruktur, um den sich ändernden Geschäftsbedingungen gerecht zu werden, kann eine große Herausforderung darstellen. Die ML-Infrastruktur-Services von AWS beseitigen die Hindernisse für die Einführung von ML, da sie leistungsstark, kostengünstig und äußerst flexibel sind.

ML-Infrastruktur von AWS: Leistungsstark, kostengünstig und äußerst flexibel (3:20)

Wählen Sie aus einer breiten Palette von Services für Machine Learning

Die folgende Grafik veranschaulicht die Tiefe und Breite der von AWS angebotenen Services. Die Workflow-Services, die in der obersten Schicht angezeigt werden, erleichtern Ihnen die Verwaltung und Skalierung der darunter liegenden ML-Infrastruktur. Die nächste Ebene unterstreicht, dass die ML-Infrastruktur von AWS alle führenden ML-Frameworks unterstützt. Die unterste Ebene zeigt Beispiele für Datenverarbeitungs-, Netzwerk- und Speicher-Services, die die Grundbausteine der ML-Infrastruktur bilden.

Wählen Sie aus einer breiten Palette von Services für Machine Learning

Infrastruktur-Services für Machine Learning

Die ML-Entwicklung auf traditionelle Weise ist ein komplexer, teurer und iterativer Prozess. Als erstes müssen Sie Beispieldaten vorbereiten, um ein Modell zu trainieren. Danach müssen die Entwickler auswählen, welchen Algorithmus oder welches Framework sie für die Erstellung des Modells verwenden wollen. Anschließend müssen sie dem Modell beibringen, wie es Vorhersagen machen soll, und es so justieren, dass es die bestmöglichen Vorhersagen liefert. Zum Schluss müssen sie das Modell in ihre Anwendung integrieren und diese Anwendung auf einer skalierbaren Infrastruktur einsetzen.

  • Vorbereiten
  • Datenwissenschaftler verbringen oft viel Zeit mit der Untersuchung und Vorverarbeitung (auch als „wrangling“ bezeichnet) von Beispieldaten, bevor sie diese für das Modelltraining verwenden. Bei der Datenvorbereitung werden die Daten in der Regel in einen Speicher geholt, durch Filtern und Ändern der Daten bereinigt, so dass sie leichter zu untersuchen sind und dann durch Herausfiltern der nicht gewünschten oder benötigten Teile in aussagekräftige Datensätze aufbereitet oder umgewandelt und mit Labels versehen.

    Herausforderung AWS-Lösung Wie
    Manuelles Daten-Labeling Amazon Mechanical Turk Bietet eine skalierbare, menschliche Belegschaft auf Abruf zur Erledigung von Aufgaben.
    Manuelles Daten-Labeling Amazon SageMaker Ground Truth Automatisiert das Labeling durch Training von Ground Truth anhand von Daten, die von Menschen gelabelt wurden. So lernt der Service, Daten unabhängig zu labeln.
    Datenverarbeitung verwalten und skalieren Amazon SageMaker Processing Erweitern Sie ein vollständig verwaltetes Erlebnis auf Datenverarbeitungs-Workloads. Stellen Sie eine Verbindung zu vorhandenen Speicher- oder Dateisystemdatenquellen her, richten Sie die für die Ausführung Ihres Auftrags erforderlichen Ressourcen ein, speichern Sie die Ausgabe auf einem persistenten Speicher und überprüfen Sie die Protokolle und Metriken.
    Verwaltung von großen Datenmengen, die zum Trainieren von Modellen benötigt werden Amazon EMR Verarbeitet enorme Datenmengen schnell und kostengünstig in großem Umfang.
    Gemeinsame Dateispeicherung großer Datenmengen, die für das Training von Modellen benötigt werden
    Amazon S3 Bietet globale Verfügbarkeit einer langfristigen, beständigen Speicherung von Daten in einem leicht zugänglichen Format für den Abruf und die Eingabe von Daten.
  • Entwickeln
  • Sobald Sie über Trainingsdaten verfügen, müssen Sie einen Algorithmus für Machine Learning auswählen, dessen Lernstil Ihren Anforderungen entspricht. Diese Algorithmen lassen sich grob in überwachtes Lernen, unüberwachtes Lernen und verstärkendes Lernen einteilen. Um Sie bei der Entwicklung Ihres Modells zu unterstützen, stehen verschiedene Frameworks für Machine Learning wie TensorFlow, Pytorch und MXNet mit Bibliotheken und Tools zur Verfügung, die Ihnen die Entwicklung erleichtern.

    Herausforderung AWS-Lösung Wie
    Auf Jupyter-Notebooks zugreifen Gehostete Jupyter-Notebooks Gehostete Jupyter Notebooks laufen auf einer EC2-Instance Ihrer Wahl.
    Gemeinsame Nutzung und Zusammenarbeit in Jupyter Notebooks Amazon-SageMaker-Notebooks Vollständig verwaltete Jupyter Notebooks, mit denen Sie innerhalb von Sekunden arbeiten und die Sie mit einem einzigen Klick freigeben können. Code-Abhängigkeiten werden automatisch erfasst, sodass Sie problemlos mit anderen zusammenarbeiten können. Die Teilnehmer erhalten genau dasselbe Notebook, das am selben Ort gespeichert ist.
    Erstellung von Algorithmen Vorgefertigte Algorithmen von Amazon SageMaker Leistungsstarke, skalierbare Algorithmen für Machine Learning, die auf Geschwindigkeit und Genauigkeit optimiert sind und sich für das Training von Datensätzen im Petabyte-Bereich eignen.
    Optimierung des Frameworks für Deep Learning Amazon SageMaker Diese führenden Frameworks werden automatisch konfiguriert und sind auf eine hohe Leistung ausgelegt. Sie müssen Frameworks nicht manuell einrichten und können sie innerhalb der integrierten Container verwenden.
    Erste Schritte unter Verwendung multipler ML-Frameworks AWS-Deep-Learning-AMIs Ermöglicht Benutzern den schnellen Start von Amazon-EC2-Instances, auf denen beliebte Deep-Learning-Frameworks und -Schnittstellen wie TensorFlow, PyTorch und Apache MXNet vorinstalliert sind.
    Erste Schritte mit Containern unter Verwendung multipler ML-Frameworks   AWS Deep Learning Containers Auf Docker-Images sind Deep-Learning-Frameworks vorinstalliert, sodass sich benutzerdefinierte Machine-Learning-Umgebungen einfach und schnell bereitstellen lassen.
  • Training
  • Nachdem Sie Ihr Modell erstellt haben, benötigen Sie Rechen-, Netzwerk- und Speicherressourcen, um das Modell zu trainieren. Ein schnelleres Modelltraining ermöglicht Daten-Wissenschaftlern und Machine Learning-Ingenieuren schnellere Iterationen, Training von mehr Modellen und höhere Genauigkeit. Nachdem Sie Ihr Modell trainiert haben, bewerten Sie es, um festzustellen, ob die Genauigkeit der Schlussfolgerungen akzeptabel ist.

    Instances

    Herausforderung
    AWS-Lösung            Wie
    Zeit- und kostenbewusstes Training im großen Maßstab Von AWS Trainium betriebene EC2-Trn1-Instances

    Die von AWS-Trainium-Chips angetriebenen Amazon-EC2-Trn1-Instances wurden speziell für hochleistungsfähiges Deep Learning entwickelt und bieten das beste Preis-Leistungs-Verhältnis für das Training von Deep-Learning-Modellen in der Cloud.

    Kostenbewusstes Training Von Habana Gaudi betriebene EC2-DL1-Instances

    Die Amazon-EC2-DL1-Instances, die von Gaudi-Beschleunigern von Habana Labs, einem Intel-Unternehmen, angetrieben werden, sind für das Training von Deep-Learning-Modellen konzipiert. Sie verwenden bis zu 8 Gaudi-Beschleuniger und bieten ein bis zu 40 % besseres Preis-Leistungs-Verhältnis als aktuelle GPU-basierte EC2-Instances für das Training von Deep-Learning-Modellen.

    Zeit- und kostenbewusstes Training im großen Maßstab Amazon-EC2-P4-Instances P4d-Instances bieten das leistungsstärkste Machine-Learning-Training in der Cloud mit 8 NVIDIA A100 Tensor-Core-GPUs, 400 Gbit/s Instance-Netzwerken und Unterstützung für Elastic Fabric Adapter (EFA) mit NVIDIA GPUDirect RDMA (Remote Direct Memory Access). P4d-Instances werden in Hyperscale-Clustern mit der Bezeichnung EC2 UltraClusters bereitgestellt, die ML-Entwicklern, Forschern und Datenwissenschaftlern im täglichen Einsatz die Leistung der Supercomputer-Klasse bieten.
    Zeit- und kostenbewusstes Training im großen Maßstab Amazon-EC2-P3-Instances P3-Instances bieten eine gemischte Präzisionsleistung von bis zu einem Petaflop pro Instance mit bis zu 8 NVIDIA® V100 Tensor Core GPUs und einem Netzwerkdurchsatz von bis zu 100 Gbit/s.
    Kostenbewusstes Training im kleinen Maßstab Amazon-EC2-G5-Instances

    G5-Instances bieten im Vergleich zu G4dn-Instances eine bis zu 3,3-fach höhere Leistung für Machine-Learning-Training.

    Kostenbewusstes Training im kleinen Maßstab Amazon-EC2-G4-Instances G4-Instances bieten bis zu 65 TFLOPs der FP16-Leistung und sind eine überzeugende Lösung für Trainingsaufträge im kleinen Maßstab.

    Orchestrierungsservices

    Herausforderung AWS-Lösung Wie
    Multi-Knoten-Training Elastic Fabric Adapter EFA ermöglicht Kunden die Ausführung von Anwendungen, welche ein hohes Maß an knotenübergreifender Kommunikation erfordern, in großem Umfang unter Verwendung einer kundenspezifischen Schnittstelle für das Betriebssystem (OS) unter Umgehung der Hardware.
    Hochgradig skalierbare komplexe Container-Orchestrierung Amazon Elastic Container Service (ECS) ECS ist ein vollständig verwalteter Container-Orchestrierungs-Service.
    Hochgradig skalierbare Kubernetes-Orchestrierung Amazon Elastic Kubernetes Service (EKS) Sie können Kubeflow mit EKS verwenden, um Ihre Workflows für Machine Learning zu modellieren und verteilte Trainingsaufträge effizient auszuführen.
    Training im großen Maßstab AWS Batch Batch stellt dynamisch die optimale Menge und den Typ von Datenverarbeitungsressourcen bereit, basierend auf dem Volumen und den spezifischen Ressourcenanforderungen der eingereichten Batch-Aufträge.
    Optimierung der Leistung für Training in großem Maßstab AWS ParallelCluster AWS ParallelCluster richtet automatisch die erforderlichen Rechenressourcen und gemeinsam genutzten Dateisysteme für ML-Trainingsprojekte in großem Maßstab ein.

    Speicher

    Herausforderung AWS-Lösung Wie
    Skalierbarer Speicher Amazon S3 S3 kann als Speicherebene ohne Probleme Tausende von Transaktionen pro Sekunde erreichen.
    Durchsatz und Latenzzeit beim Speicherzugriff Amazon FSx für Lustre FSx für Lustre bietet durch die Integration mit S3 einen gemeinsamen Dateispeicher mit hohem Durchsatz und konsistenten, niedrigen Latenzzeiten.
    Batch-Verarbeitung an zentralen Standorten Amazon Elastic File System (EFS) EFS ermöglicht den einfachen Zugriff auf große Datensätze für Machine Learning oder gemeinsam genutzten Code direkt von einer Notebook-Umgebung aus, ohne dass Sie Speicherplatz bereitstellen oder sich um die Verwaltung des Netzwerkdateisystems kümmern müssen.
    Hohe E/A-Leistung für temporäre Arbeitsspeicher Amazon Elastic Block Store (EBS) EBS ermöglicht Latenzzeiten im einstelligen Millisekundenbereich für Hochleistungsspeicheranforderungen.

    Vollständig verwaltete Services

    Herausforderung AWS-Lösung Wie
    Verwaltung und Nachverfolgung von Experimenten Amazon SageMaker Experiments Evaluieren und organisieren Sie Trainingsexperimente auf einfache und skalierbare Weise, organisieren Sie Tausende von Trainingsexperimenten, protokollieren Sie Experiment-Artefakte und visualisieren Sie schnell Modelle.
    Modelle debuggen Amazon SageMaker Debugger Eine visuelle Schnittstelle für die Analyse der Debug-Daten und visuelle Indikatoren für potenzielle Anomalien im Trainingsprozess.
    Modelloptimierung Automatische Modelloptimierung von Amazon SageMaker Optimieren Sie Modelle automatisch, indem Sie Tausende verschiedener Kombinationen von Algorithmusparametern anpassen, um die genauesten Vorhersagen zu erhalten, die das Modell liefern kann.
  • Bereitstellen
  • Wenn Sie Ihr Modell auf das gewünschte Maß an Genauigkeit und Präzision trainiert und optimiert haben, setzen Sie es in der Produktion ein, um Vorhersagen zu treffen. Die Inferenz macht den größten Teil der Kosten des Machine Learning aus. Nach Angaben von Kunden kann die Inferenz von Machine Learning bis zu 90 % der Gesamtbetriebskosten für den Betrieb von Machine-Learning-Workloads ausmachen.

    Instances

    Herausforderung AWS-Lösung Wie
    Hohe Kosten und niedrige Leistung Amazon-EC2-Inf1-Instances Inf1-Instances verfügen über bis zu 16 AWS-Inferentia-Chips, leistungsstarke Machine-Learning-Inferenz-Chips, die von AWS entwickelt und gebaut wurden.

    Inferenz für Modelle, die NVIDIA-CUDA-, CuDNN- oder TensorRT-Bibliotheken verwenden

    Amazon-EC2-G5-Instances

    G5-Instances sind mit bis zu 8 NVIDIA A10G Tensor Core GPUs ausgestattet und bieten im Vergleich zu G4dn-Instances eine bis zu dreifach höhere Leistung für Machine-Learning-Inferenzen.

    Inferenz für Modelle, die NVIDIA-CUDA-, CuDNN- oder TensorRT-Bibliotheken verwenden Amazon-EC2-G4-Instances G4-Instances sind mit NVIDIA-T4-Grafikprozessoren ausgestattet, die im Vergleich zu CPUs einen bis zu 40-mal höheren Durchsatz bei niedriger Latenz bieten.
    Inferenz für Modelle, die die Vorteile von Intel AVX-512 Vector Neural Network Instructions (AVX512 VNNI) nutzen Amazon-EC2-C5-Instances Die C5-Instances enthalten Intel AVX-512 VNNI, das zur Beschleunigung typischer Machine-Learning-Vorgänge wie Konvolution beiträgt und automatisch die Inferenzleistung bei einer Vielzahl von Deep-Learning-Workloads verbessert.
    Die richtige Dimensionierung der Inferenzbeschleunigung für ein optimales Preis-/Leistungsverhältnis Amazon Elastic Inference Mit Elastic Inference können Sie Amazon-EC2-Instances mit kostengünstiger GPU-Beschleunigung ausstatten.
    Geringe Latenzzeiten bei Inferenzen, lokaler Datenverarbeitung oder Speicheranforderungen
    AWS Outposts AWS Outposts ist ein vollständig verwalteter Service, der die AWS-Infrastruktur, AWS-Services, APIs und Tools in praktisch jedem Rechenzentrum, jedem Co-Location-Bereich oder jeder On-Premises-Einrichtung erweitert.

    Inferenz skalieren

    Herausforderung AWS-Lösung Wie
    Komplexe Skalierung Ihrer Infrastruktur AWS CloudFormation Mit CloudFormation können Sie alle Ressourcen, die Sie für Ihre Anwendungen in allen Regionen und Konten benötigen, mit Programmiersprachen oder einer einfachen Textdatei modellieren und bereitstellen – und das auf automatisierte, sichere Art und Weise.
    Unvorhersehbare Skalierbarkeit Ihrer Infrastruktur AWS Auto Scaling AWS Auto Scaling überwacht Ihre Anwendungen und passt die Kapazität automatisch an, um eine stabile, vorhersagbare Leistung zu den geringstmöglichen Kosten zu erreichen.
    Unvorhersehbare Nutzung von EC2-Instances Amazon-EC2-Flotte Mit einem einzigen API-Aufruf können Sie jetzt Kapazitäten für EC2-Instance-Typen und für verschiedene Bezugsmodelle bereitstellen, um die gewünschte Skalierung, Leistung und Kosten zu erzielen.
    Gewährleistung der Modellgenauigkeit Amazon SageMaker Model Monitor Überwachen Sie kontinuierlich die Qualität von Machine-Learning-Modellen in der Produktion und lassen Sie sich bei Abweichungen in der Modellqualität warnen, ohne zusätzliche Tools entwickeln zu müssen.
    Interferenzkosten verwalten Multi-Modell-Endpunkte von Amazon SageMaker Stellen Sie mehrere Modelle mit einem einzigen Klick auf einem einzigen Endpunkt bereit und verwenden Sie einen einzigen Servingcontainer, um eine skalierbare und kostengünstige Methode für die Bereitstellung einer großen Anzahl von Modellen zu bieten.
Toyota

„Die P3-Instances haben uns geholfen, die Zeit für das Trainieren von Machine-Learning-Modellen von Tagen auf Stunden zu reduzieren, und wir freuen uns darauf, P4d-Instances zu verwenden, da der zusätzliche GPU-Speicher und die effizienteren Float-Formate es uns ermöglichen werden, komplexere Modelle in noch höherer Geschwindigkeit zu trainieren.“

Intuit

Intuit setzt voll auf AWS und verwendet AWS, um seine Kunden besser bedienen zu können. Intuit nutzt Amazon SageMaker, um seine Machine-Learning-Modelle schnell und umfassend zu trainieren, wodurch der Zeitaufwand für die Bereitstellung der Modelle um 90 Prozent reduziert wird. Weitere Informationen

GE Healthcare

„Bei früheren GPU-Clustern würde es Tage dauern, komplexe KI-Modelle wie Progressive GANs für Simulationen zu trainieren und die Ergebnisse anzuzeigen. Durch die Verwendung der neuen P4d-Instances wurde die Verarbeitungszeit von Tagen auf Stunden reduziert. Bei den Trainingsmodellen konnten wir eine zwei- bis dreifach höhere Geschwindigkeit feststellen.“

Capital One

Capital One verwandelt Daten mit Hilfe von Machine Learning in Erkenntnisse, die es dem Unternehmen ermöglichen, im Interesse seiner Kunden Innovationen voranzutreiben. Capital One nutzt AWS-Services wie Amazon S3, um Innovationen im Bereich Machine Learning zu unterstützen. Weitere Informationen

Zillow

Zillow führt seine ML-Algorithmen mit Spark auf Amazon EMR aus, um schnell skalierbare Cluster zu erstellen und verteilte Verarbeitungsfähigkeiten zu nutzen, um große Datensätze nahezu in Echtzeit zu verarbeiten, Funktionen zu erstellen und Millionen von ML-Modellen zu trainieren und zu bewerten. Weitere Informationen

In Zahlen ausgedrückt

Leistung

2,5-mal bessere

Deep-Learning-Leistung für P4d im Vergleich zu P3-Instances der vorherigen Generation und bietet damit die höchste Leistung in der Cloud.

Leistung

62 Minuten

ist die Rekordzeit für das Training von BERT mit TensorFlow unter Verwendung von 256 P3dn.24xlarge-Instances mit 2 048 GPUs.

Geringe Kosten

40 % niedrigere

Kosten pro Inferenz für Inf1-Instances im Vergleich zu G4-Instances und bietet damit die niedrigsten Kosten pro Inferenz in der Cloud.

Verfügbarkeit

22 weltweite

geografische Regionen mit bis zu 69 Availability Zones, die für viele Infrastruktur-Services von AWS Machine Learning verfügbar sind.

Vorteile

  • Hohe Leistung
  • Oftmals ist die Entwicklungseffizienz von Datenwissenschaftlern und ML-Ingenieuren davon abhängig, wie häufig sie ihre Deep-Learning-Modelle trainieren können, um neue Funktionen zu integrieren, die Vorhersagegenauigkeit zu verbessern oder die Datenabweichung auszugleichen. AWS bietet eine hochleistungsfähige Datenverarbeitungs-, Netzwerk- und Speicherinfrastruktur, die auf breiter Basis nach dem Abrechnungsprinzip der tatsächlichen Nutzung zur Verfügung steht und es den Entwicklungsteams ermöglicht, ihre Modelle nach Bedarf zu trainieren, ohne dass die Infrastruktur ihre Innovationen behindert.

    Datenverarbeitung: Reduzieren Sie die Trainingszeit auf wenige Minuten und laden Sie Ihre Inferenzen auf.

    AWS bietet die branchenweit ersten Instances, die speziell für ML-Training und Inferenz entwickelt wurden.

    Amazon-EC2-Trn1-Instances, die von AWS-Trainium-Chips angetrieben werden, sind speziell für hochleistungsfähige, kostengünstige Deep-Learning-Trainings konzipiert. Diese Instances liefern branchenführende Leistung und bieten gleichzeitig Einsparungen von bis zu 50 % der Kosten gegenüber vergleichbaren GPU-basierten Instances. Trn1-Instances werden von bis zu 16 AWS-Trainium-Chips angetrieben. Jeder Chip enthält zwei NeuronCore-Beschleuniger der zweiten Generation, die speziell für Deep-Learning-Algorithmen entwickelt wurden. Trn1-Instances sind die ersten EC2-Instances mit bis zu 800 Gbit/s Elastic Fabric Adapter (EFA)-Netzwerkbandbreite. Sie werden in EC2-UltraClustern eingesetzt, die eine Skalierung auf bis zu 30 000 Trainium-Beschleuniger ermöglichen, die über ein nicht blockierendes Petabit-Netzwerk miteinander verbunden sind und bis zu 6,3 Exaflops an Rechenleistung bereitstellen.

    Amazon-EC2-Trn1

    Für die Bereitstellung von trainierten Modellen in der Produktion bieten Amazon EC2-Inf1-Instances hohe Leistung und die kostengünstigste maschinelle Deep-Learning-Inferenz in der Cloud. Diese Instances verfügen über AWS-Inferentia-Chips, hochleistungsfähige Inferenzchips für Machine Learning, die von AWS entwickelt und hergestellt wurden. Mit 1 bis 16 AWS-Inferentia-Chips pro Instance können Inf1-Instances in der Leistung auf bis zu 2 000 Tera-Operations pro Sekunde (TOPS) skaliert werden.

    Amazon EC2 Inf1

    Netzwerke: Skalierbare Infrastruktur für effizientes verteiltes Training oder skalierbare Inferenzen

    Die Ausbildung eines großen Modells braucht Zeit. Je größer und komplexer das Modell ist, desto länger wird das Training dauern. AWS verfügt über verschiedene Netzwerklösungen, die Kunden bei der Skalierung ihrer Bereitstellungen mit mehreren Knoten helfen, die Trainingszeit zu verkürzen. Elastic Fabric Adapter (EFA) ist eine Netzwerkschnittstelle für Amazon-EC2-Instances, mit der Kunden Anwendungen ausführen können, für die bei der Skalierung ein hohes Maß an Kommunikation zwischen Knoten in AWS erforderlich ist. Die speziell entwickelte Bypass-Hardware-Schnittstelle für das Betriebssystem (OS) verbessert die Leistung der Kommunikation zwischen den Instances, was für eine effiziente Skalierung entscheidend ist. Mit EFA können Trainingsanwendungen für Machine Learning, die die NVIDIA Collective Communications Library (NCCL) nutzen, auf Tausende von GPUs skaliert werden. In Verbindung mit einer Netzwerkbandbreite von bis zu 400 Gbit/s pro Instance und NVIDIA GPUDirect RDMA (Remote Direct Memory Access) für GPU-zu-GPU-Kommunikation mit geringer Latenz zwischen Instances erhalten Sie die Leistung teurer On-Premises-GPU-Cluster mit der On-Demand-Elastizität und Flexibilität der AWS-Cloud.

    Page-Illo_EC2 Overviews and Features_Enhanced Networking and EFA.png

    Speicherung: Ideale Optionen für die Erstellung von Datenspeichern oder die Verwaltung gelabelter Daten

    Unternehmen aller Größen und Branchen verwenden Data Lakes, um Daten von einem Kostenfaktor, der verwaltet werden muss, in einen Geschäftswert umzuwandeln, der genutzt werden kann, um wertvolle Geschäftseinblicke zu gewinnen oder mit Hilfe von Machine Learning ein verbessertes Kundenerlebnis zu bieten. Der Amazon Simple Storage Service (S3) ist der größte und leistungsstärkste Objektspeicher-Service für strukturierte und unstrukturierte Daten und der bevorzugte Speicher-Service für die Erstellung eines Data Lakes. Mit Amazon S3 können Sie kostengünstig einen Data Lake beliebiger Größe in einer sicheren Umgebung aufbauen und skalieren, in der die Daten mit einer Haltbarkeit von 99,999999999 % (11 9en) geschützt sind. Wenn Sie für verteilte Trainings einen schnelleren Zugriff auf Ihre gelabelten Daten benötigen, bietet Amazon FSx für Lustre eine Leistung, die für Latenzen im Bereich von weniger als einer Millisekunde und einen Durchsatz von Hunderten von Gigabyte pro Sekunde optimiert ist. FSx for Lustre lässt sich in Amazon S3 integrieren, wodurch die Verarbeitung von Datensätzen mit dem Lustre-Dateisystem vereinfacht wird. Wenn ein FSx für Lustre-Dateisystem mit einem S3-Bucket verknüpft ist, stellt es S3-Objekte transparent als Dateien dar und ermöglicht Ihnen, geänderte Daten in S3 zurückzuschreiben.

    Amazon Simple Storage Service (S3)
  • Kostengünstig
  • Unternehmen nutzen Deep Learning in rasantem Tempo, um noch nie zuvor gesehene Anwendungen zu entwickeln. In Verbindung mit einer raschen Zunahme der Modellkomplexität summieren sich die Kosten für die Erstellung, das Training und die Bereitstellung von Machine-Learning-Anwendungen schnell. Mit dem Übergang von Unternehmen von der Erforschung und dem Experimentieren mit Machine Learning zur Bereitstellung ihrer Anwendungen im großen Maßstab bietet AWS die ideale Kombination aus Leistung und kostengünstigen Infrastrukturservices für den gesamten Lebenszyklus der Anwendungsentwicklung.

    Niedrigste Kosten in der Branche für ML-Inferenz

    Die Inferenz von Machine Learning kann bis zu 90 % der Gesamtbetriebskosten für den Betrieb von Machine-Learning-Anwendungen in der Produktion ausmachen. Amazon-EC2-Inf1-Instances bieten hohe Leistung und die niedrigsten Kosten für Machine-Learning-Inferenz in der Cloud. Inf1-Instances sind von Grund auf neu entwickelt worden, um Inferenzanwendungen für Machine Learning zu unterstützen. Sie verfügen über bis zu 16 AWS-Inferentia-Chips, leistungsstarke Machine-Learning-Inferenz-Chips, die von AWS entwickelt und gebaut wurden. Jeder AWS-Inferentia-Chip unterstützt eine Leistung von bis zu 128 TOPS (Billionen Operationen pro Sekunde) bei geringem Stromverbrauch und ermöglicht so eine hohe Leistungseffizienz.

    Amazon EC2 Inf1

    Für Anwendungen, die GPUs für die Ausführung ihrer Modelle in der Produktion benötigen, sind Amazon-EC2-G4-Instances die kostengünstigsten GPU-Instances der Branche. Die mit NVIDIA-T4-GPUs ausgestatteten Instances sind in verschiedenen Größen mit Zugriff auf eine oder mehrere GPUs mit unterschiedlichen Mengen an vCPU und Arbeitsspeicher erhältlich – so haben Sie die Flexibilität, die richtige Instance-Größe für Ihre Anwendungen zu wählen.

    Amazon EC2 G4

    Nicht alle Machine-Learning-Modelle sind gleich, und verschiedene Modelle profitieren von unterschiedlichen Stufen der Hardwarebeschleunigung. Intel-basierte Amazon-EC2-C5-Instances bieten den niedrigsten Preis pro vCPU in der Amazon-EC2-Familie und sind ideal für die Ausführung von rechenintensiven Workloads. Diese Instances unterstützen Intel Deep Learning Boost und bieten ein ideales Verhältnis von Leistung und Kosten für die Ausführung von ML-Modellen in der Produktion.

    Amazon EC2 C5

    Amazon Elastic Inference ermöglicht es Ihnen, Amazon-EC2-Instances, Amazon-SageMaker-Instances oder Amazon-ECS-Aufgaben mit kostengünstiger GPU-Beschleunigung zu versehen, um die Kosten für die Ausführung von Deep-Learning-Inferenzen um bis zu 75 % zu senken.

    Amazon Elastic Inference

    Große Auswahl an GPU-Instances in großem Maßstab zur Optimierung von Zeit und Kosten für das Training

    Je nach Art der Machine-Learning-Anwendung bevorzugen die Kunden die Optimierung ihrer Entwicklungszyklen, um entweder die Zeit für das Training ihrer ML-Modelle oder die Gesamtkosten für das Training zu senken. In den meisten Fällen umfassen die Trainingskosten nicht nur die Kosten für das Training, sondern auch die Opportunitätskosten der Leerlaufzeit, die ML-Ingenieure und Datenwissenschaftler für die Optimierung ihres Modells hätten aufwenden können.

    Amazon-EC2-G4-Instances bieten die kostengünstigste GPU-Plattform der Branche. Diese Instances eignen sich optimal für das Training weniger komplexer Modelle und sind ideal für Unternehmen oder Institutionen, die weniger Wert auf die Trainingszeit legen. G4-Instances bieten Zugriff auf bis zu acht NVIDIA-T4-GPUs, die jeweils bis zu 65 TFLOPs FP16-Leistung liefern.

    Amazon EC2 G4

    Amazon-EC2-P4-Instances bieten die klassenbeste Leistung für einzelne Instances und verteilte Trainings, so dass Entwicklungsteams ihre Modelliterationen erheblich verkürzen, die Markteinführung beschleunigen und ihre gesamten Entwicklungskosten optimieren können. Diese Instances sind bis zu 60 % günstiger als P3-Instances der vorherigen Generation und können über alle EC2-Preisoptionen mit einem Rabatt von bis zu 90 % über Spot bereitgestellt werden. Da sich die Leistung von GPUs und Hardware-ML-Beschleunigern alle 18 Monate um mindestens das Zweifache verbessert, können Sie mit der AWS-Infrastruktur in einem Abrechnungsmodell der tatsächlichen Nutzung die Vorteile der besten Preisleistung nutzen, ohne wertvolle Investitionsausgaben für On-Premise-Cluster zu binden, die nur eine begrenzte Nutzungsdauer haben.

    Amazon EC2 P4

    Amazon-EC2-P3- und P3dn-Instances bieten Hochleistungsberechnungen in der Cloud mit bis zu 8 NVIDIA® V100 Tensor Core GPUs und einem Netzwerkdurchsatz von bis zu 100 Gbit/s für Machine-Learning- und HPC-Anwendungen. Diese Instances liefern bis zu einem Petaflop-Mixed-Precision-Leistung pro Instance, um Machine Learning- und High-Performance-Computing-Anwendungen zu beschleunigen. P3- und P3dn-Instances sind in 4 Größen mit bis zu 8 GPUs und 96 vCPUs erhältlich und weltweit in 18 AWS-Regionen verfügbar.

    Amazon-EC2-P3- und P3dn-Instances
  • Hoch flexibel
  • Unterstützung aller wichtigen Machine-Learning-Frameworks

    Frameworks wie TensorFlow und PyTorch abstrahieren einen Großteil der Feinheiten bei der Implementierung von ML-Modellen, indem sie es Entwicklern ermöglichen, sich auf die Gesamtlogik und den Datenfluss ihres Modells zu konzentrieren. Über 70 % der Unternehmen, die Machine-Learning-Anwendungen entwickeln, haben angegeben, dass ihre Teams eine Mixtur aus verschiedenen ML-Frameworks verwenden. Die ML-Infrastruktur von AWS unterstützt alle gängigen Deep-Learning-Frameworks, sodass Ihre Teams das richtige Framework für ihre Präferenzen und ihre Entwicklungseffizienz auswählen können.

    TensorFlow
    PyTorch
    mxnet
    Keras
    Gluon
    Horovod

    Optimierungen, die unter die Frameworks fallen

    Bei AWS konzentrieren wir uns stark darauf, Kunden nicht nur die Möglichkeit zu geben, ihre ML-Workloads auf AWS auszuführen, sondern ihnen auch die ultimative Freiheit zu geben, das ML-Framework oder die Infrastruktur-Services zu wählen, die für sie am besten geeignet sind. Die Software-Optimierung zum effektiven Trainieren und Bereitstellen von Modellen auf AWS-Infrastrukturservices ist in die gängigsten ML-Frameworks (TensorFlow, PyTorch und MXNet) integriert, sodass Kunden weiterhin das von ihnen bevorzugte Framework verwenden können und nicht auf ein spezifisches Framework oder eine bestimmte Hardware-Architektur angewiesen sind. Der Betrieb auf Framework-Ebene gibt den Kunden die Freiheit, immer die beste Lösung für ihre Bedürfnisse zu wählen und nicht an eine bestimmte Hardware-Architektur oder einen Cloud-Anbieter gebunden zu sein.

    AWS Neuron ist das SDK für AWS-Inferentia- und AWS-Trainium-Chips. Mit AWS Neuron können Sie hochleistungsfähige und kostengünstige ML-Trainings durchführen, indem Sie auf AWS Trainium basierende Amazon-EC2-Trn1-Instances verwenden. Sie können auch mit auf AWS Inferentia basierenden Amazon-EC2-Inf1-Instances hochleistungsfähige Inferenzen mit geringer Latenz ausführen. AWS Neuron ist nativ in beliebte Frameworks wie TensorFlow, PyTorch und MXNet integriert. Um Ihr Training mit EC2-Trn1-Instances und die Inferenz mit EC2-Inf1-Instances zu beschleunigen, können Sie Ihre vorab trainierten Modelle verwenden und müssen dafür nur ein paar Codezeilen innerhalb des Frameworks ändern.

    AWS Neuron

    Zur Unterstützung eines effizienten Multiknoten-/Verteilertrainings hat AWS den Elastic Fabric Adapter (EFA) mit der NVIDIA Collective Communications Library (NCCL) integriert – einer Bibliothek für die Kommunikation zwischen mehreren GPUs innerhalb eines einzelnen Knotens oder über mehrere Knoten hinweg. Ähnlich wie bei AWS Neuron können Kunden weiterhin das ML-Framework ihrer Wahl für die Erstellung ihrer Modelle verwenden und die Optimierung unter der Haube der AWS-Infrastruktur nutzen.

    Nvidia

Preisoptionen

Machine-Learning-Trainings- und Inferenz-Workloads können konstante Merkmale aufweisen (z. B. stündliches Batch-Tagging von Fotos für eine große Population), spitzenförmig sein (z. B. das Starten neuer Trainingsaufträge oder Suchempfehlungen während Werbezeiten), oder beides. AWS bietet Preisoptionen und Lösungen, mit denen Sie die Leistungsfähigkeit und Kosten Ihrer Infrastruktur optimieren können.

Preisoptionen

 

 

A – Verwenden Sie Spot-Instances für flexible, fehlertolerante Workloads wie beispielsweise ML-Trainingsaufträge, die nicht zeitabhängig sind.

B – Verwenden Sie On-Demand-Instances für neue oder zustandsabhängige Spike-Workloads wie kurzfristige ML-Trainingsaufträge.

C – Verwenden Sie Savings Plans für bekannte/stabilisierte Workloads wie beispielsweise stabile Inferenz-Workloads.

Anwendungsfall AWS-Lösung Wie
Kurzfristige Trainingsaufträge On-Demand-Preise Mit On-Demand-Instances zahlen Sie für die Rechenkapazität nach Stunde oder Minute, je nachdem, welche Instances Sie ausführen.
Trainingsaufträge mit flexiblen Start-Stopp-Zeiten Spot-Preise Mit EC2 Spot-Instances können Sie Amazon-EC2-Datenverarbeitungs-Reservekapazität mit einem Rabatt von bis zu 90 % auf den On-Demand-Preis anfordern.
Stetige Machine-Learning-Workloads über verschiedene Instance-Typen über einen langen Zeitraum Savings Plans Savings Plans bieten erhebliche Einsparungen gegenüber den On-Demand-Preisen und verpflichten im Gegenzug dazu, eine bestimmte Menge an Rechenleistung für einen Zeitraum von einem oder drei Jahren zu nutzen.