Herausforderung	AWS-Lösung	Wie
Manuelles Daten-Labeling	Amazon Mechanical Turk	Bietet eine skalierbare, menschliche Belegschaft auf Abruf zur Erledigung von Aufgaben.
Manuelles Daten-Labeling	Amazon SageMaker Ground Truth	Automatisiert das Labeling durch Training von Ground Truth anhand von Daten, die von Menschen gelabelt wurden. So lernt der Service, Daten unabhängig zu labeln.
Datenverarbeitung verwalten und skalieren	Amazon SageMaker Processing	Erweitern Sie ein vollständig verwaltetes Erlebnis auf Datenverarbeitungs-Workloads. Stellen Sie eine Verbindung zu vorhandenen Speicher- oder Dateisystemdatenquellen her, richten Sie die für die Ausführung Ihres Auftrags erforderlichen Ressourcen ein, speichern Sie die Ausgabe auf einem persistenten Speicher und überprüfen Sie die Protokolle und Metriken.
Verwaltung von großen Datenmengen, die zum Trainieren von Modellen benötigt werden	Amazon EMR	Verarbeitet enorme Datenmengen schnell und kostengünstig in großem Umfang.
Gemeinsame Dateispeicherung großer Datenmengen, die für das Training von Modellen benötigt werden	Amazon S3	Bietet globale Verfügbarkeit einer langfristigen, beständigen Speicherung von Daten in einem leicht zugänglichen Format für den Abruf und die Eingabe von Daten.

Herausforderung	AWS-Lösung	Wie
Auf Jupyter-Notebooks zugreifen	Gehostete Jupyter-Notebooks	Gehostete Jupyter Notebooks laufen auf einer EC2-Instance Ihrer Wahl.
Gemeinsame Nutzung und Zusammenarbeit in Jupyter Notebooks	Amazon-SageMaker-Notebooks	Vollständig verwaltete Jupyter Notebooks, mit denen Sie innerhalb von Sekunden arbeiten und die Sie mit einem einzigen Klick freigeben können. Code-Abhängigkeiten werden automatisch erfasst, sodass Sie problemlos mit anderen zusammenarbeiten können. Die Teilnehmer erhalten genau dasselbe Notebook, das am selben Ort gespeichert ist.
Erstellung von Algorithmen	Vorgefertigte Algorithmen von Amazon SageMaker	Leistungsstarke, skalierbare Algorithmen für Machine Learning, die auf Geschwindigkeit und Genauigkeit optimiert sind und sich für das Training von Datensätzen im Petabyte-Bereich eignen.
Optimierung des Frameworks für Deep Learning	Amazon SageMaker	Diese führenden Frameworks werden automatisch konfiguriert und sind auf eine hohe Leistung ausgelegt. Sie müssen Frameworks nicht manuell einrichten und können sie innerhalb der integrierten Container verwenden.
Erste Schritte unter Verwendung multipler ML-Frameworks	AWS-Deep-Learning-AMIs	Ermöglicht Benutzern den schnellen Start von Amazon-EC2-Instances, auf denen beliebte Deep-Learning-Frameworks und -Schnittstellen wie TensorFlow, PyTorch und Apache MXNet vorinstalliert sind.
Erste Schritte mit Containern unter Verwendung multipler ML-Frameworks	AWS Deep Learning Containers	Auf Docker-Images sind Deep-Learning-Frameworks vorinstalliert, sodass sich benutzerdefinierte Machine-Learning-Umgebungen einfach und schnell bereitstellen lassen.

Herausforderung	AWS-Lösung	Wie
Zeit- und kostenbewusstes Training im großen Maßstab	Von AWS Trainium betriebene EC2-Trn1-Instances	Die von AWS-Trainium-Chips angetriebenen Amazon-EC2-Trn1-Instances wurden speziell für hochleistungsfähiges Deep Learning entwickelt und bieten das beste Preis-Leistungs-Verhältnis für das Training von Deep-Learning-Modellen in der Cloud.
Kostenbewusstes Training	Von Habana Gaudi betriebene EC2-DL1-Instances	Die Amazon-EC2-DL1-Instances, die von Gaudi-Beschleunigern von Habana Labs, einem Intel-Unternehmen, angetrieben werden, sind für das Training von Deep-Learning-Modellen konzipiert. Sie verwenden bis zu 8 Gaudi-Beschleuniger und bieten ein bis zu 40 % besseres Preis-Leistungs-Verhältnis als aktuelle GPU-basierte EC2-Instances für das Training von Deep-Learning-Modellen.
Zeit- und kostenbewusstes Training im großen Maßstab	Amazon-EC2-P4-Instances	P4d-Instances bieten das leistungsstärkste Machine-Learning-Training in der Cloud mit 8 NVIDIA A100 Tensor-Core-GPUs, 400 Gbit/s Instance-Netzwerken und Unterstützung für Elastic Fabric Adapter (EFA) mit NVIDIA GPUDirect RDMA (Remote Direct Memory Access). P4d-Instances werden in Hyperscale-Clustern mit der Bezeichnung EC2 UltraClusters bereitgestellt, die ML-Entwicklern, Forschern und Datenwissenschaftlern im täglichen Einsatz die Leistung der Supercomputer-Klasse bieten.
Zeit- und kostenbewusstes Training im großen Maßstab	Amazon-EC2-P3-Instances	P3-Instances bieten eine gemischte Präzisionsleistung von bis zu einem Petaflop pro Instance mit bis zu 8 NVIDIA® V100 Tensor Core GPUs und einem Netzwerkdurchsatz von bis zu 100 Gbit/s.
Kostenbewusstes Training im kleinen Maßstab	Amazon-EC2-G5-Instances	G5-Instances bieten im Vergleich zu G4dn-Instances eine bis zu 3,3-fach höhere Leistung für Machine-Learning-Training.
Kostenbewusstes Training im kleinen Maßstab	Amazon-EC2-G4-Instances	G4-Instances bieten bis zu 65 TFLOPs der FP16-Leistung und sind eine überzeugende Lösung für Trainingsaufträge im kleinen Maßstab.

Herausforderung	AWS-Lösung	Wie
Multi-Knoten-Training	Elastic Fabric Adapter	EFA ermöglicht Kunden die Ausführung von Anwendungen, welche ein hohes Maß an knotenübergreifender Kommunikation erfordern, in großem Umfang unter Verwendung einer kundenspezifischen Schnittstelle für das Betriebssystem (OS) unter Umgehung der Hardware.
Hochgradig skalierbare komplexe Container-Orchestrierung	Amazon Elastic Container Service (ECS)	ECS ist ein vollständig verwalteter Container-Orchestrierungs-Service.
Hochgradig skalierbare Kubernetes-Orchestrierung	Amazon Elastic Kubernetes Service (EKS)	Sie können Kubeflow mit EKS verwenden, um Ihre Workflows für Machine Learning zu modellieren und verteilte Trainingsaufträge effizient auszuführen.
Training im großen Maßstab	AWS Batch	Batch stellt dynamisch die optimale Menge und den Typ von Datenverarbeitungsressourcen bereit, basierend auf dem Volumen und den spezifischen Ressourcenanforderungen der eingereichten Batch-Aufträge.
Optimierung der Leistung für Training in großem Maßstab	AWS ParallelCluster	AWS ParallelCluster richtet automatisch die erforderlichen Rechenressourcen und gemeinsam genutzten Dateisysteme für ML-Trainingsprojekte in großem Maßstab ein.

Herausforderung	AWS-Lösung	Wie
Skalierbarer Speicher	Amazon S3	S3 kann als Speicherebene ohne Probleme Tausende von Transaktionen pro Sekunde erreichen.
Durchsatz und Latenzzeit beim Speicherzugriff	Amazon FSx für Lustre	FSx für Lustre bietet durch die Integration mit S3 einen gemeinsamen Dateispeicher mit hohem Durchsatz und konsistenten, niedrigen Latenzzeiten.
Batch-Verarbeitung an zentralen Standorten	Amazon Elastic File System (EFS)	EFS ermöglicht den einfachen Zugriff auf große Datensätze für Machine Learning oder gemeinsam genutzten Code direkt von einer Notebook-Umgebung aus, ohne dass Sie Speicherplatz bereitstellen oder sich um die Verwaltung des Netzwerkdateisystems kümmern müssen.
Hohe E/A-Leistung für temporäre Arbeitsspeicher	Amazon Elastic Block Store (EBS)	EBS ermöglicht Latenzzeiten im einstelligen Millisekundenbereich für Hochleistungsspeicheranforderungen.

Herausforderung	AWS-Lösung	Wie
Verwaltung und Nachverfolgung von Experimenten	Amazon SageMaker Experiments	Evaluieren und organisieren Sie Trainingsexperimente auf einfache und skalierbare Weise, organisieren Sie Tausende von Trainingsexperimenten, protokollieren Sie Experiment-Artefakte und visualisieren Sie schnell Modelle.
Modelle debuggen	Amazon SageMaker Debugger	Eine visuelle Schnittstelle für die Analyse der Debug-Daten und visuelle Indikatoren für potenzielle Anomalien im Trainingsprozess.
Modelloptimierung	Automatische Modelloptimierung von Amazon SageMaker	Optimieren Sie Modelle automatisch, indem Sie Tausende verschiedener Kombinationen von Algorithmusparametern anpassen, um die genauesten Vorhersagen zu erhalten, die das Modell liefern kann.

Herausforderung	AWS-Lösung	Wie
Hohe Kosten und niedrige Leistung	Amazon-EC2-Inf1-Instances	Inf1-Instances verfügen über bis zu 16 AWS-Inferentia-Chips, leistungsstarke Machine-Learning-Inferenz-Chips, die von AWS entwickelt und gebaut wurden.
Inferenz für Modelle, die NVIDIA-CUDA-, CuDNN- oder TensorRT-Bibliotheken verwenden	Amazon-EC2-G5-Instances	G5-Instances sind mit bis zu 8 NVIDIA A10G Tensor Core GPUs ausgestattet und bieten im Vergleich zu G4dn-Instances eine bis zu dreifach höhere Leistung für Machine-Learning-Inferenzen.
Inferenz für Modelle, die NVIDIA-CUDA-, CuDNN- oder TensorRT-Bibliotheken verwenden	Amazon-EC2-G4-Instances	G4-Instances sind mit NVIDIA-T4-Grafikprozessoren ausgestattet, die im Vergleich zu CPUs einen bis zu 40-mal höheren Durchsatz bei niedriger Latenz bieten.
Inferenz für Modelle, die die Vorteile von Intel AVX-512 Vector Neural Network Instructions (AVX512 VNNI) nutzen	Amazon-EC2-C5-Instances	Die C5-Instances enthalten Intel AVX-512 VNNI, das zur Beschleunigung typischer Machine-Learning-Vorgänge wie Konvolution beiträgt und automatisch die Inferenzleistung bei einer Vielzahl von Deep-Learning-Workloads verbessert.
Die richtige Dimensionierung der Inferenzbeschleunigung für ein optimales Preis-/Leistungsverhältnis	Amazon Elastic Inference	Mit Elastic Inference können Sie Amazon-EC2-Instances mit kostengünstiger GPU-Beschleunigung ausstatten.
Geringe Latenzzeiten bei Inferenzen, lokaler Datenverarbeitung oder Speicheranforderungen	AWS Outposts	AWS Outposts ist ein vollständig verwalteter Service, der die AWS-Infrastruktur, AWS-Services, APIs und Tools in praktisch jedem Rechenzentrum, jedem Co-Location-Bereich oder jeder On-Premises-Einrichtung erweitert.

Herausforderung	AWS-Lösung	Wie
Komplexe Skalierung Ihrer Infrastruktur	AWS CloudFormation	Mit CloudFormation können Sie alle Ressourcen, die Sie für Ihre Anwendungen in allen Regionen und Konten benötigen, mit Programmiersprachen oder einer einfachen Textdatei modellieren und bereitstellen – und das auf automatisierte, sichere Art und Weise.
Unvorhersehbare Skalierbarkeit Ihrer Infrastruktur	AWS Auto Scaling	AWS Auto Scaling überwacht Ihre Anwendungen und passt die Kapazität automatisch an, um eine stabile, vorhersagbare Leistung zu den geringstmöglichen Kosten zu erreichen.
Unvorhersehbare Nutzung von EC2-Instances	Amazon-EC2-Flotte	Mit einem einzigen API-Aufruf können Sie jetzt Kapazitäten für EC2-Instance-Typen und für verschiedene Bezugsmodelle bereitstellen, um die gewünschte Skalierung, Leistung und Kosten zu erzielen.
Gewährleistung der Modellgenauigkeit	Amazon SageMaker Model Monitor	Überwachen Sie kontinuierlich die Qualität von Machine-Learning-Modellen in der Produktion und lassen Sie sich bei Abweichungen in der Modellqualität warnen, ohne zusätzliche Tools entwickeln zu müssen.
Interferenzkosten verwalten	Multi-Modell-Endpunkte von Amazon SageMaker	Stellen Sie mehrere Modelle mit einem einzigen Klick auf einem einzigen Endpunkt bereit und verwenden Sie einen einzigen Servingcontainer, um eine skalierbare und kostengünstige Methode für die Bereitstellung einer großen Anzahl von Modellen zu bieten.

Anwendungsfall	AWS-Lösung	Wie
Kurzfristige Trainingsaufträge	On-Demand-Preise	Mit On-Demand-Instances zahlen Sie für die Rechenkapazität nach Stunde oder Minute, je nachdem, welche Instances Sie ausführen.
Trainingsaufträge mit flexiblen Start-Stopp-Zeiten	Spot-Preise	Mit EC2 Spot-Instances können Sie Amazon-EC2-Datenverarbeitungs-Reservekapazität mit einem Rabatt von bis zu 90 % auf den On-Demand-Preis anfordern.
Stetige Machine-Learning-Workloads über verschiedene Instance-Typen über einen langen Zeitraum	Savings Plans	Savings Plans bieten erhebliche Einsparungen gegenüber den On-Demand-Preisen und verpflichten im Gegenzug dazu, eine bestimmte Menge an Rechenleistung für einen Zeitraum von einem oder drei Jahren zu nutzen.

Infrastruktur von AWS Machine Learning

Wählen Sie aus einer breiten Palette von Services für Machine Learning

Infrastruktur-Services für Machine Learning

Ausgewählte Kunden

In Zahlen ausgedrückt

Vorteile

Datenverarbeitung: Reduzieren Sie die Trainingszeit auf wenige Minuten und laden Sie Ihre Inferenzen auf.

Netzwerke: Skalierbare Infrastruktur für effizientes verteiltes Training oder skalierbare Inferenzen

Speicherung: Ideale Optionen für die Erstellung von Datenspeichern oder die Verwaltung gelabelter Daten

Niedrigste Kosten in der Branche für ML-Inferenz

Große Auswahl an GPU-Instances in großem Maßstab zur Optimierung von Zeit und Kosten für das Training

Unterstützung aller wichtigen Machine-Learning-Frameworks

Optimierungen, die unter die Frameworks fallen

Preisoptionen

Weitere Ressourcen

Ende des Supports für Internet Explorer