Amazon EC2 P3-Instances

Beschleunigen Sie Machine-Learning- und High-Performance-Computing-Anwendungen mit leistungsstarken GPUs

Amazon EC2 P3-Instances bieten High Performance Computing in der Cloud mit bis zu 8 NVIDIA® V100 Tensor Core GPUs und einem Netzwerkdurchsatz von bis zu 100 Gbit/s für Machine Learning- und HPC-Anwendungen. Diese Instances liefern bis zu einem Petaflop Mixed-Precision-Leistung pro Instance, um Machine Learning- und High Performance Computing-Anwendungen zu beschleunigen. Amazon EC2 P3-Instances verringern die Schulungszeiten für Machine Learning erwiesenermaßen von Tagen auf Minuten und verbessern die Zahl der abgeschlossenen Simulationen für High Performance Computing um das Drei- bis Vierfache.
Die neuesten Instances der P3-Serie sind die Amazon EC2 P3dn.24xlarge-Instances mit einer Netzwerkbandbreite von bis zu einem Vierfachen der P3.16xlarge-Instances. Sie wurden für Anwendungen für verteiltes Machine Learning und HPC optimiert. Diese Instances bieten einen Netzwerkdurchsatz von bis zu 100 GBit/s, 96 angepasste und skalierbare Intel® Xeon®(Skylake)-vCPUs, acht NVIDIA® Tesla® V100-GPUs mit jeweils 32 GB Arbeitsspeicher und 1,8 TB lokalem, NVMe-basierten SSD-Speicher.

Erfahren Sie, wie Amazon EC2 P3-Instances Ihnen bei Ihrer Weiterbildung im Bereich Machine Learning helfen können.

EC2_P3_Thumb

Einführung von Amazon EC2 P3dn.24xlarge – unsere bisher leistungsfähigsten P3-Instances

Für verteilte Machine Learning-Schulung und High Performance Computing optimiert.

ReInvent_HA_P3_EDITORIAL

Nutzen

VERKÜRZUNG DER MACHINE-LEARNING-TRAININGSZEIT VON TAGEN AUF MINUTEN

Datenexperten, Forscher und Entwickler, die ML-Anwendungen beschleunigen müssen, helfen Amazon EC2 P3-Instances, denn es sind die schnellsten in der Cloud für ML-Schulung. Amazon EC2 P3-Instances besitzen bis zu acht NVIDIA Tensor Core V100-GPUs der neuesten Generation, die bis zu einem Petaflop Mixed-Precision-Leistung bieten und ML-Workloads erheblich beschleunigen. Ein schnelleres Modelltraining ermöglicht Datenwissenschaftlern und Machine-Learning-Ingenieuren schnellere Iterationen, Training von mehr Modellen und höhere Genauigkeit.

DIE KOSTENEFFIZIENTESTE ML-SCHULUNGSLÖSUNG DER BRANCHE

Eine der leistungsstärksten GPU-Instances in der Cloud kombiniert mit flexiblen Preismodellen in einer außergewöhnlich kosteneffizienten Lösung für die Schulung bei Machine Learning. P3-Instances sind, wie Amazon EC2-Instances allgemein, als On-Demand-Instances, Reserved Instances oder Spot-Instances verfügbar. Spot-Instances verwenden ungenutzte EC2-Instance-Kapazität und können Ihre Kosten für Amazon EC2 vergleichen mit On-Demand-Instances deutlich um bis zu 70 % senken.

FLEXIBLES, LEISTUNGSSTARKES HIGH PERFORMANCE COMPUTING

Anders als Systeme vor Ort, bietet High Performance Computing auf Amazon EC2 P3-Instances nicht nur praktisch unbegrenzte Kapazität zum Skalieren Ihrer Infrastruktur, sondern auch die entsprechende Flexibilität, um Ressourcen problemlos und so oft zu ändern, wie Ihr Workload dies erfordert. Sie können Ihre Ressourcen so konfigurieren, dass Sie die Anforderungen Ihrer Anwendung erfüllen, und ein HPC-Cluster innerhalb von Minuten starten, wobei Sie nur für das bezahlen, was Sie nutzen.

Sofort mit der Entwicklung beginnen

Verwenden Sie die vorgepackten Docker-Images, um innerhalb von Minuten Deep Learning-Umgebungen bereitzustellen. Die Images enthalten die erforderlichen Deep-Learning-Framework-Bibliotheken (aktuell TensorFlow und Apache MXNet) und Tools und sind voll getestet. Sie können leicht Ihre eigenen Bibliotheken und Tools hinzufügen, um Überwachung, Compliance und Datenverarbeitung genauer zu steuern. Darüber hinaus arbeiten Amazon EC2 P3-Instances optimal mit Amazon SageMaker zusammen und bieten so eine leistungsstarke und intuitive, umfassende Machine-Learning-Plattform. Amazon SageMaker ist eine komplett verwaltete Machine-Learning-Plattform, mit der Sie Machine-Learning-Modelle schnell und problemlos erstellen, trainieren und bereitstellen können. Außerdem können Amazon EC2 P3-Instances in Amazon-Systemabbild (Amazon Machine Images, AMIs) von AWS Deep Learning integriert werden, die bei beliebten Deep Learning-Frameworks vorinstalliert sind. Das beschleunigt und erleichtert den Einstieg in die Schulung und Inferenz bei Machine Learning.

Skalierbares Machine Learning-Training mit mehreren Knoten

Sie können mehrere Amazon EC2 P3-Instances mit einem Netzwerkdurchsatz von bis zu 100 Gbit/s nutzen, um Machine Learning-Modelle schnell zu schulen. Mit einem höheren Netzwerkdurchsatz können Entwickler Engpässe bei der Datenübertragung entfernen und die Aufgaben ihrer Modelschulung effektiv über mehrere P3-Instances skalieren. Kunden konnten ResNet-50, ein allgemeines Modell zur Bildklassifizierung, mit 16 P3-Instances in nur 18 Minuten auf eine dem Branchenstandard entsprechende Genauigkeit schulen. Dieses Leistungsniveau konnte bisher von den meisten ML-Kunden nicht erreicht werden, da ein großer Investitionsaufwand erforderlich war, um GPU-Cluster vor Ort auszubauen. Dank P3-Instances und ihrer Verfügbarkeit über ein On-Demand-Nutzungsmodell, steht dieses Leistungsniveau jetzt allen Entwicklern und Technikern im Bereich Machine Learning zur Verfügung.

UNTERSTÜTZUNG ALLER WICHTIGEN MACHINE-LEARNING-FRAMEWORKS

Amazon EC2 P3-Instances unterstützen alle wichtigen Machine-Learning-Frameworks, darunter TensorFlow, PyTorch, Apache MXNet, Caffe, Caffe2, Microsoft Cognitive Toolkit (CNTK), Chainer, Theano, Keras, Gluon und Torch. Sie können das Framework auswählen, das am besten für Ihre Anwendung geeignet ist.

Kundenerfahrungen

200x100_AirBNB_Logo

Airbnb setzt Machine Learning ein, um Suchempfehlungen zu optimieren und die dynamische Preisgestaltung für die Gastgeber zu verbessern, was zu mehr Buchungen führt. Mit Amazon EC2 P3-Instances kann Airbnb Schulungs-Workloads schneller ausführen, mehr iterieren, bessere Modelle für das Machine Learning entwickeln und die Kosten senken.

salesforce_logo_200x100

Salesforce nutzt Machine Learning für Einstein Vision und ermöglicht Entwicklern damit, die Leistung der Bilderkennung für Anwendungsfälle wie visuelle Suche, Markenerkennung und Produktidentifizierung zu nutzen. Amazon EC2 P3-Instances ermöglichen es Entwicklern, Deep-Learning-Modelle schneller zu trainieren, sodass sie ihre Machine-Learning-Ziele schnell erreichen.

western-digital_200x100

Western Digital nutzt High Performance Computing (HPC) zur Durchführung zehntausender Simulationen für Materialwissenschaften, Wärmeströme, Magnetik und Datenübertragung, um die Leistung und Qualität von Festplatten- und Speicherlösungen zu verbessern. Durch frühzeitige Tests bieten Amazon EC2 P3-Instances Entwicklungsteams die Möglichkeit, Simulationen mindestens drei Mal schneller als mit älteren Lösungen durchzuführen.  

schrodinger-200x100

Schrödinger nutzt High Performance Computing (HPC) zur Entwicklung von Vorhersagemodellen, um den Erkenntnis- und Optimierungsumfang zu erweitern und Kunden die Möglichkeit zu geben, lebensrettende Arzneimittel schneller auf den Markt zu bringen. Mit Amazon EC2 P3-Instances kann Schrodinger vier Mal so viele Simulationen an einem Tag durchführen wie mit P2-Instances.  

Amazon EC2 P3-Instances und Amazon SageMaker

Die schnellste Art, Machine-Learning-Modelle zu trainieren und auszuführen

Amazon SageMaker ist ein komplett verwalteter Service zum Erstellen, Trainieren und Bereitstellen von Machine-Learning-Modellen. In Verbindung mit Amazon EC2 P3-Instances können Kunden problemlos auf dutzende, hunderte oder tausende von GPUs skalieren, um ein Modell schnell in einem beliebigen Umfang zu trainieren, ohne sich Gedanken über die Einrichtung von Clustern und Data Pipelines machen zu müssen. Sie können auch leicht auf Ressourcen von Amazon Virtual Private Cloud (Amazon VPC) zugreifen, um Workflows in Amazon SageMaker zu schulen und zu hosten. Mit dieser Funktion können Sie Amazon Simple Storage Service-(Amazon S3)-Buckets verwenden, auf die nur über Ihre VPC zugegriffen werden kann, um Schulungsdaten zu speichern und die aus dem Schulungsprozess abgeleiteten Modellartefakte zu speichern und zu hosten. Zusätzlich zu S3 können Modelle auf alle anderen in der VPC enthaltenen AWS-Ressourcen zugreifen. Weitere Informationen.

Entwicklung

Amazon SageMaker erleichtert die Erstellung von Machine Learning-Modellen und deren Vorbereitung auf die Schulung. Es bietet alles, was Sie benötigen, um eine schnelle Verbindung zu Ihren Schulungsdaten einzurichten und den besten Algorithmus und das beste Framework für Ihre Anwendung auszuwählen und zu optimieren. Amazon SageMaker beinhaltet gehostete Jupyter-Notebooks, mit denen Sie Ihre in Amazon S3 gespeicherten Trainingsdaten einfach sondieren und visualisieren können.  Sie können außerdem die Notebook-Instance zum Schreiben von Code verwenden, um Modell-Training-Jobs zu erstellen, Modelle auf Amazon SageMaker-Hosting bereitzustellen und Ihre Modelle zu testen oder zu validieren.

Trainieren

Sie können mit einem einzigen Klick in der Konsole oder mit einem API-Aufruf damit beginnen, Ihr Modell zu schulen. Zur Leistungsoptimierung mit NVIDIA-GPUs sind in Amazon SageMaker die aktuellen Versionen von TensorFlow und Apache MXNet sowie Unterstützung für CUDA9-Bibliotheken vorkonfiguriert. Außerdem kann Ihr Modell mit Hyperparameter-Optimierung durch eine intelligente Abstimmung verschiedener Kombinationen von Modellparametern automatisch angepasst werden, um möglichst genaue Vorhersagen zu erhalten. Bei umfangreicheren Anforderungen können Sie dutzende von Instances nutzen, um eine schnellere Modellerstellung zu unterstützen.

Bereitstellen

Nach der Schulung können Sie Ihr Modell mit einem Klick in verschiedenen Availability Zones auf sich automatisch skalierenden Amazon EC2-Instances bereitstellen. In der Produktion übernimmt Amazon SageMaker die Verwaltung der Datenverarbeitungsinfrastruktur (Zustandsprüfungen durchführen, Sicherheitspatches einspielen und andere routinemäßige Wartungsaufgaben). Dabei sind die Überwachungs- und Protokollierungsfunktionen von Amazon CloudWatch integriert.

 

Amazon EC2 P3-Instances und AWS Deep Learning-AMIs

Vorkonfigurierte Entwicklungsumgebungen, um schnell mit dem Erstellen von Deep-Learning-Anwendungen beginnen zu können

Eine Alternative zu Amazon SageMaker für Entwickler mit einem größeren Anpassungsbedarf sind AWS Deep Learning-AMIs, die Machine-Learning-Nutzern und -Forschern die Infrastruktur und Tools bereitstellen, mit denen sich Deep Learning in der Cloud beliebig beschleunigen lässt. Sie können schnell Amazon EC2 P3-Instances mit vorinstallierten, gängigen DL-Frameworks wie TensorFlow, PyTorch, Apache MXNet, Microsoft Cognitive Toolkit, Caffe, Caffe2, Theano, Torch, Chainer, Gluon und Keras starten, um komplexe, individuelle KI-Modelle zu trainieren, mit neuen Algorithmen zu experimentieren oder neue Fähigkeiten und Techniken zu lernen. Weitere Informationen

Amazon EC2 P3-Instances und High Performance Computing

Lösen Sie umfangreiche Rechenprobleme, und erhalten Sie neue Einblicke mit der Leistung von HPC auf AWS

Amazon EC2 P3-Instances sind die ideale Plattform für technische Simulationen, Computational Finance, seismische Analysen, molekulare Modellierung, Genomik, Rendering und andere GPU-Rechen-Workloads. High Performance Computing (HPC) ermöglicht Wissenschaftlern und Technikern das Lösen dieser komplexen, rechenintensiven Probleme. HPC-Anwendungen benötigen häufig eine hohe Netzwerkleistung, schnelle Speicherung, viel Arbeitsspeicher, hohe Datenverarbeitungskapazitäten oder alles gleichzeitig. AWS ermöglicht Ihnen die Beschleunigung der Forschung und die Verkürzung der Ergebniszeit durch Ausführung von HPC in der Cloud und Skalieren auf eine größere Anzahl paralleler Aufgaben als in den meisten lokalen Umgebungen sinnvoll wäre. AWS reduziert die Kosten durch Bereitstellung von Lösungen, die für bestimmte Anwendungen optimiert sind, ohne dass große Kapitalinvestitionen erforderlich sind. Weitere Informationen

Amazon EC2 P3dn.24xlarge-Instances

Neue schnellere, leistungsstärkere und größere Instances, die für verteiltes Machine Learning und High Performance Computing optimiert sind.

Amazon EC2 P3dn.24xlarge-Instances sind die schnellsten, leistungsfähigsten und größten P3-Instance-Größen auf dem Markt und bieten bis zu 100 Gbit/s Netzwerkdurchsatz, 8 NVIDIA® Tensor Core V100 GPUs mit je 32 GB Speicher, 96 benutzerdefinierte Intel® Xeon® Scalable (Skylake) vCPUs und 1,8 TB lokalen NVMe-basierten SSD-Speicher. Die schnellere Vernetzung, neue Prozessoren, die Verdopplung des GPU-Speichers und zusätzliche vCPUs ermöglichen es Entwicklern, die Zeit für das Training ihrer ML-Modelle oder die Ausführung weiterer HPC-Simulationen deutlich zu verkürzen, indem sie ihre Jobs über mehrere Instances (z.B. 16, 32 oder 64 Instances) hinweg skalieren. Für die Schulung von Machine Learning-Modellen sind große Datenmengen erforderlich und zusätzlich zur Erhöhung des Datendurchsatzes zwischen Instances kann der zusätzliche Netzwerkdurchsatz von P3dn.24xlarge-Instances auch zur Beschleunigung beim Zugriff auf große Mengen Schulungsdaten verwendet werden, indem eine Verbindung mit Amazon S3 oder Lösungen mit gemeinsam genutzten Dateisystemen, wie Amazon EFS, hergestellt werden.

ENTFERNEN VON ENGPÄSSEN UND VERKÜRZUNG DER MACHINE-LEARNING-SCHULUNGSZEIT

Mit einem Netzwerkdurchsatz von 100 Gbit/s können Entwickler eine große Anzahl an P3dn.24xlarge-Instances (z. B. 16, 32 oder 64 Instances) für die verteilte Schulung verwenden und die Schulungszeit ihrer Modelle deutlich verringern. Die Vorverarbeitung der Daten wird von den 96vCPUs des durch AWS angepassten Intel Skylake-Prozessors mit AVX-512-Befehlen, die mit 2,5 GHz betrieben werden, optimiert. Außerdem verwenden P3dn.24xlarge-Instances das AWS Nitro-System, eine Kombination aus dedizierter Hardware und schlankem Hypervisor, der praktisch alle Rechen- und Speicherressourcen der Host-Hardware für die Instances bereitstellt.

 

Durch die Optimierung der GPU-Nutzung TCO verringern

Ein verbessertes Netzwerk, das die aktuelle Version des Elastic Network Adapter mit bis zu 100 Gbit/s aggregierter Netzwerkbandbreite nutzt, kann nicht nur zur Datenfreigabe über mehrere P3dn.24xlarge-Instances, sondern auch für den Datenzugriff bei hohem Durchsatz über Amazon S3 oder Lösungen für gemeinsam genutzte Dateisysteme, wie Amazon EFS, genutzt werden. Datenzugriff bei hohem Durchsatz ist für die Optimierung der GPU-Nutzung und die Bereitstellung maximaler Leistung der Datenverarbeitungs-Instance wichtig.

Unterstützen Sie größere und komplexere Modelle

P3dn.24xlarge-Instances bieten NVIDIA V100 Tensor Core GPUs mit 32 GB Speicher, mit denen Sie flexibel erweiterte und größere Machine Learning-Modelle schulen sowie größere Datenstapel, wie 4K-Bilder für Bildklassifizierungs- und Objekterkennungssysteme verarbeiten können.

 

Amazon EC2 P3-Instance – Produktdetails

Instance-Größe GPUs – Tesla V100 GPU-Peer-to-Peer GPU-Speicher (GB) vCPUs Speicher (GB) Netzwerkbandbreite EBS-Bandbreite On-Demand-Preis/Std.* 1 Jahr lang Reserved Instance pro Stunde* 3 Jahr lang Reserved Instance pro Stunde*
p3.2xlarge 1 16 8 61 Bis zu 10 GBit/s 1,5 Gbit/s 3,06 USD 1,99 USD 1,05 USD
p3.8xlarge 4
NVLink 64 32 244 10 GBit/s 7 GBit/s 12,24 USD 7,96 USD 4,19 USD
p3.16xlarge 8 NVLink 128 64 488 25 GBit/s 14 GBit/s 24,48 USD 15,91 USD 8,39 USD
p3dn.24xlarge 8 NVLink 256 96 768 100 GBit/s 14 GBit/s 31,218 USD 18,30 USD 9,64 USD

* - Die angegebenen Preise gelten für Linux/Unix in der AWS-Region USA Ost (Nord-Virginia) und wurden auf den nächsten Cent gerundet. Vollständige Preisdetails finden Sie auf der Seite der Amazon EC2-Preise.

Kunden können P3-Instances als On-Demand-Instances, Reserved Instances, Spot Instances und Dedicated Hosts erwerben.

SEKUNDENGENAUE ABRECHNUNG

Einer der vielen Vorteile des Cloud Computings besteht in der Elastizität der bedarfsabhängigen Bereitstellung und Rückgabe von Ressourcen. Durch eine sekundengenaue Abrechnung können Kunden zum Erreichen ihrer Machine-Learning-Ziele ihre Elastizität angleichen, Geld sparen und ihre Ressourcenzuweisung optimieren.

RESERVED INSTANCE – PREISE

Reserved Instances bieten im Vergleich zu den Preisen von On-Demand-Instances einen beträchtlichen Nachlass (bis zu 75 %). Wenn Reserved Instances einer bestimmten Availability Zone zugewiesen werden, stellen sie außerdem eine Kapazitätsreservierung bereit, sodass Sie Instances bei Bedarf problem- und bedenkenlos starten können.

SPOT-PREISE

Für die Dauer der Ausführung der Instances zahlen Sie bei Spot-Instances den bei der Anforderung angegebenen Stundensatz. Die Preise für Spot-Instances werden von Amazon EC2 festgelegt und ändern sich schrittweise entsprechend der langfristigen Trends beim Angebot von und der Nachfrage nach Spot-Instance-Kapazitäten. Spot-Instances sind mit einem Rabatt von bis zu 90 % im Vergleich zum On-Demand-Preis verfügbar.

Umfassendste globale Verfügbarkeit

1856-Updated Map Image-P3 Instances-transparentBG_1024x543

Amazon EC2 P3.2xlarge-, P3.8xlarge- and P3.16xlarge-Instances sind in 14 AWS-Regionen verfügbar, sodass Kunden ihre Machine Learning-Modelle überall dort schulen und bereitstellen können, wo ihre Daten gespeichert sind. Verfügbare AWS-Regionen für P3: USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Oregon), Kanada (Zentral), Europa (Irland), Europa (Frankfurt), Europa (London), Asien-Pazifik (Tokio), Asien-Pazifik (Seoul), Asien-Pazifik (Sydney), Asien-Pazifik (Singapur), China (Peking), China (Ningxia) und AWS GovCloud (USA).

P3dn.24xlarge-Instances sind in den AWS-Regionen Europa (Irland), US-Ost (N. Virginia) und US-West (Oregon) verfügbar.

Erste Schritte mit Amazon EC2 P3-Instances beim Machine Learning

Beginnen Sie innerhalb von Minuten und erfahren Sie mehr über Amazon SageMaker oder verwenden Sie das AWS Deep Learning-AMI, das auf gängigen Deep-Learning-Frameworks wie Caffe2 und MXNet vorinstalliert ist. Sie können alternativ auch das NVIDIA-AMI mit vorinstalliertem GPU-Treiber und CUDA-Toolkit verwenden.

Blogs und Webinars

amrraga
 
Amr Ragab, Chetan Kapoor, Rahul Huilgol, Jarvis Lee, Tyler Mullenbach und Yong Wu
20. Juli 2018
aaron-markham-100x100-gray
 
Aaron Markham
17. Dezember 2018
 
Webinar-thumb1

Ausstrahlungsdatum: 19. Dezember 2018

Level: 200

Bei Computer Vision geht es darum, wie Computer so trainiert werden können, dass sie ein hochrangiges Verständnis von digitalen Bildern oder Videos erlangen. Die Geschichte von Computer Vision geht auf die 1960er Jahre zurück, aber die jüngsten Fortschritte in der Verarbeitungstechnologie haben Anwendungen wie die Navigation autonomer Fahrzeuge ermöglicht. In diesem technischen Vortrag werden die verschiedenen Schritte besprochen, die erforderlich sind, um ein Machine Learning-Modell für Computer Vision zu entwickeln, zu trainieren und einzusetzen. Wir werden das Training von Computer Vision-Modellen mit verschiedenen Amazon EC2-Instances vergleichen und gegenüberstellen und zeigen, wie signifikante Zeiteinsparungen durch den Einsatz von Amazon EC2 P3-Instances erreicht werden können.

Webinar-thumb2

Ausstrahlungsdatum: 31. Juli 2018

Level 200

Unternehmen beschäftigen sich mit exponentiell komplexen Fragen in den Bereichen Wissenschaft, Energie, Hightech und Medizin. Machine Learning (ML) ermöglicht es, die Vielzahl von Szenarien schnell zu erforschen und die besten Antworten zu generieren, von der Bild-, Video- und Spracherkennung über autonome Fahrzeugsysteme bis hin zur Wettervorhersage. Für Datenwissenschaftler, Forscher und Entwickler, die die Entwicklung ihrer ML-Anwendungen beschleunigen wollen, sind Amazon EC2 P3-Instances die leistungsfähigsten, kostengünstigsten und vielseitigsten GPU-Compute-Instances, die in der Cloud verfügbar sind.

Sind Sie startbereit?
Registrieren
Haben Sie Fragen?
Kontakt