Überspringen zum Hauptinhalt

Amazon EC2

Amazon-EC2-P4-Instances

Hohe Leistung für ML-Training und HPC-Anwendungen in der Cloud

Warum Amazon EC2 P4-Instances?

P4d-Instances von Amazon Elastic Compute Cloud (Amazon EC2) bieten eine hohe Leistung für Machine Learning (ML)-Training und Anwendungen für High Performance Computing (HPC) in der Cloud. P4d-Instances werden von GPUS des NVIDIA-A100-Tensor-Core angetrieben und bieten einen branchenführenden hohen Durchsatz und eine niedrige Latenz im Netzwerk. Diese Instances unterstützen 400-Gbit/s-Instance-Netzwerke. P4d-Instances bieten bis zu 60 % niedrigere Kosten für das Training von ML-Modellen, einschließlich einer durchschnittlich 2,5 Mal besseren Leistung für Deep-Learning-Modelle im Vergleich zu P3- und P3dn-Instances der vorherigen Generation.

P4d-Instances werden in Clustern bereitgestellt, die als Amazon EC2 UltraCluster bezeichnet werden und leistungsstarke Rechenleistung, Netzwerke und Speicher in der Cloud umfassen. Jeder EC2 UltraCluster ist einer der leistungsstärksten Supercomputer der Welt, der Ihnen dabei hilft, Ihre komplexesten Multi-Knoten-ML-Trainings und verteilten HPC-Workloads auszuführen. Sie können ganz einfach von einigen wenigen bis zu Tausenden von NVIDIA-A100-GPUs in den EC2 UltraClustern basierend auf Ihren ML- oder HPC-Projektanforderungen skalieren.

Forscher, Datenwissenschaftler und Entwickler können P4D-Instances verwenden, um ML-Modelle für Anwendungsfälle wie die natürliche Sprachverarbeitung, Objekterkennung und -klassifizierung sowie Empfehlungsmaschinen zu trainieren. Sie können es auch verwenden, um HPC-Anwendungen wie pharmazeutische Forschung, seismische Analyse und Finanzmodellierung auszuführen. Im Gegensatz zu On-Premises-Systemen können Sie auf praktisch unbegrenzte Computing- und Speicherkapazität zugreifen, Ihre Infrastruktur basierend auf den Geschäftsanforderungen skalieren und einen Multi-Knoten-ML-Trainingsauftrag oder eine eng gekoppelte verteilte HPC-Anwendung innerhalb von Minuten ohne Einrichtungs- oder Wartungskosten einrichten.

Ankündigung der neuen Amazon-EC2-P4d-Instances

Vorteile

    Mit Core-GPUs von NVIDIA A100 Tensor der neuesten Generation bietet jede P4d-5x-Instance im Vergleich zu P3-Instances der vorherigen Generation im Durchschnitt eine 2,5 Mal bessere DL-Leistung. EC2 UltraCluster von P4d-Instances helfen den Entwicklern, Datenwissenschaftlern und Forschern, ihre komplexesten ML- und HPC-Workloads auszuführen, indem sie ohne Vorabkosten oder langfristige Verpflichtungen auf Leistung der Supercomputing-Klasse zugreifen. Die reduzierte Trainingszeit mit P4d-Instances steigert die Produktivität und hilft den Entwicklern, sich auf ihre Aufgabe zu konzentrieren, ML-Intelligenz in Geschäftsanwendungen zu integrieren.

    Entwickler können mit EC2 UltraClustern von P4d-Instances nahtlos auf bis zu Tausende von GPUs skalieren. Ein Netzwerk mit hohem Durchsatz und geringer Latenzzeit mit Unterstützung für 400-Gbit/s-Instance-Netzwerke, Elastic Fabric Adapter (EFA) und GPUDirect-RDMA-Technologie helfen beim schnellen Trainieren von ML-Modellen mit anpassbaren/verteilten Techniken. EFA verwendet die NVIDIA Collective Communications Library (NCCL), um auf Tausende von GPUs zu skalieren und die GPUDirect RDMA-Technologie ermöglicht eine GPU-zu-GPU-Kommunikation mit geringer Latenz zwischen P4d-Instances.

    P4d-Instances bieten im Vergleich zu P3-Instances bis zu 60 % niedrigere Kosten für das Training von ML-Modellen. Darüber hinaus können P4d-Instances als Spot Instances erworben werden. Spot Instances verwenden ungenutzte EC2-Instance-Kapazität und können Ihre Kosten für EC2 vergleichen mit On-Demand-Instances deutlich um bis zu 90 % senken. Durch die geringeren Kosten für ML-Trainingssitzungen mit P4d-Instances können Budgets neu zugewiesen werden, um mehr ML-Intelligenz in Geschäftsanwendungen zu integrieren.

    AWS Deep Learning AMIs (DLAMIs) und Amazon-Deep-Learning-Container erleichtern die Bereitstellung von P4d-DL-Umgebungen in Minuten, da sie die erforderlichen DL-Framework-Bibliotheken und -Tools enthalten. Sie können diesen Bildern auch einfacher Ihre eigenen Bibliotheken und Tools hinzufügen. P4d-Instances unterstützen gängige ML-Frameworks wie TensorFlow, PyTorch und MXNet. Darüber hinaus werden P4d-Instances von wichtigen AWS-Services für ML, Verwaltung und Orchestrierung wie Amazon SageMaker, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS Batch und AWS ParallelCluster unterstützt.

Funktionen

    Core-GPUs von NVIDIA A100 Tensor bieten beispiellose Beschleunigung nach Maß für ML und HPC. Die Tensor-Cores der dritten Generation von NVIDIA A100 beschleunigen jeden Präzisions-Workload und verkürzen die Zeit für die Erkenntnisserlangung und Markteinführung. Jeder A100-Grafikprozessor bietet mehr als die 2,5-fache Computing-Leistung im Vergleich zur vorherigen Generation des V100-Grafikprozessors und ist mit 40 GB HBM2 (in P4d-Instances) oder 80 GB HBM2e (in P4de-Instances) Hochleistungs-Grafikprozessorspeicher ausgestattet. Ein höherer GPU-Speicher kommt insbesondere Workloads zugute, die auf großen Datensätzen mit hochauflösenden Daten trainieren. NVIDIA-A100-GPUs verwenden den NVSwitch-GPU-Interconnect-Durchsatz, sodass jede GPU mit jeder anderen GPU in derselben Instance mit demselben bidirektionalen Durchsatz von 600 GB/s und mit Single-Hop-Latenz kommunizieren kann.

    P4d-Instances bieten ein 400-Gbit/s-Netzwerk, um Kunden dabei zu helfen, ihre verteilten Workloads, wie Multi-Knoten-Training effizienter mit Networking mit hohem Durchsatz zwischen P4d-Instances sowie zwischen einer P4d-Instance und Speicherservices wie Amazon Simple Storage Service (Amazon S3) und FSx für Lustre. EFA ist eine benutzerdefinierte Netzwerkschnittstelle, die von AWS entwickelt wurde, um ML- und HPC-Anwendungen auf Tausende von GPUs zu skalieren. Um die Latenz weiter zu reduzieren, ist EFA mit NVIDIA GPUDirect RDMA gekoppelt, um eine GPU-zu-GPU-Kommunikation mit niedriger Latenz zwischen Servern mit Betriebssystemumgehung zu ermöglichen.

    Greifen Sie mit FSx für Lustre auf Speicher mit hohem Durchsatz und geringer Latenz im PetaByte-Maßstab zu oder mit Amazon S3 auf praktisch unbegrenzten kostengünstigen Speicher mit 400 Gbit/s-Geschwindigkeit zu. Für Workloads, die schnellen Zugriff auf große Datensätze benötigen, enthält jede P4d-Instance auch 8 TB NVMe-basierten SSD-Speicher mit 16 GB/s Lesedurchsatz.

    Die P4d-Instances basieren auf dem AWS Nitro System, einer umfangreichen Sammlung von Modulbausteinen, die viele der herkömmlichen Virtualisierungsfunktionen auf dedizierte Hardware und Software auslagern, um hohe Leistung, hohe Verfügbarkeit und hohe Sicherheit zu bieten und gleichzeitig den Virtualisierungsaufwand zu reduzieren.

Kundenempfehlungen

Hier sind einige Beispiele dafür, wie Kunden und Partner ihre Geschäftsziele mit Amazon EC2 P4-Instances erreicht haben.

Toyota Research Institute (TRI)

 

Das 2015 gegründete Toyota Research Institute (TRI) arbeitet an der Entwicklung von automatisiertem Fahren, Robotik und anderen Verstärkungstechniken für Menschen für Toyota. 
 
„Bei TRI arbeiten wir daran, eine Zukunft aufzubauen, in der jeder die Freiheit hat, sich zu bewegen. Die P3-Instances der vorherigen Generation haben uns geholfen, unsere Zeit für das Training von ML-Modellen von Tagen auf Stunden zu reduzieren, und wir freuen uns darauf, P4d-Instances zu verwenden, da der zusätzliche GPU-Speicher und die effizienteren Float-Formate es unserem Machine-Learning-Team ermöglichen werden, mit komplexeren Modellen noch schneller zu trainieren. „
Mike Garrison, Technical Lead, Infrastructure Engineering, TRI
Missing alt text value

TRI-ANZEIGE

 

„Bei TRI-AD arbeiten wir daran, eine Zukunft aufzubauen, in der jeder die Freiheit hat, sich zu bewegen und zu erkunden, wobei der Schwerpunkt auf der Reduzierung von Fahrzeugverletzungen und Todesfällen durch adaptives Fahren und Smart City liegt. Durch den Einsatz von Amazon EC2 P4d-Instances konnten wir unsere Trainingszeit für die Objekterkennung im Vergleich zu GPU-Instances der vorherigen Generation um 40% reduzieren, ohne dass bestehende Codes geändert wurden. „
 
Junya Inada, Director of Automated Driving (Recognition), TRI-AD
Missing alt text value

TRI-ANZEIGE

 

„Durch den Einsatz von Amazon EC2 P4d-Instances konnten wir unsere Schulungskosten im Vergleich zu GPU-Instances der vorherigen Generation sofort senken, sodass wir die Anzahl der Teams erhöhen konnten, die am Modelltraining arbeiten. Die Netzwerkverbesserungen in P4d ermöglichten es uns, effizient auf Dutzende von Instanzen zu skalieren, was uns eine erhebliche Agilität verschaffte, um Modelle schnell zu optimieren, neu zu trainieren und in Testfahrzeugen oder Simulationsumgebungen für weitere Tests einzusetzen. „
 
Jack Yan, Senior Director of Infrastructure Engineering, TRI-AD
Missing alt text value

GE Healthcare

 

GE Healthcare ist ein weltweit führender Innovator für Medizintechnik und digitale Lösungen. GE Healthcare ermöglicht Ärzten, schnellere und fundiertere Entscheidungen durch intelligente Geräte, Datenanalysen, Anwendungen und Services zu treffen, die von der Edison-Intelligence-Plattform unterstützt werden. 
 
„Bei GE Healthcare stellen wir Klinikern Tools zur Verfügung, mit denen sie Daten aggregieren, KI und Analysen auf diese Daten anwenden und Erkenntnisse gewinnen können, die die Behandlungsergebnisse verbessern, die Effizienz steigern und Fehler vermeiden. Unsere medizinischen Bildgebungsgeräte erzeugen riesige Datenmengen, die von unseren Datenwissenschaftlern verarbeitet werden müssen. Bei früheren GPU-Clustern würde es Tage dauern, komplexe KI-Modelle wie Progressive GANs für Simulationen zu trainieren und die Ergebnisse anzuzeigen. Durch die Verwendung der neuen P4d-Instances wurde die Verarbeitungszeit von Tagen auf Stunden reduziert. Wir haben beim Training von Modellen mit unterschiedlichen Bildgrößen eine zwei- bis dreimal höhere Geschwindigkeit festgestellt und gleichzeitig eine bessere Leistung mit einer höheren Batchgröße und eine höhere Produktivität mit einem schnelleren Modellentwicklungszyklus erzielt. „
 
Karley Yoder, VP & GM, Artificial Intelligence, GM Healthcare
Missing alt text value

HEAVY.AI

 

HEAVY.AI ist ein Pionier in der beschleunigten Analytik. Die Plattform HEAVY.AI wird in Unternehmen und Behörden verwendet, um Erkenntnisse aus Daten zu gewinnen, die über die Grenzen herkömmlicher Analysetools hinausgehen.
 
„Bei HEAVY.AI arbeiten wir daran, eine Zukunft aufzubauen, in der Datenwissenschaft und Analytik zusammenlaufen, um Datensilos aufzubrechen und zu verschmelzen. Kunden nutzen ihre enormen Datenmengen, die Standort und Zeit beinhalten können, um sich nicht nur ein vollständiges Bild davon zu machen, was passiert, sondern auch wann und wo dies passiert und zwar durch eine granulare Visualisierung von räumlichen und zeitlichen Daten. Unsere Technologie ermöglicht es, sowohl den Wald als auch die Bäume zu sehen. Durch den Einsatz von Amazon-EC2-P4d-Instances konnten wir die Kosten für die Bereitstellung unserer Plattform im Vergleich zu GPU-Instances der vorherigen Generation deutlich senken und so massive Datensätze kostengünstig skalieren. Die Netzwerkverbesserungen auf dem A100 haben unsere Effizienz bei der Skalierung auf Milliarden von Datenzeilen erhöht und es unseren Kunden ermöglicht, noch schneller Erkenntnisse zu gewinnen. „
 
Ray Falcione, VP of US Public Sector, HEAVY.AI
Missing alt text value

Zenotech Ltd.

 

Zenotech Ltd definiert Engineering online neu durch den Einsatz von HPC-Clouds, die On-Demand-Lizenzmodelle zusammen mit extremen Leistungsvorteilen durch den Einsatz von GPUs bereitstellen. 
 
„Bei Zenotech entwickeln wir die Tools, mit denen Designer effizientere und umweltfreundlichere Produkte entwickeln können. Wir arbeiten branchenübergreifend und unsere Tools bieten durch den Einsatz von groß angelegten Simulationen bessere Erkenntnisse für die Produktleistung.“ „Der Einsatz von AWS-P4d-Instances ermöglicht es uns, unsere Simulationen 3,5-mal schneller auszuführen als mit der vorherigen GPU-Generation. Diese Beschleunigung verkürzt unsere Lösungszeit erheblich und ermöglicht es unseren Kunden, Designs schneller auf den Markt zu bringen oder Simulationen mit höherer Genauigkeit durchzuführen, als dies bisher möglich war. „
 
Jamil Appa, Director und Cofounder, Zenotech
Missing alt text value

Aon

 

Aon ist ein weltweit führendes professionelles Dienstleistungsunternehmen, das eine breite Palette von Risiko-, Altersvorsorge- und Gesundheitslösungen anbietet. Aon PathWise ist eine GPU-basierte und skalierbare HPC-Risikoverwaltungslösung, mit der Versicherer und Rückversicherer, Banken und Pensionsfonds die wichtigsten Herausforderungen von heute wie Hedge-Strategietests, regulatorische und wirtschaftliche Prognosen sowie Budgetierung bewältigen können. 
 
„Bei PathWise Solutions Group LLC ermöglicht unser Produkt Versicherungsunternehmen, Rückversicherern und Pensionsfonds den Zugang zu Technologien der nächsten Generation, um die wichtigsten Versicherungsherausforderungen von heute schnell zu lösen, wie maschinelles Lernen, Testen von Hedge-Strategien, regulatorische und finanzielle Berichterstattung, Geschäftsplanung und Wirtschaftsprognosen sowie Entwicklung und Preisgestaltung neuer Produkte. Durch den Einsatz von Amazon-EC2-P4d-Instances sind wir zum ersten Mal in der Lage, erstaunliche Geschwindigkeitsverbesserungen für Berechnungen mit einfacher und doppelter Genauigkeit gegenüber GPU-Instances der vorherigen Generation für die anspruchsvollsten Berechnungen zu erzielen. Geschwindigkeit ist wichtig, und dank der neuen Instances von AWS bieten wir unseren Kunden weiterhin einen erheblichen Mehrwert und die neueste Technologie. „
 
Van Beach, globaler Leiter von Life Solutions, Strategie- und Technologiegruppe von Aon Pathwise
Missing alt text value

Rad AI

 

Rad AI besteht aus Radiologie- und KI-Experten und entwickelt Produkte, die die Produktivität von Radiologen maximieren, wodurch die Gesundheitsversorgung letztlich allgemein zugänglich wird und die Behandlungsergebnisse verbessert werden.  Lesen Sie die Fallstudie, um mehr zu erfahren
 
„Unsere Mission bei Rad AI ist es, den Zugang und die Qualität der Gesundheitsversorgung für alle zu verbessern. Mit einem Fokus auf den Workflow der medizinischen Bildgebung spart Rad AI Radiologen Zeit, reduziert das Vorkommen von Burnout und verbessert die Genauigkeit. „Wir verwenden KI, um radiologische Workflows zu automatisieren und die radiologische Berichterstattung zu optimieren. Mit den neuen EC2-P4d-Instances haben wir eine schnellere Inferenz und die Möglichkeit gesehen, Modelle 2,4 Mal schneller mit höherer Genauigkeit zu trainieren als bei P3-Instances der vorherigen Generation. Dies ermöglicht eine schnellere, genauere Diagnose und einen besseren Zugang zu hochwertigen radiologischen Dienstleistungen, die von unseren Kunden in den USA erbracht werden. „
 
Doktor Gurson, Cofounder, Rad AI
Missing alt text value

Produktdetails

Instance Size
vCPUs
Instance Memory (GiB)
GPU – A100
GPU memory
Network Bandwidth (Gbps)
GPUDirect RDMA
GPU Peer to Peer
Instance Storage (GB)
EBS Bandwidth (Gbps)
p4d.24xlarge
96
1152
8
320 GB
HBM2
400 ENA und EFA
Ja
600 GB/s NVSwitch
8 x 1000 NVMe-SSD
19
p4de.24xlarge
96
1152
8
640 GB
HBM2e
400 ENA und EFA
Ja
600 GB/s NVSwitch
8 x 1000 NVMe-SSD
19

Erste Schritte mit P4d-Instances für ML

    Amazon SageMaker ist ein vollständig verwalteter Service für die Erstellung, Schulung und Bereitstellung von ML-Modellen. In Verbindung mit P4d-Instances können Kunden problemlos auf dutzende, hunderte oder tausende von GPUs skalieren, um ein Modell schnell in einem beliebigen Umfang zu trainieren, ohne sich Gedanken über die Einrichtung von Clustern und Data Pipelines machen zu müssen.

    DLAMI bietet ML-Praktikern und Forschern die Infrastruktur und Tools, um DL in der Cloud in jeder Größenordnung zu beschleunigen. Deep-Learning-Container sind Docker-Images, auf denen DL-Frameworks vorinstalliert sind, um die schnelle Bereitstellung benutzerdefinierter ML-Umgebungen zu vereinfachen, da Sie den komplizierten Prozess der Erstellung und Optimierung Ihrer Umgebungen von Grund auf überspringen können.

Erste Schritte mit P4d-Instances für HPC

P4d-Instances eignen sich hervorragend für die Ausführung für technische Simulationen, computergestütztes Finanzwesen, seismische Analysen, molekulare Modellierung, Genomik, Rendering und andere GPU-Rechen-Workloads. HPC-Anwendungen benötigen häufig eine hohe Netzwerkleistung, schnelle Speicherung, viel Arbeitsspeicher, hohe Datenverarbeitungskapazitäten oder alles gleichzeitig. P4d-Instances unterstützen EFA, mit dem HPC-Anwendungen, die das Message Passing Interface (MPI) verwenden, auf Tausende von GPUs skaliert werden können. AWS Batch und AWS ParallelCluster helfen HPC-Entwicklern, verteilte HPC-Anwendungen schnell zu erstellen und zu skalieren.

Weitere Informationen