Amazon-EC2-P5-Instances

GPU-basierte Instances mit Höchstleistung für Deep-Learning- und HPC-Anwendungen

Warum Amazon-EC2-P5-Instances?

P5-Instances von Amazon Elastic Compute Cloud (Amazon EC2), unterstützt von NVIDIA H100 Tensor Core-GPUs, und P5e- und P5en-Instances, unterstützt von NVIDIA H200 Tensor Core-GPUs, bieten die höchste Leistung in Amazon EC2 für Anwendungen des Deep Learnings (DL) und High Performance Computings (HPC). Sie helfen Ihnen dabei, die Zeit bis zur Lösung im Vergleich zu GPU-basierten EC2-Instances der vorherigen Generation um das 4-fache zu verkürzen und die Kosten für das Training von ML-Modellen um bis zu 40 % zu senken. Diese Instances helfen Ihnen dabei, Ihre Lösungen schneller weiterzuentwickeln und schneller auf den Markt zu bringen. Sie können P5-, P5e- und P5en-Instances für das Training und die Bereitstellung von immer komplexeren großen Sprachmodellen (LLMs) und Diffusionsmodellen verwenden, die die anspruchsvollsten Anwendungen generativer künstlicher Intelligenz (KI) unterstützen. Diese Anwendungen umfassen die Beantwortung von Fragen, Codegenerierung, Video- und Bildgenerierung sowie Spracherkennung. Sie können diese Instances auch verwenden, um anspruchsvolle HPC-Anwendungen in großem Maßstab für die pharmazeutische Forschung, seismische Analyse, Wettervorhersage und Finanzmodellierung bereitzustellen.

Um diese Leistungsverbesserungen und Kosteneinsparungen zu erzielen, ergänzen P5- und P5e-Instances NVIDIA-H100- und H200-Tensor-Core-GPUs mit zweimal höherer CPU-Leistung, zweimal höherem Systemspeicher und viermal höherem lokalen Speicher im Vergleich zu GPU-basierten Instances der vorherigen Generation. P5en-Instances kombinieren NVIDIA H200 Tensor Core-GPUs mit einer leistungsstarken Intel Sapphire Rapids-CPU und ermöglichen so Gen5-PCIe zwischen CPU und GPU. P5en-Instances bieten im Vergleich zu P5e- und P5-Instances eine bis zu doppelt so große Bandbreite zwischen CPU und GPU und eine geringere Netzwerklatenz, wodurch die verteilte Trainingsleistung verbessert wird. Die Unterstützung von P5- und P5e-Instances ermöglicht mithilfe des Elastic Fabric Adapters (EFA) der zweiten Generation ein Netzwerk von bis zu 3 200 Gbit/s. P5en, mit der dritten Generation von EFA mit Nitro v5, zeigt eine Verbesserung der Latenz um bis zu 35 % im Vergleich zu P5, das die vorherige Generation von EFA und Nitro verwendet. Dies trägt dazu bei, die kollektive Kommunikationsleistung für verteilte Trainingsworkloads wie Anwendungen des Deep Learnings, generativer KI, der Echtzeitdatenverarbeitung und des High-Performance Computings (HPC) zu verbessern. Um umfangreiche Rechenleistung bei geringer Latenz bereitzustellen, werden diese Instances in Amazon EC2 UltraClustern bereitgestellt, die eine Skalierung auf bis zu 20 000 H100- oder H200-GPUs ermöglichen, verbunden mit einem blockierungsfreien Netzwerk im Petabit-Bereich. P5-, P5e- und P5en-Instances in EC2 UltraClusters können bis zu 20 Exaflops an aggregierter Datenverarbeitungsleistung bereitstellen – eine Leistung, die der eines Supercomputers entspricht.

Amazon-EC2-P5-Instances

Vorteile

P5-, P5e- und P5en-Instances können extrem große generative KI-Modelle im großen Umfang trainieren und bieten eine bis zu 4-fache Leistung von GPU-basierten EC2-Instances der vorherigen Generation.

P5-, P5e- und P5en-Instances reduzieren die Trainingszeiten und die Zeit bis zur Lösung von Wochen auf nur wenige Tage. Dies hilft Ihnen, schneller zu iterieren und schneller auf den Markt zu kommen.

P5-, P5e- und P5en-Instances bieten im Vergleich zu GPU-basierten EC2-Instances der vorherigen Generation Einsparungen bei den Kosten für DL-Training und HPC-Infrastruktur von bis zu 40 %.

P5-, P5e- und P5en-Instances bieten EFA-Netzwerke mit bis zu 3 200 Gbit/s. Diese Instances werden in EC2-UltraCluster bereitgestellt und bieten eine aggregierte Rechenleistung von 20 Exaflops.

Funktionen

P5-Instances bieten bis zu 8 NVIDIA-H100-GPUs mit insgesamt bis zu 640 GB HBM3-GPU-Speicher pro Instance. P5e- und P5en-Instances bieten bis zu 8 NVIDIA H200-GPUs mit insgesamt bis zu 1 128 GB HBM3e-GPU-Speicher pro Instance. Beide Instances unterstützen bis zu 900 GB/s an NVSwitch-GPU-Interconnect (insgesamt 3,6 TB/s bisektionale Bandbreite in jeder Instance), sodass jede GPU mit jeder anderen GPU in derselben Instance mit Single-Hop-Latenz kommunizieren kann.

NVIDIA-H100- und -H200-GPUs verfügen über eine neue Transformer-Engine, die intelligent verwaltet und dynamisch zwischen FP8- und 16-Bit-Berechnungen wählt. Dieses Feature ermöglicht im Vergleich zu A100-GPUs der vorherigen Generation schnellere DL-Trainingsgeschwindigkeiten auf LLMs. Für HPC-Workloads verfügen NVIDIA-H100- und -H200-GPUs über neue DPX-Befehle, die dynamische Programmieralgorithmen im Vergleich zu A100-GPUs weiter beschleunigen.

P5-, P5e- und P5en-Instances stellen EFA-Netzwerke mit bis zu 3 200 Gbit/s bereit. EFA ist außerdem mit NVIDIA GPUDirect RDMA gekoppelt, um die GPU-zu-GPU-Kommunikation zwischen Servern mit geringer Latenz und Betriebssystemumgehung zu ermöglichen.

P5-, P5e- und P5en-Instances unterstützen Amazon FSx für Lustre-Dateisysteme, sodass Sie auf Daten mit einem Durchsatz von Hunderten von GB/s und Millionen von IOPS zugreifen können, die für umfangreiche DL- und HPC-Workloads erforderlich sind. Jede Instance unterstützt außerdem bis zu 30 TB lokalen NVMe-SSD-Speicher für den schnellen Zugriff auf große Datensätze. Mit Amazon Simple Storage Service (Amazon S3) können Sie auch praktisch unbegrenzten kostengünstigen Speicherplatz nutzen.

Kundenempfehlungen

Hier sind einige Beispiele dafür, wie Kunden und Partner ihre Geschäftsziele mit Amazon EC2 P4-Instances erreicht haben.

  • Anthropic

    Anthropic baut zuverlässige, interpretierbare und steuerbare KI-Systeme, die viele Möglichkeiten bieten werden, kommerziellen und öffentlichen Nutzen zu schaffen.

    Bei Anthropic arbeiten wir daran, zuverlässige, interpretierbare und steuerbare KI-Systeme zu entwickeln. Die großen allgemeinen KI-Systeme von heute können zwar erhebliche Vorteile haben, aber sie können auch unvorhersehbar, unzuverlässig und undurchsichtig sein. Unser Ziel ist es, bei diesen Problemen Fortschritte zu erzielen und Systeme einzusetzen, die die Menschen für nützlich halten. Unsere Organisation ist eine der wenigen auf der Welt, die grundlegende Modelle für die DL-Forschung entwickelt. Diese Modelle sind hochkomplex, und um diese hochmodernen Modelle zu entwickeln und zu trainieren, müssen wir sie effizient auf große GPU-Cluster verteilen. Wir nutzen Amazon-EC2-P4-Instances heute ausgiebig und freuen uns über die Einführung von P5-Instances. Wir erwarten, dass sie im Vergleich zu P4d-Instances erhebliche Preis-/Leistungsvorteile bieten und dass sie in dem riesigen Umfang verfügbar sein werden, der für die Entwicklung von LLMs der nächsten Generation und verwandter Produkte erforderlich ist.

    Tom Brown, Cofounder, Anthropic
  • Cohere

    Cohere, ein führender Pionier im Bereich Sprach-KI, ermöglicht es jedem Entwickler und Unternehmen, unglaubliche Produkte mit weltweit führender Technologie zur natürlichen Sprachverarbeitung (NLP) zu entwickeln und gleichzeitig die Privatsphäre und Sicherheit seiner Daten zu gewährleisten

    Cohere ist führend, wenn es darum geht, Unternehmen dabei zu unterstützen, die Möglichkeiten der Sprach-KI zu nutzen, um Informationen auf natürliche und intuitive Weise zu erforschen, zu generieren, zu suchen und darauf zu reagieren, und zwar auf mehreren Cloud-Plattformen in der Datenumgebung, die für jeden Kunden am besten geeignet ist. Von NVIDIA H100 unterstützte Amazon-EC2-P5-Instances werden es Unternehmen ermöglichen, schneller zu erstellen, zu wachsen und zu skalieren, indem sie ihre Rechenleistung mit den hochmodernen LLM- und generativen KI-Funktionen von Cohere kombinieren.

    Aidan Gomez, CEO, Cohere
  • Hugging Face

    Hugging Face hat es sich zur Aufgabe gemacht, gutes ML zu demokratisieren.

    Als die am schnellsten wachsende Open-Source-Community für ML stellen wir jetzt über 150 000 vortrainierte Modelle und 25 000 Datensätze auf unserer Plattform für NLP, Computer Vision, Biologie, Reinforcement-Learning und mehr zur Verfügung. Angesichts erheblicher Fortschritte in den Bereichen LLMs und generativer KI arbeiten wir mit AWS zusammen, um die Open-Source-Modelle von morgen zu entwickeln und einzubringen. Wir freuen uns darauf, Amazon-EC2-P5-Instances über Amazon SageMaker in großem Maßstab in UltraClusters mit EFA zu verwenden, um die Bereitstellung neuer KI-Grundmodelle für alle zu beschleunigen.

    Julien Chaumond, CTO and Cofounder, Hugging Face

Produktdetails

Instance-Größe vCPUs Instance-Arbeitsspeicher (TiB) GPU   GPU-Speicher Netzwerkbandbreite (Gbps) GPUDirect RDMA GPU-Peer-to-Peer Instance-Speicher (TB) EBS-Bandbreite (Gbit/s)
p5.48xlarge 192 2 8 H100 640 GB
HBM3
3200 Gbit/s EFA Ja 900 GB/s NVSwitch 8 x 3.84 NVMe-SSD 80
p5e.48xlarge 192 2 8 H200 1 128 GB
HBM3e
3 200 Gbit/s EFA Ja 900 GB/s NVSwitch 8 x 3.84 NVMe-SSD 80
p5en.48xlarge 192 2 8 H200 1128 GB HBM3e 3 200 Gbit/s EFA Ja 900 GB/s NVSwitch 8 x 3.84 NVMe-SSD 100

Erste Schritte mit ML-Anwendungsfällen

SageMaker ist ein komplett verwalteter Service zum Erstellen, Trainieren und Bereitstellen von ML-Modellen. Mit SageMaker HyperPod können Sie einfacher auf dutzende, hunderte oder tausende von GPUs skalieren, um ein Modell schnell in einem beliebigen Umfang zu trainieren, ohne sich Gedanken über die Einrichtung und Verwaltung von stabilen Trainingsclustern machen zu müssen.

DLAMI bietet DL-Praktikern und -Forschern die Infrastruktur und Tools, um Deep Learning in der Cloud in jedem Maß zu beschleunigen. Deep-Learning-Container sind Docker-Images, auf denen DL-Frameworks vorinstalliert sind, um die Bereitstellung benutzerdefinierter ML-Umgebungen zu optimieren, indem Sie den komplizierten Prozess der Erstellung und Optimierung Ihrer Umgebungen von Grund auf überspringen.

Wenn Sie es vorziehen, Ihre eigenen containerisierten Workloads durch Container-Orchestrierungsservices zu verwalten, können Sie P5-, P5e- und P5en-Instances mit Amazon EKS oder Amazon ECS bereitstellen.

Erste Schritte mit HPC-Anwendungsfällen

P5-, P5e- und P5en-Instances eignen sich hervorragend für die Ausführung von technischen Simulationen, computergestütztem Finanzwesen, seismischen Analysen, molekularer Modellierung, Genomik, Rendering und anderen GPU-basierten HPC-Workloads. HPC-Anwendungen benötigen häufig eine hohe Netzwerkleistung, schnelle Speicherung, viel Arbeitsspeicher, hohe Datenverarbeitungskapazitäten oder alles gleichzeitig. Alle drei Instance-Typen unterstützen EFA, mit dem HPC-Anwendungen, die das Message Passing Interface (MPI) verwenden, auf Tausende von GPUs skaliert werden können. AWS Batch und AWS ParallelCluster helfen HPC-Entwicklern, verteilte HPC-Anwendungen schnell zu erstellen und zu skalieren.

Weitere Informationen