Amazon-EC2-P5-Instances

GPU-basierte Instances mit Höchstleistung für Deep-Learning- und HPC-Anwendungen

Warum Amazon-EC2-P5-Instances?

P5-Instances von Amazon Elastic Compute Cloud (Amazon EC2), unterstützt von NVIDIA H100 Tensor Core-GPUs, und P5e- und P5en-Instances, unterstützt von NVIDIA H200 Tensor Core-GPUs, bieten die höchste Leistung in Amazon EC2 für Anwendungen des Deep Learnings (DL) und High Performance Computings (HPC). Sie helfen Ihnen dabei, die Zeit bis zur Lösung im Vergleich zu GPU-basierten EC2-Instances der vorherigen Generation um das 4-fache zu verkürzen und die Kosten für das Training von ML-Modellen um bis zu 40 % zu senken. Diese Instances helfen Ihnen dabei, Ihre Lösungen schneller weiterzuentwickeln und schneller auf den Markt zu bringen. Sie können P5-, P5e- und P5en-Instances für das Training und die Bereitstellung von immer komplexeren großen Sprachmodellen (LLMs) und Diffusionsmodellen verwenden, die die anspruchsvollsten Anwendungen generativer künstlicher Intelligenz (KI) unterstützen. Diese Anwendungen umfassen die Beantwortung von Fragen, Codegenerierung, Video- und Bildgenerierung sowie Spracherkennung. Sie können diese Instances auch verwenden, um anspruchsvolle HPC-Anwendungen in großem Maßstab für die pharmazeutische Forschung, seismische Analyse, Wettervorhersage und Finanzmodellierung bereitzustellen.

Um diese Leistungsverbesserungen und Kosteneinsparungen zu erzielen, ergänzen P5- und P5e-Instances NVIDIA-H100- und H200-Tensor-Core-GPUs mit zweimal höherer CPU-Leistung, zweimal höherem Systemspeicher und viermal höherem lokalen Speicher im Vergleich zu GPU-basierten Instances der vorherigen Generation. P5en-Instances kombinieren NVIDIA H200 Tensor Core-GPUs mit einer leistungsstarken Intel Sapphire Rapids-CPU und ermöglichen so Gen5-PCIe zwischen CPU und GPU. P5en-Instances bieten im Vergleich zu P5e- und P5-Instances eine bis zu viermal so große Bandbreite zwischen CPU und GPU und eine geringere Netzwerklatenz, wodurch die verteilte Trainingsleistung verbessert wird. Die Unterstützung von P5- und P5e-Instances ermöglicht mithilfe des Elastic Fabric Adapters (EFA) der zweiten Generation ein Netzwerk von bis zu 3 200 Gbit/s. P5en, mit der dritten Generation von EFA mit Nitro v5, zeigt eine Verbesserung der Latenz um bis zu 35 % im Vergleich zu P5, das die vorherige Generation von EFA und Nitro verwendet. Dies trägt dazu bei, die kollektive Kommunikationsleistung für verteilte Trainingsworkloads wie Anwendungen des Deep Learnings, generativer KI, der Echtzeitdatenverarbeitung und des High-Performance Computings (HPC) zu verbessern. Um umfangreiche Rechenleistung bei geringer Latenz bereitzustellen, werden diese Instances in Amazon EC2 UltraClustern bereitgestellt, die eine Skalierung auf bis zu 20 000 H100- oder H200-GPUs ermöglichen, verbunden mit einem blockierungsfreien Netzwerk im Petabit-Bereich. P5-, P5e- und P5en-Instances in EC2 UltraClusters können bis zu 20 Exaflops an aggregierter Datenverarbeitungsleistung bereitstellen – eine Leistung, die der eines Supercomputers entspricht.

Amazon-EC2-P5-Instances

Vorteile

Funktionen

Kundenempfehlungen

Hier sind einige Beispiele dafür, wie Kunden und Partner ihre Geschäftsziele mit Amazon EC2 P4-Instances erreicht haben.

  • Anthropic

    Anthropic baut zuverlässige, interpretierbare und steuerbare KI-Systeme, die viele Möglichkeiten bieten werden, kommerziellen und öffentlichen Nutzen zu schaffen.

    Bei Anthropic arbeiten wir daran, zuverlässige, interpretierbare und steuerbare KI-Systeme zu entwickeln. Die großen allgemeinen KI-Systeme von heute können zwar erhebliche Vorteile haben, aber sie können auch unvorhersehbar, unzuverlässig und undurchsichtig sein. Unser Ziel ist es, bei diesen Problemen Fortschritte zu erzielen und Systeme einzusetzen, die die Menschen für nützlich halten. Unsere Organisation ist eine der wenigen auf der Welt, die grundlegende Modelle für die DL-Forschung entwickelt. Diese Modelle sind hochkomplex, und um diese hochmodernen Modelle zu entwickeln und zu trainieren, müssen wir sie effizient auf große GPU-Cluster verteilen. Wir nutzen Amazon-EC2-P4-Instances heute ausgiebig und freuen uns über die Einführung von P5-Instances. Wir erwarten, dass sie im Vergleich zu P4d-Instances erhebliche Preis-/Leistungsvorteile bieten und dass sie in dem riesigen Umfang verfügbar sein werden, der für die Entwicklung von LLMs der nächsten Generation und verwandter Produkte erforderlich ist.

    Tom Brown, Cofounder, Anthropic
  • Cohere

    Cohere, ein führender Pionier im Bereich Sprach-KI, ermöglicht es jedem Entwickler und Unternehmen, unglaubliche Produkte mit weltweit führender Technologie zur natürlichen Sprachverarbeitung (NLP) zu entwickeln und gleichzeitig die Privatsphäre und Sicherheit seiner Daten zu gewährleisten

    Cohere ist führend, wenn es darum geht, Unternehmen dabei zu unterstützen, die Möglichkeiten der Sprach-KI zu nutzen, um Informationen auf natürliche und intuitive Weise zu erforschen, zu generieren, zu suchen und darauf zu reagieren, und zwar auf mehreren Cloud-Plattformen in der Datenumgebung, die für jeden Kunden am besten geeignet ist. Von NVIDIA H100 unterstützte Amazon-EC2-P5-Instances werden es Unternehmen ermöglichen, schneller zu erstellen, zu wachsen und zu skalieren, indem sie ihre Rechenleistung mit den hochmodernen LLM- und generativen KI-Funktionen von Cohere kombinieren.

    Aidan Gomez, CEO, Cohere
  • Hugging Face

    Hugging Face hat es sich zur Aufgabe gemacht, gutes ML zu demokratisieren.

    Als die am schnellsten wachsende Open-Source-Community für ML stellen wir jetzt über 150 000 vortrainierte Modelle und 25 000 Datensätze auf unserer Plattform für NLP, Computer Vision, Biologie, Reinforcement-Learning und mehr zur Verfügung. Angesichts erheblicher Fortschritte in den Bereichen LLMs und generativer KI arbeiten wir mit AWS zusammen, um die Open-Source-Modelle von morgen zu entwickeln und einzubringen. Wir freuen uns darauf, Amazon-EC2-P5-Instances über Amazon SageMaker in großem Maßstab in UltraClusters mit EFA zu verwenden, um die Bereitstellung neuer KI-Grundmodelle für alle zu beschleunigen.

    Julien Chaumond, CTO and Cofounder, Hugging Face

Produktdetails

Instance-Größe vCPUs Instance-Arbeitsspeicher (TiB) GPU   GPU-Speicher Netzwerkbandbreite (Gbps) GPUDirect RDMA GPU-Peer-to-Peer Instance-Speicher (TB) EBS-Bandbreite (Gbit/s)
p5.48xlarge 192 2 8 H100 640 GB
HBM3
3200 Gbit/s EFA Ja 900 GB/s NVSwitch 8 x 3.84 NVMe-SSD 80
p5e.48xlarge 192 2 8 H200 1 128 GB
HBM3e
3 200 Gbit/s EFA Ja 900 GB/s NVSwitch 8 x 3.84 NVMe-SSD 80
p5en.48xlarge 192 2 8 H200 1128 GB HBM3e 3 200 Gbit/s EFA Ja 900 GB/s NVSwitch 8 x 3.84 NVMe-SSD 100

Erste Schritte mit ML-Anwendungsfällen

Erste Schritte mit HPC-Anwendungsfällen

P5-, P5e- und P5en-Instances eignen sich hervorragend für die Ausführung von technischen Simulationen, computergestütztem Finanzwesen, seismischen Analysen, molekularer Modellierung, Genomik, Rendering und anderen GPU-basierten HPC-Workloads. HPC-Anwendungen benötigen häufig eine hohe Netzwerkleistung, schnelle Speicherung, viel Arbeitsspeicher, hohe Datenverarbeitungskapazitäten oder alles gleichzeitig. Alle drei Instance-Typen unterstützen EFA, mit dem HPC-Anwendungen, die das Message Passing Interface (MPI) verwenden, auf Tausende von GPUs skaliert werden können. AWS Batch und AWS ParallelCluster helfen HPC-Entwicklern, verteilte HPC-Anwendungen schnell zu erstellen und zu skalieren.

Weitere Informationen