Amazon SageMaker AI kündigt die Verfügbarkeit der Instance-Typen P5e und G6e für Inferenzen an

Veröffentlicht am: 11. Dez. 2024

Mit Freude geben wir die allgemeine Verfügbarkeit von Inferenz optimierten G6e-Instances (unterstützt von NVIDIA L40S Tensor Core-GPUs) und P5e (unterstützt von NVIDIA H200 Tensor Core-GPUs) auf Amazon SageMaker bekannt.

Mit 1128 GB GPU-Speicher mit hoher Bandbreite auf 8 NVIDIA H200-GPUs, 30 TB lokalem NVMe-SSD-Speicher, 192 vCPUs und 2 TiB Systemspeicher bieten ml.p5e.48xlarge Instances eine herausragende Leistung für rechenintensive KI-Inferenz-Workloads wie z. B. große Sprachmodelle mit über 100 Mrd. Parametern, multimodale Basismodelle, synthetische Datenerzeugung und komplexe generative KI-Anwendungen wie Frage-Antwort-System, Codegenerierung, Video, und Bildgenerierung.

Angetrieben von 8 NVIDIA L40s Tensor Core-GPUs mit 48 GB Speicher pro GPU und AMD EPYC-Prozessoren der dritten Generation bieten ml.g6e-Instances eine bis zu 2,5-fach höhere Leistung als ml.g5-Instances. Kunden können g6e-Instances verwenden, um KI-Inferenz für große Sprachmodelle (LLMs) mit bis zu 13 Mrd. Parametern und Diffusionsmodellen für die Generierung von Bildern, Video und Audio bereitzustellen.

Die Instance-Typen ml.p5e und ml.g6e sind jetzt in den Regionen USA Ost (Ohio) und USA West (Oregon) für die Verwendung auf SageMaker verfügbar. Fordern Sie für den Einstieg einfach eine Limiterhöhung über AWS Service Quotas an. Preisinformationen zu diesen Instances finden Sie auf unserer Preisseite. Weitere Informationen zur Bereitstellung von Modellen mit SageMaker finden Sie in der Übersicht hier und in der Dokumentation hier. Weitere Informationen zu den Instances im Allgemeinen sind auf den Produktseiten von P5e und G6e zu finden.