Veröffentlicht am: Nov 29, 2022
AWS hat heute die Vorversion von Amazon Elastic Compute Cloud (Amazon EC2)-Inf2-Instances bekannt gegeben, die für die anspruchsvollsten Deep Learning (DL)-Inferenzanwendungen eine hohe Leistung zu den niedrigsten Kosten in Amazon EC2 bieten. Inf2-Instances werden von bis zu 12 AWS Inferentia2 betrieben, dem dritten von AWS entwickelten DL-Beschleuniger. Inf2-Instanzen bieten im Vergleich zu Inf1-Instanzen eine dreimal höhere Rechenleistung, einen bis zu viermal höheren Durchsatz und eine bis zu zehnmal geringere Latenz.
Sie können Inf2-Instanzen verwenden, um DL-Anwendungen für natürliches Sprachverständnis, Übersetzung, Video- und Bilderzeugung, Spracherkennung, Personalisierung und mehr auszuführen. Sie sind optimiert, um komplexe Modelle, wie große Sprachmodelle (LLM) und Vision-Transformatoren, in großem Umfang einzusetzen und gleichzeitig das Preis-Leistungs-Verhältnis der Inf1-Instanzen für kleinere Modelle zu verbessern. Inf2-Instances sind die ersten Inferenz-optimierten Instances in Amazon EC2, die eine heraufskalierte verteilte Inferenz mit Ultra-High-Speed-Konnektivität zwischen den Beschleunigern unterstützen, um ultragroße Modelle mit über 100 Milliarden Parametern zu unterstützen.
Inf2-Instances bieten eine DL-Leistung von bis zu 2,3 Petaflops, bis zu 384 GB Beschleunigungsspeicher mit 9,8 TB/s Bandbreite und NeuronLink, ein Instance-internes, nichtblockierendes Interconnect mit ultrahoher Geschwindigkeit. Inf2-Instances bieten außerdem eine bis zu 50 % bessere Leistung pro Watt im Vergleich zu GPU-basierten Instances in Amazon EC2 und helfen Ihnen, Ihre Nachhaltigkeitsziele zu erreichen. Das AWS Neuron SDK ist nativ in gängige ML-Frameworks wie PyTorch und TensorFlow integriert, sodass Sie Ihre DL-Anwendungen mit wenigen Zeilen Code auf Inf2 bereitstellen können.
Um mehr zu erfahren und sich für eine Vorversion der Inf2-Instances anzumelden, besuchen Sie die Inf2-Produktdetailseite.