Veröffentlicht am: Apr 13, 2023

AWS kündigt heute die allgemeine Verfügbarkeit von Inf2-Instances in Amazon Elastic Compute Cloud (Amazon EC2) an. Diese Instances liefern hohe Leistung zu den niedrigsten Kosten in Amazon EC2 für generative KI-Modelle, einschließlich großer Sprachmodelle (LLMs) und Vision-Transformatoren. Inf2-Instances werden von bis zu 12 AWS-Inferentia2-Chips unterstützt, dem neuesten von AWS entwickelten Deep-Learning-Beschleuniger (DL). Sie bieten einen bis zu viermal höheren Durchsatz und eine bis zu zehnmal geringere Latenz als Amazon-EC2-Inf1-Instances der ersten Generation.

Sie können Inf2-Instances verwenden, um beliebte Anwendungen wie Textzusammenfassung, Codegenerierung, Video- und Bildgenerierung, Spracherkennung, Personalisierung und mehr auszuführen. Inf2-Instances sind die ersten inferenzoptimierten Instances in Amazon EC2, die verteilte Inferenz im großen Maßstab einführen, die von NeuronLink, einem schnellen, nicht blockierenden Interconnect, unterstützt wird. Sie können jetzt Modelle mit Hunderten von Milliarden von Parametern für mehrere Beschleuniger auf Inf2-Instances effizient bereitstellen. Inf2-Instances bieten einen bis zu dreimal höheren Durchsatz, eine bis zu achtmal geringere Latenz und ein bis zu 40 % besseres Preis-Leistungs-Verhältnis als vergleichbare Amazon-EC2-Instances. Um Ihnen zu helfen, Ihre Nachhaltigkeitsziele zu erreichen, bieten Inf2-Instances im Vergleich zu vergleichbaren Amazon-EC2-Instances eine bis zu 50 % bessere Leistung pro Watt.

Inf2-Instances bieten bis zu 2,3 Petaflops DL-Leistung und bis zu 384 GB Gesamtbeschleunigerspeicher mit einer Bandbreite von 9,8 TB/s. AWS Neuron SDK lässt sich nativ in beliebte Machine-Learning-Frameworks wie PyTorch und TensorFlow integrieren. Sie können also weiterhin Ihre vorhandenen Frameworks und Anwendungscodes für die Bereitstellung auf Inf2 verwenden. Entwickler können mit AWS Deep Learning AMIs, AWS Deep Learning Containers oder verwalteten Services wie Amazon Elastic Container Service (Amazon ECS), Amazon Elastic Kubernetes Service (Amazon EKS) und Amazon SageMaker in Inf2-Instances einsteigen.

Inf2-Instances sind in vier Größen (inf2.xlarge, inf2.8xlarge, inf2.24xlarge, inf2.48xlarge) in den folgenden AWS-Regionen als On-Demand-Instances, Reserved Instances und Spot Instances oder als Teil eines Savings Plans erhältlich: USA Ost (Nord-Virginia) und USA Ost (Ohio). 

Weitere Informationen zu Inf2-Instances finden Sie auf der Webseite zu Amazon-EC2-Inf2-Instances und in der AWS-Neuron-Dokumentation.