Veröffentlicht am: May 8, 2024

Ab heute sind die Inf2-Instances von Amazon Elastic Compute Cloud (Amazon EC2) allgemein in den Regionen Asien-Pazifik (Sydney), Europa (London), Europa (Paris), Europa (Stockholm), Südamerika (São Paulo) verfügbar. Diese Instances bieten hohe Leistung zu den niedrigsten Kosten in Amazon EC2 für generative KI-Modelle. 

Sie können Inf2-Instances verwenden, um beliebte Anwendungen wie Textzusammenfassung, Codegenerierung, Video- und Bildgenerierung, Spracherkennung, Personalisierung und mehr auszuführen. Inf2-Instances sind die ersten inferenzoptimierten Instances in Amazon EC2, die verteilte Inferenz im großen Maßstab einführen, die von NeuronLink, einem schnellen, nicht blockierenden Interconnect, unterstützt wird. Inf2-Instances bieten bis zu 2,3 Petaflops und bis zu 384 GB Gesamtbeschleunigerspeicher mit einer Bandbreite von 9,8 TB/s. 

Das AWS Neuron SDK lässt sich nativ in beliebte Frameworks für Machine Learning integrieren, sodass Sie Ihre vorhandenen Frameworks weiterhin für die Bereitstellung in Inf2 verwenden können. Entwickler können mit AWS Deep Learning AMIs, AWS Deep Learning Containers oder verwalteten Services wie Amazon Elastic Container Service (Amazon ECS), Amazon Elastic Kubernetes Service (Amazon EKS) und Amazon SageMaker in Inf2-Instances einsteigen.

Inf2-Instances sind jetzt in vier Größen (inf2.xlarge, inf2.8xlarge, inf2.24xlarge, inf2.48xlarge) in 13 AWS-Regionen als On-Demand-Instances, Reserved Instances und Spot Instances oder als Teil eines Savings Plans erhältlich.

Weitere Informationen zu Inf2-Instances finden Sie auf der Webseite zu Inf2-Instances von Amazon EC2 und in der AWS-Neuron-Dokumentation.