Veröffentlicht am: Dec 13, 2023
Ab heute sind die Amazon Elastic Compute Cloud (Amazon EC2) Inf2-Instances allgemein in den Regionen Asien-Pazifik (Mumbai), Asien-Pazifik (Singapur), Asien-Pazifik (Tokio), Europa (Irland) und Europa (Frankfurt) verfügbar. Diese Instances bieten hohe Leistung zu den niedrigsten Kosten in Amazon EC2 für generative KI-Modelle.
Sie können Inf2-Instances verwenden, um beliebte Anwendungen wie Textzusammenfassung, Codegenerierung, Video- und Bildgenerierung, Spracherkennung, Personalisierung und mehr auszuführen. Inf2-Instances sind die ersten inferenzoptimierten Instances in Amazon EC2, die verteilte Inferenz im großen Maßstab einführen, die von NeuronLink, einem schnellen, nicht blockierenden Interconnect, unterstützt wird. Inf2-Instances bieten bis zu 2,3 Petaflops und bis zu 384 GB Gesamtbeschleunigerspeicher mit einer Bandbreite von 9,8 TB/s. Inf2-Instances bieten eine bis zu 40 % bessere Preisleistung als andere vergleichbare Amazon-EC2-Instances.
Das AWS Neuron SDK lässt sich nativ in beliebte Frameworks für Machine Learning integrieren, sodass Sie Ihre vorhandenen Frameworks weiterhin für die Bereitstellung in Inf2 verwenden können. Entwickler können mit AWS Deep Learning AMIs, AWS Deep Learning Containers oder verwalteten Services wie Amazon Elastic Container Service (Amazon ECS), Amazon Elastic Kubernetes Service (Amazon EKS) und Amazon SageMaker in Inf2-Instances einsteigen.
Inf2-Instances sind jetzt in vier Größen (inf2.xlarge, inf2.8xlarge, inf2.24xlarge, inf2.48xlarge) in den folgenden AWS-Regionen als On-Demand-Instances, Reserved Instances und Spot Instances oder als Teil eines Savings Plans erhältlich.
Weitere Informationen zu Inf2-Instances finden Sie auf der Webseite zu Inf2-Instances von Amazon EC2 und in der AWS-Neuron-Dokumentation.