Publicado en: Apr 13, 2023

Hoy. AWS anuncia la disponibilidad general de las instancias Inf2 de Amazon Elastic Compute Cloud (Amazon EC2). Estas instancias ofrecen un alto rendimiento al menor costo en Amazon EC2 para los modelos de IA generativa, incluidos los modelos de lenguaje amplio (LLM) y los transformadores de visión. Las instancias Inf2 funcionan con hasta 12 chips AWS Inferentia2, el acelerador de aprendizaje profundo (DL) más reciente diseñado por AWS. Ofrecen un rendimiento hasta cuatro veces mayor y una latencia hasta 10 veces menor que las instancias Amazon EC2 Inf1 de primera generación.

Puede utilizar las instancias de Inf2 para ejecutar aplicaciones populares, como el resumen de texto, la generación de código, la generación de vídeo e imágenes, el reconocimiento de voz, la personalización, etc. Las instancias Inf2 son las primeras instancias optimizadas para inferencias de Amazon EC2 que introducen una inferencia distribuida escalable compatible con NeuronLink, una interconexión de alta velocidad y sin bloqueo. Ahora puede implementar modelos de manera eficiente con cientos de miles de millones de parámetros en múltiples aceleradores en instancias Inf2. Las instancias Inf2 ofrecen un rendimiento hasta tres veces mayor, una latencia hasta ocho veces menor y un precio hasta un 40% mejor que otras instancias de Amazon EC2 comparables. Para ayudarlo a cumplir sus objetivos de sostenibilidad, las instancias Inf2 ofrecen hasta un 50% más de rendimiento por vatio frente a otras instancias de Amazon EC2 comparables.

Las instancias Inf2 ofrecen hasta 2,3 petaflops de rendimiento de DL y hasta 384 GB de memoria aceleradora total con un ancho de banda de 9,8 TB/s. El SDK de AWS Neuron se integra de forma nativa con marcos de trabajo de machine learning populares como PyTorch y TensorFlow. Por lo tanto, puede seguir utilizando sus marcos y el código de aplicación existentes para implementarlos en Inf2. Los desarrolladores pueden empezar a utilizar las instancias Inf2 mediante las AMI de aprendizaje profundo de AWS, los contenedores de aprendizaje profundo de AWS o servicios administrados como Amazon Elastic Container Service (Amazon ECS), Amazon Elastic Kubernetes Service (Amazon EKS) y Amazon SageMaker.

Las instancias Inf2 están disponibles en cuatro tamaños: inf2.xlarge, inf2.8xlarge, inf2.24xlarge e inf2.48xlarge en las siguientes regiones de AWS como instancias bajo demanda, instancias reservadas e instancias de spot, o como parte de Savings Plan: Este de EE. UU. (norte de Virginia) y Este de EE. UU. (Ohio). 

Para obtener más información sobre las instancias Inf2, consulte la página web de instancias Inf2 de Amazon EC2 y la documentación de AWS Neuron.