Publicado en: May 8, 2024

A partir de hoy, las instancias Inf2 de Amazon Elastic Compute Cloud (Amazon EC2) estarán disponibles de forma general en las regiones de Asia-Pacífico (Sídney), Europa (Londres), Europa (París), Europa (Estocolmo) y América del Sur (São Paulo). Estas instancias ofrecen un alto rendimiento al menor costo en Amazon EC2 para los modelos de IA generativa. 

Puede utilizar las instancias de Inf2 para ejecutar aplicaciones conocidas, como el resumen de texto, la generación de código, la generación de video e imágenes, el reconocimiento de voz, la personalización, etc. Las instancias Inf2 son las primeras instancias optimizadas para inferencias de Amazon EC2 que introducen una inferencia distribuida escalable compatible con NeuronLink, una interconexión de alta velocidad y sin bloqueo. Las instancias Inf2 ofrecen hasta 2,3 petaflops y hasta 384 GB de memoria total del acelerador con un ancho de banda de 9,8 TB/s. 

El SDK de AWS Neuron se integra de forma nativa con los marcos de machine learning más conocidos, por lo que puede seguir utilizando los marcos existentes para implementarlos en Inf2. Los desarrolladores pueden empezar a utilizar las instancias Inf2 mediante las AMI de deep learning de AWS, los contenedores de deep learning de AWS o servicios administrados como Amazon Elastic Container Service (Amazon ECS), Amazon Elastic Kubernetes Service (Amazon EKS) y Amazon SageMaker.

Las instancias Inf2 ahora están disponibles en cuatro tamaños: inf2.xlarge, inf2.8xlarge, inf2.24xlarge e inf2.48xlarge en 13 regiones de AWS como instancias bajo demanda, instancias reservadas e instancias de spot, o como parte de un plan de ahorro.

Para obtener más información sobre las instancias Inf2, consulte la página web de instancias Inf2 de Amazon EC2 y la documentación de AWS Neuron.