Saltar al contenido principal

Instancias Inf2 de Amazon EC2

Alto rendimiento al menor costo en Amazon EC2 para la inferencia de IA generativa

¿Por qué usar las instancias Inf2 de Amazon EC2?

Las instancias Inf2 de Amazon Elastic Compute Cloud (Amazon EC2) están diseñadas específicamente para la inferencia de aprendizaje profundo (DL). Ofrecen un alto rendimiento al menor costo en Amazon EC2 para modelos de inteligencia artificial (IA) generativa, incluidos los modelos de lenguaje de gran tamaño (LLM) y los transformadores de visión. Puede usar instancias Inf2 a fin de ejecutar sus aplicaciones de inferencia para resumir texto, generar código, video e imágenes, hacer reconocimiento de voz, personalizar, detectar fraudes, etc.

Las instancias Inf2 usan la tecnología de AWS Inferentia2, el chip de AWS Inferentia de segunda generación. Las instancias Inf2 aumentan el rendimiento de Inf1 al ofrecer un rendimiento de computación 3 veces mayor, una memoria aceleradora total 4 veces mayor, un rendimiento hasta 4 veces mayor y una latencia hasta 10 veces menor. Las instancias Inf2 son las primeras instancias optimizadas para la inferencia en Amazon EC2 que admiten la inferencia distribuida a escala con una conectividad de altísima velocidad entre los chips de Inferentia. Ahora puede implementar modelos de manera eficiente y rentable con cientos de miles de millones de parámetros en múltiples chips en instancias Inf2.

El SDK de AWS Neuron ayuda a los desarrolladores a implementar modelos en los chips de AWS Inferentia (y a entrenarlos en los chips de AWS Trainium). Se integra de forma nativa con marcos como PyTorch y TensorFlow, para que pueda continuar usando sus flujos de trabajo existentes y ejecutarlos en instancias Inf2.

Beneficios

Las instancias Inf2 son las primeras instancias optimizadas para inferencias en Amazon EC2 que admiten la inferencia distribuida a escala. Ahora puede implementar modelos de manera eficiente con cientos de miles de millones de parámetros en varios chips de Inferentia en instancias Inf2 gracias a la conectividad de altísima velocidad entre chips.

Las instancias Inf2 están diseñadas para ofrecer un alto rendimiento al menor costo en Amazon EC2 para los despliegues de aprendizaje profundo. Ofrecen un rendimiento 4 veces mayor y una latencia hasta 10 veces menor que las instancias Inf1 de Amazon EC2. Las instancias Inf2 ofrecen hasta un 40 % más de rendimiento en precio que otras instancias de Amazon EC2 comparables.

Use el SDK de AWS Neuron para extraer todo el rendimiento de las instancias Inf2. Con Neuron, puede usar sus marcos existentes, como PyTorch y TensorFlow, y optimizar el rendimiento listo para usar para modelos de repositorios populares como Hugging Face. Neuron admite integraciones en tiempo de ejecución con herramientas de servicio como TorchServe y TensorFlow Serving. También ayuda a optimizar el rendimiento con herramientas integradas de perfil y depuración, como Neuron-Top, y se integra en herramientas de visualización populares, como TensorBoard.

Las instancias Inf2 ofrecen hasta un 50 % más de rendimiento/vatio que otras instancias de Amazon EC2 comparables. Estas instancias y los chips Inferentia2 subyacentes usan procesos de chips avanzados y optimizaciones de hardware y software para ofrecer una alta eficiencia energética al ejecutar modelos de DL a escala. El uso de instancias Inf2 le permitirá alcanzar sus objetivos de sostenibilidad cuando implemente modelos ultragrandes.

Características

Las instancias Inf2 funcionan con hasta 12 chips de AWS Inferentia2 conectados con NeuronLink de altísima velocidad para comunicaciones colectivas optimizadas. Ofrecen hasta 2,3 petaflops de computación y hasta 4 veces más rendimiento y 10 veces menos latencia que las instancias Inf1.

Para adaptarse a modelos de DL de gran tamaño, las instancias Inf2 ofrecen hasta 384 GB de memoria aceleradora compartida (32 GB de gran ancho de banda en cada chip de Inferentia2, 4 veces más grande que Inferentia de primera generación) con 9,8 TB/s de ancho de banda de memoria total (10 veces más rápido que Inferentia de primera generación).

Para una comunicación rápida entre chips Inferentia2, las instancias Inf2 admiten 192 GB/s de NeuronLink, una interconexión sin bloqueo de alta velocidad. Inf2 es la única instancia optimizada para inferencias que ofrece esta interconexión, una característica que solo está disponible en las instancias de entrenamiento más caras. En el caso de los modelos ultragrandes que no caben en un solo chip, los datos fluyen directamente entre los chips con NeuronLink, sin pasar por la CPU por completo. Con NeuronLink, Inf2 permite una inferencia distribuida más rápida y mejora el rendimiento y la latencia.

Inferentia2 admite FP32, TF32, BF16, FP16, UINT8 y el nuevo tipo de datos FP8 configurable (cFP8). AWS Neuron toma modelos FP32 y FP16 de alta precisión y los transfiere automáticamente en tipos de datos de menor precisión, a la vez que optimiza la precisión y el rendimiento. La transferencia automática reduce el tiempo de comercialización al eliminar la necesidad de volver a entrenar con menor precisión y permitir una inferencia de mayor rendimiento con tipos de datos más pequeños.

Para respaldar el rápido ritmo de innovación de DL, las instancias Inf2 cuentan con varias innovaciones que las hacen flexibles y ampliables para implementar modelos de DL en constante evolución. Las instancias Inf2 tienen optimizaciones de hardware y soporte de software para formas de entrada dinámicas. Para permitir la compatibilidad con nuevos operadores en el futuro, admiten operadores personalizados escritos en C++. También admiten el redondeo estocástico, un método de redondeo probabilístico que permite un alto rendimiento y una mayor precisión en comparación con los modos de redondeo heredados. 

Detalles del producto

Instance Size
Inferentia2 Chips
Accelerator Memory (GB)
vCPU
Memory (GiB)
Local Storage
Inter-Chip Interconnect
Network Bandwidth (Gbps)
EBS Bandwidth (Gbps)
On-Demand Price
1-Year Reserved Instance
3-Year Reserved Instance
inf2.xlarge
1
32
4
16
Solo EBS
N/D
Hasta 15
Hasta 10
0,76 USD
0,45 USD
0,30 USD
inf2.8xlarge
1
32
32
128
Solo EBS
N/D
Hasta 25
10
1,97 USD
1,81 USD
0,79 USD
inf2.24xlarge
6
192
96
384
Solo EBS
50
30
6,49 USD
3,89 USD
2,60 USD
inf2.48xlarge
12
384
192
768
Solo EBS
100
60
12,98 USD
7,79 USD
5,19 USD

Testimonios de clientes y socios

Estos son algunos ejemplos de cómo los clientes y socios lograron sus objetivos empresariales con las instancias Inf2 de Amazon EC2.

Leonardo.ai

«Nuestro equipo de Leonardo aprovecha la IA generativa para permitir a los profesionales y entusiastas de la creatividad producir recursos visuales con una calidad, velocidad y consistencia de estilo incomparables. El rendimiento en relación con el precio de AWS Inf2 nos permite reducir nuestros costos en un 80 %, sin sacrificar el rendimiento, cambiando fundamentalmente la propuesta de valor que podemos ofrecer a los clientes, habilitando nuestras características más avanzadas a un punto de precio más accesible. También alivia las preocupaciones sobre el costo y la disponibilidad de capacidad para nuestros servicios auxiliares de IA, que son cada vez más importantes a medida que crecemos y escalamos. Es una tecnología clave para nosotros a medida que continuamos ampliando los límites de lo que es posible con la IA generativa, lo que permite una nueva era de creatividad y poder expresivo para nuestros usuarios. «

Pete Werner, Head of AI en Leonardo.ai

Logo of Leonardo.Ai featuring a stylized portrait within a circle and the text 'Leonardo.Ai' in modern typography.

Pasarela

«En Runway, nuestro conjunto de herramientas mágicas de IA permite a nuestros usuarios generar y editar contenido como nunca antes. Estamos ampliando constantemente los límites de lo que es posible con la creación de contenido con IA y, a medida que nuestros modelos de IA se vuelven más complejos, los costos de infraestructura subyacente para ejecutar estos modelos a gran escala pueden llegar a ser caros. Gracias a nuestra colaboración con las instancias Inf2 de Amazon EC2 impulsadas por AWS Inferentia, podemos ejecutar algunos de nuestros modelos con un rendimiento hasta 2 veces mayor que las instancias comparables basadas en GPU. Esta inferencia de alto rendimiento y bajo coste nos permite introducir más funciones, implementar modelos más complejos y, en última instancia, ofrecer una mejor experiencia a los millones de creadores que utilizan Runway. «

Cristóbal Valenzuela, cofundador y director ejecutivo de Runway

 

Missing alt text value

Qualtrics

Qualtrics diseña y desarrolla software de administración de experiencias.

«En Qualtrics, nos centramos en crear tecnología que cierre las brechas de experiencia para los clientes, los empleados, las marcas y los productos. Para lograrlo, desarrollamos complejos modelos de aprendizaje profundo multitarea y multimodal para lanzar nuevas características, como la clasificación de textos, etiquetado de secuencias, análisis del discurso, extracción de frases clave, extracción de temas, agrupación y comprensión de conversaciones de principio a fin. A medida que usamos estos modelos más complejos en más aplicaciones, el volumen de datos no estructurados crece y necesitamos soluciones optimizadas para la inferencia que puedan satisfacer estas demandas, como las instancias Inf2, para ofrecer las mejores experiencias a nuestros clientes. Estamos entusiasmados con las nuevas instancias Inf2 porque no solo nos permitirán lograr un mayor rendimiento y, al mismo tiempo, reducir drásticamente la latencia, sino que también introducirán funciones como la inferencia distribuida y la compatibilidad mejorada con formas de entrada dinámicas, que nos ayudarán a escalar para satisfacer las necesidades de implementación a medida que avanzamos hacia modelos grandes más grandes y complejos. «

Aaron Colak, Head of Core Machine Learning en Qualtrics

Qualtrics XM company logo with 'qualtrics.' in black and 'XM' in a gradient blue-green font.

Finch Computing

Finch Computing es una empresa de tecnología de lenguaje natural que proporciona aplicaciones de inteligencia artificial para clientes gubernamentales, de servicios financieros y de integración de datos.

«Para satisfacer las necesidades de nuestros clientes en cuanto al procesamiento del lenguaje natural en tiempo real, desarrollamos modelos de DL de última generación que se adaptan a grandes cargas de trabajo de producción. Tenemos que proporcionar transacciones de baja latencia y lograr altos rendimientos para procesar orígenes de datos globales. Hasta ahora, migramos muchas cargas de trabajo de producción a instancias Inf1 y logramos una reducción del 80 % en el costo con respecto a las GPU. Hoy en día, estamos desarrollando modelos más grandes y complejos que permitan obtener un significado más profundo del texto escrito. Muchos de nuestros clientes necesitan acceder a esta información en tiempo real y el rendimiento de las instancias Inf2 nos ayudará a ofrecer una latencia más baja y un mayor rendimiento en comparación con las instancias Inf1. Con las mejoras de rendimiento de Inf2 y las nuevas funciones de Inf2, como la compatibilidad con tamaños de entrada dinámicos, estamos mejorando nuestra rentabilidad, mejorando la experiencia del cliente en tiempo real y ayudando a nuestros clientes a obtener nuevos conocimientos de sus datos. «

Franz Weckesser, Chief Architect en Finch Computing

Missing alt text value

Money Forward Inc.

Money Forward Inc. brinda servicios a empresas y particulares con una plataforma financiera abierta y justa. Como parte de esta plataforma, HiTTO Inc., una empresa del grupo Money Forward, ofrece un servicio de chatbot con IA, que usa modelos de procesamiento de lenguaje natural (NLP) personalizados para abordar las diversas necesidades de sus clientes corporativos.

«Lanzamos un servicio de chatbot de IA a gran escala en las instancias Inf1 de Amazon EC2 y redujimos nuestra latencia de inferencia en un 97% en comparación con las instancias comparables basadas en GPU, al tiempo que redujimos los costos. Estamos muy satisfechos de ver nuevas mejoras de rendimiento en los resultados de nuestras pruebas iniciales en las instancias Inf2 de Amazon EC2. Con el mismo modelo de NLP personalizado, AWS Inf2 pudo reducir aún más la latencia 10 veces más que Inf1. A medida que avanzamos hacia modelos de parámetros multimillonarios más grandes, Inf2 nos da la confianza de que podemos seguir brindando a nuestros clientes una experiencia de usuario superior de principio a fin. «

Takuya Nakade, director de tecnología de Money Forward Inc.

 

Missing alt text value

Lectura de archivos

«En Fileread.ai, estamos creando soluciones para que interactuar con sus documentos sea tan fácil como hacerles preguntas, lo que permite a los usuarios encontrar lo que buscan en todos sus documentos y obtener la información correcta con mayor rapidez. Desde que cambiamos a la nueva instancia Inf2 de EC2, hemos observado una mejora significativa en nuestras capacidades de inferencia de NLP. El ahorro de costos por sí solo ha supuesto un punto de inflexión para nosotros, ya que nos ha permitido asignar los recursos de manera más eficiente sin sacrificar la calidad. Redujimos la latencia de las inferencias en un 33 % y, al mismo tiempo, aumentamos el rendimiento en un 50 %, lo que permitió a nuestros clientes ofrecer plazos de entrega más rápidos. Nuestro equipo ha quedado impresionado por la velocidad y el rendimiento de Inf2 en comparación con las instancias G5 anteriores, y está claro que este es el futuro de la implementación de modelos de PNL».

Daniel Hu, director ejecutivo de Fileread

Missing alt text value

Yaraku

«En Yaraku, nuestra misión es construir la infraestructura que ayude a las personas a comunicarse a través de las barreras lingüísticas. Nuestro producto estrella, YarakuZen, permite a cualquier persona, desde traductores profesionales hasta personas monolingües, traducir y poseditar textos y documentos con confianza. Para respaldar este proceso, ofrecemos una amplia gama de herramientas sofisticadas basadas en modelos de aprendizaje profundo, que abarcan tareas como traducción, alineación de palabras bitexto, segmentación de oraciones, modelado del lenguaje y muchas otras. Al usar las instancias Inf1, hemos podido acelerar nuestros servicios para satisfacer la creciente demanda y, al mismo tiempo, reducir el costo de inferencia en más de un 50 % en comparación con las instancias basadas en GPU. Ahora estamos avanzando en el desarrollo de modelos más grandes de próxima generación que requerirán las capacidades mejoradas de las instancias Inf2 para satisfacer la demanda y, al mismo tiempo, mantener una latencia baja. Con Inf2, podremos ampliar nuestros modelos 10 veces y, al mismo tiempo, mantener un rendimiento similar, lo que nos permitirá ofrecer niveles de calidad aún más altos a nuestros clientes. «

Giovanni Giacomo, NLP Lead en Yaraku

Missing alt text value

Hugging Face

«La misión de Hugging Face es democratizar el buen aprendizaje automático para ayudar a los desarrolladores de aprendizaje automático de todo el mundo a resolver problemas del mundo real. Y la clave para ello es garantizar que los mejores y más recientes modelos se ejecuten de la manera más rápida y eficiente posible en los mejores chips de ML de la nube. Estamos muy entusiasmados con la posibilidad de que Inferentia2 se convierta en la nueva forma estándar de implementar modelos de IA generativa a escala. Con Inf1, obtuvimos un costo hasta un 70 % menor al de las instancias tradicionales basadas en GPU, y con Inf2 hemos visto una latencia hasta 8 veces menor en los transformadores tipo BERT en comparación con Inferentia1. Con Inferentia2, nuestra comunidad podrá escalar fácilmente este rendimiento a los LLM con una escala de parámetros de más de 100 000 millones, y también a los últimos modelos de visión artificial y difusión. «

Hugging Face logo featuring a smiling face emoji with open hands and the text 'Hugging Face' next to it.

PyTorch

«PyTorch acelera el camino desde la creación de prototipos de investigación hasta las implementaciones de producción para los desarrolladores de ML. Hemos colaborado con el equipo de AWS para proporcionar soporte nativo con PyTorch para las nuevas instancias Inf2 de Amazon EC2 con tecnología de AWS Inferentia2. Dado que más miembros de nuestra comunidad buscan implementar grandes modelos de IA generativa, nos complace asociarnos con el equipo de AWS para optimizar la inferencia distribuida en las instancias de Inf2 con la conectividad de NeuronLink de alta velocidad entre chips. Con Inf2, los desarrolladores que usan PyTorch ahora pueden implementar fácilmente modelos de transformadores de visión y LLM ultragrandes. Además, las instancias Inf2 brindan otras capacidades innovadoras a los desarrolladores de PyTorch, que incluyen tipos de datos eficientes, formas dinámicas, operadores personalizados y redondeo estocástico optimizado para el hardware, lo que las hace ideales para que la comunidad de PyTorch las adopte ampliamente. «

The PyTorch logo featuring a black wordmark and an orange flame icon.

Nextira

«El desafío histórico de las LLM y, en términos más generales, de las aplicaciones de IA generativa a nivel empresarial, son los costos asociados con la capacitación y la ejecución de modelos de aprendizaje automático de alto rendimiento. Junto con AWS Trainium, AWS Inferentia2 elimina los compromisos financieros a los que se enfrentan nuestros clientes cuando necesitan un entreno de alto rendimiento. Ahora, nuestros clientes que buscan ventajas en el entreno y la inferencia pueden lograr mejores resultados por menos dinero. Trainium e Inferentia aceleran la escalabilidad para cumplir incluso los requisitos de aprendizaje continuo más exigentes de las empresas más grandes de la actualidad. Muchos clientes de Nextira que ejecutan grandes cargas de trabajo de IA se beneficiarán directamente con estos nuevos conjuntos de chips, lo que aumentará la eficiencia en el ahorro de costos y el rendimiento y generará resultados más rápidos en su mercado. «

Jason Cutrer, fundador y CEO de Nextira

Logo for AWS Elastic Inference, featuring the service name with a green accent mark on a dark background.

Amazon CodeWhisperer

Amazon CodeWhisperer es un complemento de codificación de IA que genera recomendaciones de código de una sola línea o de funciones completas en tiempo real en su entorno de desarrollo integrado (IDE) para que pueda crear software rápidamente.

«Con CodeWhisperer, mejoramos la productividad de los desarrolladores de software al ofrecer recomendaciones de código mediante modelos de IA generativos. Para desarrollar recomendaciones de código altamente eficaces, escalamos nuestra red de DL a miles de millones de parámetros. Nuestros clientes necesitan recomendaciones de código en tiempo real mientras escriben, por lo que las respuestas de baja latencia son fundamentales. Los modelos de IA generativa de gran tamaño requieren una computación de alto rendimiento para ofrecer tiempos de respuesta en una fracción de segundo. Con Inf2, conseguimos la misma latencia que al ejecutar CodeWhisperer en instancias de GPU optimizadas para el entrenamiento de grandes secuencias de entrada y salida. Por lo tanto, las instancias Inf2 nos ayudan a ahorrar costos y energía, a la vez que brindan la mejor experiencia posible a los desarrolladores. «

Doug Seven, director general de Amazon CodeWhisperer

Amazon logo featuring the brand name in black text with a yellow smile-shaped arrow underneath.

Búsqueda en Amazon

El motor de búsqueda de productos de Amazon indexa miles de millones de productos, resuelve una infinidad de consultas de clientes diarias y es uno de los servicios más usados a nivel mundial.

«Estoy muy entusiasmado con el lanzamiento de Inf2 GA. El rendimiento superior de Inf2, junto con su capacidad para gestionar modelos más grandes con miles de millones de parámetros, hace que sea la elección perfecta para nuestros servicios y nos permite abrir nuevas posibilidades en términos de complejidad y precisión de los modelos. Con la importante aceleración y la rentabilidad que ofrece Inf2, su integración en la infraestructura de servicios de Amazon Search puede ayudarnos a satisfacer las crecientes demandas de nuestros clientes. Planeamos impulsar nuestras nuevas experiencias de compra mediante LLM generativos utilizando Inf2. «

Trishul Chilimbi, vicepresidente en Amazon Search

Amazon logo featuring the brand name in black text with a yellow smile-shaped arrow underneath.

Introducción

Use Amazon SageMaker para implementar modelos en instancias Inf2 con mayor facilidad, reducir significativamente los costos de implementación de modelos de ML y aumentar el rendimiento sin necesidad de administrar la infraestructura. SageMaker es un servicio completamente administrado que se integra con las herramientas de MLOps. Por lo tanto, puede escalar la implementación de sus modelos, administrar los modelos de forma más eficaz en producción y reducir la carga operativa.

Con las AMI de aprendizaje profundo de AWS (DLAMI), los investigadores y profesionales de DL acceden a la infraestructura y las herramientas necesarias para agilizar las tareas de DL en la nube, a cualquier escala. Los controladores AWS Neuron vienen preconfigurados en la DLAMI para implementar sus modelos de DL de manera óptima en las instancias de Inf2.

Ahora puede implementar instancias Inf2 en Amazon Elastic Kubernetes Service (Amazon EKS), un servicio de Kubernetes completamente administrado, así como en Amazon Elastic Container Service (Amazon ECS), un servicio de orquestación de contenedores completamente administrado de Amazon. Neuron también está disponible de manera preinstalada en los contenedores de aprendizaje profundo de AWS. Para obtener más información sobre cómo ejecutar contenedores en instancias Inf2, consulte los tutoriales sobre contenedores de Neuron.