Instancias Inf2 de Amazon EC2

Alto rendimiento al menor costo en Amazon EC2 para las cargas de trabajo de inferencia más exigentes

Las instancias Inf2 de Amazon Elastic Compute Cloud (Amazon EC2) están diseñadas específicamente para la inferencia de aprendizaje profundo (DL). Están diseñadas para ofrecer un alto rendimiento al menor costo en Amazon EC2 para las aplicaciones de inferencia de aprendizaje profundo más exigentes. Puede usar instancias Inf2 para ejecutar sus aplicaciones de inferencia para el procesamiento o comprensión del lenguaje natural, traducción de idiomas, generación de videos e imágenes, reconocimiento de voz, personalización, detección de fraudes y mucho más.

Las instancias de Inf2 funcionan con AWS Inferentia2, el acelerador de AWS Inferentia de segunda generación. Las instancias Inf2 ofrecen un rendimiento de cómputo 3 veces mayor, una memoria aceleradora 4 veces mayor, un rendimiento hasta 4 veces mayor y una latencia hasta 10 veces menor en comparación con las instancias Inf1. Las instancias Inf2 están optimizadas para implementar modelos cada vez más complejos, como los modelos de lenguaje de gran tamaño (LLM) y los transformadores de visión, a escala. Las instancias Inf2 son las primeras instancias optimizadas para la inferencia en Amazon EC2 que admiten la inferencia distribuida a escala con una conectividad de altísima velocidad entre los aceleradores. Ahora se puede implementar eficazmente un modelo de parámetros de 175B para la inferencia en varios aceleradores en una sola instancia Inf2. Las instancias Inf2 también ofrecen un mejor rendimiento de precio que las Inf1 para modelos más pequeños.

AWS Neuron es un SDK que ayuda a los desarrolladores a entrenar modelos en AWS Trainium e implementar modelos en los aceleradores de AWS Inferentia. Se integra de forma nativa con marcos, como PyTorch y TensorFlow, para que pueda continuar utilizando sus flujos de trabajo existentes y ejecutarlos en instancias Inf2 con solo unas pocas líneas de código.

Beneficios

Implemente más de 100B modelos de parámetros a escala


Las instancias Inf2 son las primeras instancias optimizadas para la inferencia en Amazon EC2 que admiten la inferencia distribuida a escala y brindan una conectividad de altísima velocidad entre los aceleradores. Ahora se puede implementar eficazmente un modelo de parámetros de 175B para la inferencia en varios aceleradores en una sola instancia Inf2.

Aumente el rendimiento mientras reduce significativamente los costos de inferencia

Las instancias Inf2 están diseñadas para ofrecer un alto rendimiento al menor costo en Amazon EC2 para los despliegues de aprendizaje profundo. Ofrecen un rendimiento 4 veces mayor y una latencia hasta 10 veces menor que las instancias Inf1 de Amazon EC2.

Disfrute la compatibilidad nativa con marcos y bibliotecas de ML


El SDK de AWS Neuron le facilita extraer todo el rendimiento de las instancias de Inf2 con solo unas pocas líneas de código. Al usar Neuron SDK, puede ejecutar sus aplicaciones en instancias de Inf2 y continuar usando sus flujos de trabajo existentes en PyTorch y TensorFlow.

Cumpla sus objetivos de sostenibilidad con una solución energéticamente eficiente

Las instancias de Inf2 ofrecen hasta un 50 % más de rendimiento por vatio en comparación con las instancias basadas en GPU en Amazon EC2, ya que tanto ellas como los aceleradores subyacentes de Inferentia2 están diseñados para ejecutar modelos de aprendizaje profundo a escala. Con las instancias de Inf2 podrá alcanzar sus objetivos de sostenibilidad cuando implemente modelos ultragrandes.

Características

Hasta 2,3 petaflops con AWS Inferentia2

Las instancias de Inf2 funcionan con hasta 12 aceleradores de AWS Inferentia2 conectados con NeuronLink de ultra alta velocidad para comunicaciones colectivas optimizadas. Ofrecen hasta 2,3 petaflops de cómputo y hasta 4 veces más rendimiento y 10 veces menos latencia que las instancias Inf1.

Hasta 384 GB de memoria aceleradora de gran ancho de banda

Para acomodar modelos de aprendizaje profundo grandes, las instancias Inf2 ofrecen hasta 384 GB de memoria aceleradora compartida (32 GB HBM2e en cada acelerador Inferentia2) con 9,8 TB/s de ancho de banda de memoria total.

Para una comunicación rápida entre aceleradores, las instancias Inf2 son compatibles con NeuronLink, una interconexión sin bloqueo de ultra alta velocidad dentro de la instancia.

Compatibilidad para 6 tipos de datos con conversión automática

Las instancias Inf2 tienen soporte de pila completa para FP32, TF32, BF16, FP16, UINT8 y el nuevo tipo de datos configurables FP8 (cFP8). AWS Neuron toma modelos FP32 de alta precisión y los convierte de forma automática en tipos de datos de menor precisión, mientras que optimiza la precisión y el rendimiento. La conversión automática reduce el tiempo de comercialización eliminando la necesidad de un reentrenamiento de menor precisión.

Optimizaciones de aprendizaje profundo de última generación

Las instancias Inf2 tienen optimizaciones de equipo y compatibilidad de software para tamaños de entrada dinámicos y operadores personalizados escritos en C++. También admiten el redondeo estocástico, un método de redondeo probabilístico que permite un alto rendimiento y una mayor precisión en comparación con los modos de redondeo heredados.

Detalles del producto

Tamaño de la instancia Aceleradores Inferentia2 Acelerador
Memoria
(GB)
CPU virtual Memoria
(GiB)
Local
Almacenamiento
Interacelerador
interconectar
Red
Ancho de banda
(Gbps)
EBS
Ancho de banda
(Gbps)
inf2.xlarge 1 32 4 16 Solo EBS NA Hasta 15 Hasta 6,6
inf2.8xlarge 1 32 32 128 Solo EBS NA Hasta 25 6,6
inf2.24xlarge 6 192 96 384 Solo EBS 50 20
inf2.48xlarge 12 384 192 768 Solo EBS 100 40

Testimonios de los clientes

Qualtrics

Qualtrics diseña y desarrolla software de administración de experiencias.

“En Qualtrics, nuestro objetivo es crear tecnología que elimine las deficiencias en la experiencia de los clientes, empleados, marcas y productos. Para lograrlo, desarrollamos complejos modelos de aprendizaje profundo multitarea y multimodal para lanzar nuevas funciones, como la clasificación de textos, etiquetado de secuencias, análisis del discurso, extracción de frases clave, extracción de temas, agrupación y comprensión de conversaciones de principio a fin. A medida que utilizamos estos modelos más complejos en más aplicaciones, el volumen de datos no estructurados crece, y necesitamos soluciones optimizadas para la inferencia que puedan satisfacer estas demandas, como las instancias Inf2, para ofrecer las mejores experiencias a nuestros clientes. Nos entusiasma la llegada de las nuevas instancias de Inf2, porque no solo nos permitirán alcanzar mayores rendimientos, al tiempo que reducen drásticamente la latencia, sino que también introducen funciones como la inferencia distribuida y el soporte mejorado de formas de entrada dinámicas, que nos ayudarán a escalar para satisfacer las necesidades de despliegue a medida que avancemos hacia modelos grandes y más complejos.”

Aaron Colak, director de Core Machine Learning de Qualtrics

Print

Finch Computing es una empresa de tecnología de lenguaje natural que proporciona aplicaciones de inteligencia artificial para clientes gubernamentales, de servicios financieros y de integración de datos.

“Para satisfacer las necesidades de nuestros clientes de procesamiento del lenguaje natural en tiempo real, desarrollamos modelos de aprendizaje profundo de última generación que se escalan a grandes cargas de trabajo de producción. Tenemos que proporcionar transacciones de baja latencia y lograr altos rendimientos para procesar fuentes de datos globales. Hasta ahora, migramos muchas cargas de trabajo de producción a instancias Inf1 y logramos una reducción del 80 % en el costo con respecto a las GPU. Hoy en día, estamos desarrollando modelos más grandes y complejos que permiten obtener un significado más profundo y profundo del texto escrito. Muchos de nuestros clientes necesitan acceder a esta información en tiempo real y el rendimiento de las instancias Inf2 nos ayudará a ofrecer una latencia más baja y un mayor rendimiento en comparación con las instancias Inf1”. Con las mejoras en el rendimiento de Inf2 y las nuevas funciones de Inf2, como la compatibilidad con tamaños de entrada dinámicos, mejoramos nuestra rentabilidad, elevamos la experiencia del cliente en tiempo real y ayudamos a nuestros clientes a obtener nuevos conocimientos de sus datos”.

Franz Weckesser, arquitecto jefe de Finch Computing

Regístrese para obtener una cuenta de AWS

Regístrese para obtener una cuenta de AWS

Obtenga acceso instantáneo a la capa gratuita de AWS.

Aprenda con tutoriales sencillos

Aprenda con tutoriales de 10 minutos

Explore y aprenda con tutoriales sencillos.

Comience a crear con EC2 en la consola

Comience a crear en la consola

Comience a crear soluciones con las guías paso a paso, que lo ayudarán a lanzar un proyecto en AWS.