AWS Inferentia
Los aceleradores de AWS Inferentia están diseñados por AWS para ofrecer un alto rendimiento al menor costo para sus aplicaciones de inferencia de aprendizaje profundo (deep learning, DL).
El acelerador de AWS Inferentia de primera generación alimenta las instancias Inf1 de Amazon Elastic Compute Cloud (Amazon EC2), que ofrecen un rendimiento hasta 2,3 veces mayor y un costo por inferencia hasta un 70 % menor que las instancias comparables de Amazon EC2. Muchos clientes, como Airbnb, Snap, Sprinklr, Money Forward y Amazon Alexa, adoptaron las instancias Inf1 y experimentaron sus beneficios de rendimiento y costo.
El acelerador AWS Inferentia2 ofrece un gran avance en rendimiento y capacidades respecto a la primera generación de AWS Inferentia. Inferentia2 ofrece un rendimiento hasta 4 veces mayor y una latencia hasta 10 veces menor en comparación con Inferentia. Las instancias Inf2 de Amazon EC2 basadas en Inferentia2 están diseñadas para ofrecer un alto rendimiento al menor costo en Amazon EC2 para las aplicaciones de inferencia de aprendizaje profundo e inteligencia artificial (IA) generativa. Estas instancias están optimizadas para implementar modelos cada vez más complejos, como los modelos de lenguaje de gran tamaño (LLM) y los transformadores de visión, a escala. Las instancias Inf2 son las primeras instancias optimizadas para la inferencia en Amazon EC2 que admiten la inferencia distribuida a escala con una conectividad de altísima velocidad entre los aceleradores. Ahora puede implementar modelos de manera eficiente y rentable con cientos de miles de millones de parámetros en múltiples aceleradores en instancias Inf2.
AWS Neuron es el SDK que ayuda a los desarrolladores a implementar modelos en ambos aceleradores de AWS Inferentia y a ejecutar sus aplicaciones de inferencia para la comprensión o el procesamiento de lenguaje natural (NLP), traducción de idiomas, resumen de textos, generación de videos e imágenes, reconocimiento de voz, personalización, detección de fraudes y mucho más. Se integra de forma nativa con marcos populares de machine learning (ML), como PyTorch y TensorFlow, para que pueda continuar utilizando su código y flujos de trabajo existentes y ejecutarlos en los aceleradores de Inferentia.
Beneficios
Alto rendimiento y velocidad
Cada acelerador Inferentia de primera generación tiene cuatro NeuronCores de primera generación con hasta 16 aceleradores Inferentia por instancia EC2 Inf1. Cada acelerador Inferentia2 tiene dos NeuronCores de segunda generación con hasta 12 aceleradores Inferentia2 por instancia EC2 Inf2. Inferentia2 ofrece hasta 4 veces más rendimiento y 3 veces más rendimiento de cómputo que Inferentia. Cada acelerador Inferentia2 admite hasta 190 teraoperaciones flotantes por segundo (TFLOPS) de rendimiento FP16.
Baja latencia con memoria de gran ancho de banda
La primera generación de Inferentia tiene 8 GB de memoria DDR4 por acelerador y también cuenta con una gran cantidad de memoria en el chip. Inferentia2 ofrece 32 GB de HBM por acelerador, lo que aumenta la memoria total en 4 veces y el ancho de banda de la memoria en 10 veces con respecto a Inferentia.
Soporte nativo para marcos de trabajo de ML
El SDK de AWS Neuron se integra de forma nativa con marcos de trabajo de ML populares como PyTorch y TensorFlow. Con AWS Neuron, puede usar estos marcos para implementar de manera óptima modelos de DL en ambos aceleradores de AWS Inferentia con cambios mínimos en el código y sin necesidad de vincularse a soluciones específicas del proveedor.
Amplia gama de tipos de datos con casting automático
La primera generación de Inferentia admite tipos de datos FP16, BF16 e INT8. Inferentia2 agrega soporte adicional para FP32, TF32 y el nuevo tipo de datos FP8 configurable (cFP8) a fin de proporcionar a los desarrolladores más flexibilidad para optimizar el rendimiento y precisión. AWS Neuron toma modelos FP32 de alta precisión y los convierte de forma automática en tipos de datos de menor precisión, al tiempo que optimiza la precisión y el rendimiento. La difusión automática reduce el tiempo de comercialización al eliminar la necesidad de un reentrenamiento de menor precisión.
Capacidades de aprendizaje profundo de última generación
Inferentia2 agrega optimizaciones de hardware para tamaños de entrada dinámicos y operadores personalizados escritos en C++. También admite el redondeo estocástico, una forma de redondear probabilísticamente que permite un alto rendimiento y una mayor precisión en comparación con los modos de redondeo heredados.
Creado para la sostenibilidad
Las instancias de Inf2 ofrecen hasta un 50 % más de rendimiento por vatio en comparación con las instancias de Amazon EC2, ya que tanto ellas como los aceleradores subyacentes de Inferentia2 están diseñados para ejecutar modelos de aprendizaje profundo a escala. Con las instancias de Inf2 podrá alcanzar sus objetivos de sostenibilidad cuando implemente modelos ultragrandes.
SDK AWS Neuron
AWS Neuron es el SDK que ayuda a los desarrolladores a implementar modelos en los aceleradores de AWS Inferentia y a entrenarlos en el acelerador de AWS Trainium. Se integra de forma nativa con marcos populares de machine learning, como PyTorch y TensorFlow, para que pueda continuar utilizando sus flujos de trabajo existentes y ejecutarlos en los aceleradores de Inferentia con solo unas pocas líneas de código.
AWS Trainium
AWS Trainium es un acelerador de entrenamiento de aprendizaje profundo diseñado por AWS que ofrece un entrenamiento de aprendizaje profundo de alto rendimiento y rentable en AWS. Las instancias Trn1 de Amazon EC2, impulsadas por AWS Trainium, ofrecen el mayor rendimiento en el entrenamiento de aprendizaje profundo de modelos populares de NLP en AWS. Las instancias Trn1 ofrecen hasta un 50 % de ahorro en el costo del entrenamiento con respecto a instancias de Amazon EC2 comparables.
Testimonios de clientes

Qualtrics diseña y desarrolla software de administración de experiencias.
“En Qualtrics, nuestro objetivo es crear tecnología que elimine las deficiencias en la experiencia de los clientes, empleados, marcas y productos. Para lograrlo, desarrollamos complejos modelos de aprendizaje profundo multitarea y multimodal para lanzar nuevas características, como la clasificación de textos, etiquetado de secuencias, análisis del discurso, extracción de frases clave, extracción de temas, agrupación y comprensión de conversaciones de principio a fin. A medida que usamos estos modelos más complejos en más aplicaciones, el volumen de datos no estructurados crece y necesitamos soluciones optimizadas para la inferencia que puedan satisfacer estas demandas, como las instancias Inf2, para ofrecer las mejores experiencias a nuestros clientes. Nos entusiasma la llegada de las nuevas instancias Inf2, porque no solo nos permitirán alcanzar mayores rendimientos, al tiempo que reducen drásticamente la latencia, sino que también introducen características como la inferencia distribuida y el soporte mejorado de formas de entrada dinámicas, que nos ayudarán a escalar para satisfacer las necesidades de implementación a medida que avancemos hacia modelos grandes y más complejos”.
Aaron Colak, Head of Core Machine Learning en Qualtrics

Finch Computing es una empresa de tecnología de lenguaje natural que proporciona aplicaciones de inteligencia artificial para clientes gubernamentales, de servicios financieros y de integración de datos.
“Para satisfacer las necesidades de nuestros clientes de NLP en tiempo real, desarrollamos modelos de aprendizaje profundo de última generación que se escalan a grandes cargas de trabajo de producción. Tenemos que proporcionar transacciones de baja latencia y lograr altos rendimientos para procesar orígenes de datos globales. Hasta ahora, migramos muchas cargas de trabajo de producción a instancias Inf1 y logramos una reducción del 80 % en el costo con respecto a las GPU. Hoy en día, estamos desarrollando modelos más grandes y complejos que permitan obtener un significado más profundo del texto escrito. Muchos de nuestros clientes necesitan acceder a esta información en tiempo real y el rendimiento de las instancias Inf2 nos ayudará a ofrecer una latencia más baja y un mayor rendimiento en comparación con las instancias Inf1”. Con las mejoras en el rendimiento de Inf2 y las nuevas características de Inf2, como la compatibilidad con tamaños de entrada dinámicos, mejoramos nuestra rentabilidad, elevamos la experiencia del cliente en tiempo real y ayudamos a nuestros clientes a obtener nuevos conocimientos de sus datos”.
Franz Weckesser, Chief Architect en Finch Computing

“Alertamos sobre muchos tipos de eventos en todo el mundo en muchos idiomas y en diferentes formatos (imágenes, video, audio, sensores de texto, combinaciones de todos estos tipos) desde cientos de miles de orígenes. Optimizar la velocidad y el costo dada esa escala es absolutamente fundamental para nuestro negocio. Con AWS Inferentia, hemos reducido la latencia de los modelos y hemos conseguido un rendimiento por dólar hasta 9 veces superior. Esto nos ha permitido aumentar la precisión de los modelos e incrementar las capacidades de nuestra plataforma mediante la implementación de modelos de aprendizaje profundo más sofisticados y el procesamiento de un volumen de datos 5 veces mayor, manteniendo nuestros costos bajo control”.
Alex Jaimes, Chief Scientist y Senior Vice President of AI en Dataminr

Fundado en 2008, Airbnb, con sede en San Francisco, es un mercado comunitario con más de 4 millones de anfitriones que han recibido a más de 900 millones de huéspedes en casi todos los países del mundo.
“La plataforma de asistencia comunitaria de Airbnb permite experiencias de servicio excepcionales, escalables e inteligentes para nuestra comunidad de millones de huéspedes y anfitriones en todo el mundo. Buscamos constantemente formas de mejorar el rendimiento de nuestros modelos de procesamiento de lenguaje natural que utilizan nuestras aplicaciones de chatbot de soporte. Con las instancias Inf1 de Amazon EC2 con la tecnología de AWS Inferentia, vemos una mejora del doble en el rendimiento listo para usar, en comparación con las instancias basadas en GPU para nuestros modelos de BERT basados en PyTorch. Esperamos utilizar las instancias Inf1 para otros modelos y casos de uso en el futuro”.
Bo Zeng, Engineering Manager en Airbnb

“Incorporamos el machine learning en muchos aspectos de Snapchat y el análisis de la innovación en este campo es una prioridad clave. Una vez que nos enteramos de Inferentia, comenzamos a colaborar con AWS a fin de adoptar instancias Inf1/Inferentia que nos ayudaran con la implementación del machine learning, incluidos el rendimiento y el costo. Comenzamos con nuestros modelos de recomendación y esperamos adoptar más modelos con las instancias Inf1 en el futuro”.
Nima Khajehnouri, VP Engineering en Snap Inc.

“La plataforma de administración unificada de la experiencia del cliente impulsada por IA de Sprinklr (Unified-CXM) permite a las empresas recopilar y traducir los comentarios de los clientes en tiempo real a través de múltiples canales a información procesable, lo que resulta en una resolución proactiva de problemas, desarrollo de productos mejorado, marketing de contenido mejorado, mejor servicio al cliente y mucho más”. Mediante el uso de Inf1 de Amazon EC2, pudimos mejorar significativamente el rendimiento de uno de nuestros modelos de procesamiento de lenguaje natural y mejorar el rendimiento de uno de nuestros modelos de visión artificial. Esperamos seguir utilizando Inf1 de Amazon EC2 para servir mejor a nuestros clientes globales”.
Vasant Srinivasan, Senior Vice President of Product Engineering en Sprinklr

“Autodesk potencia la tecnología cognitiva de nuestro asistente virtual impulsado por IA, Autodesk Virtual Agent (AVA), mediante el uso de Inferentia. AVA responde más de 100 000 preguntas de clientes por mes gracias a la comprensión del lenguaje natural (NLU) y las técnicas de aprendizaje profundo para extraer el contexto, la intención y el significado de las consultas. Mediante el uso de Inferentia, podemos obtener un rendimiento 4,9 veces mayor que G4dn para nuestros modelos de NLU y esperamos ejecutar más cargas de trabajo en las instancias Inf1 basadas en Inferentia”.
Binghui Ouyang, Sr. Data Scientist en Autodesk
Servicios de Amazon con AWS Inferentia

Amazon Advertising ayuda a las empresas de todos los tamaños a conectar con sus clientes en cada etapa de su proceso de compra. Cada día se revisan, clasifican y publican millones de anuncios, tanto con texto como con imágenes, con el objetivo de ofrecer una experiencia óptima al cliente.
“Para el procesamiento de nuestros anuncios con texto, implementamos modelos BERT basados en PyTorch de forma global en instancias Inf1 basadas en AWS Inferentia. Con el paso a Inferentia desde las GPU, conseguimos reducir los costos un 69 % sin afectar el rendimiento. Compilar y probar nuestros modelos para AWS Inferentia nos llevó menos de tres semanas. Gracias a que utilizamos Amazon SageMaker para implementar nuestros modelos en instancias Inf1, nos aseguramos de que la implementación fuera escalable y fácil de administrar. Cuando analicé por primera vez los modelos compilados, el rendimiento con AWS Inferentia fue tan impresionante que hasta tuve que volver a ejecutar los puntos de referencia para asegurarme de que eran correctos. En un futuro, tenemos previsto migrar nuestros modelos de procesamiento de anuncios con imágenes a Inferentia. Ya hemos comprobado que la latencia es un 30 % menor y conseguimos un ahorro de costos del 71 % en comparación con instancias similares basadas en GPU para estos modelos”.
Yashal Kanungo, Applied Scientist en Amazon Advertising
Lea el blog de noticias »

“La inteligencia basada en IA y ML de Amazon Alexa, con tecnología de AWS, está disponible en más de 100 millones de dispositivos hoy en día. Además, nuestra promesa a los clientes es que Alexa será cada vez más inteligente, más conversacional, más proactiva y aún más encantadora. El cumplimiento de esta promesa requiere mejoras continuas en los tiempos de respuesta y en los costos de la infraestructura de machine learning, por lo que estamos encantados de utilizar Inf1 de Amazon EC2 para reducir la latencia de inferencia y el costo por inferencia en la conversión de texto a voz de Alexa. Gracias a Inf1 de Amazon EC2 podremos mejorar aún más el servicio para las decenas de millones de clientes que utilizan Alexa cada mes”.
Tom Taylor, Senior Vice President en Amazon Alexa
“Innovamos constantemente para mejorar la experiencia de nuestros clientes y reducir nuestros costos de infraestructura”. Trasladar nuestras cargas de trabajo de respuesta a preguntas basadas en la web (WBQA) de instancias P3 basadas en GPU a instancias Inf1 basadas en AWS Inferentia no solo nos ayudó a reducir los costos de inferencia en un 60 %, sino que también mejoró la latencia de extremo a extremo en más de un 40 %, lo que contribuyó a mejorar la experiencia de preguntas y respuestas de los clientes con Alexa. Utilizar Amazon SageMaker para nuestro modelo basado en TensorFlow hizo que el proceso de cambio a las instancias Inf1 fuera sencillo y fácil de administrar. Ahora utilizamos instancias Inf1 a nivel global para ejecutar estas cargas de trabajo de WBQA y optimizamos el rendimiento de estas para AWS Inferentia con el fin de reducir aún más los costos y la latencia”.
Eric Lind, Software Development Engineer en Alexa AI

“Amazon Prime Video usa modelos de ML de visión artificial para analizar la calidad de los videos de los eventos en vivo a fin de garantizar una experiencia de visualización óptima para los miembros de Prime Video. Implementamos nuestros modelos de ML de clasificación de imágenes en instancias Inf1 de EC2 y vimos una mejora en el rendimiento 4 veces superior y hasta un 40 % de ahorro en el costo. Ahora, queremos aprovechar este ahorro de costos para innovar y crear modelos avanzados que puedan detectar defectos más complejos, como diferencias de sincronización entre los archivos de audio y video, para ofrecer una experiencia de visualización mucho mejor a los miembros de Prime Video”.
Victor Antonino, Solutions Architect en Amazon Prime Video

“Amazon Rekognition es una aplicación simple y fácil de análisis de imágenes y videos que ayuda a los clientes a detectar objetos, personas, textos y actividades. Amazon Rekognition necesita una infraestructura de aprendizaje profundo de alto rendimiento que pueda analizar miles de millones de imágenes y videos diariamente para nuestros clientes. Con las instancias Inf1 basadas en AWS Inferentia, la ejecución de modelos de Amazon Rekognition, como la clasificación de objetos, dio como resultado una latencia 8 veces menor y el doble de rendimiento que la ejecución de estos modelos en GPU. Con base en estos resultados, estamos pasando Amazon Rekognition a Inf1, lo que permite a nuestros clientes obtener resultados precisos más rápido”.
Rajneesh Singh, Director, SW Engineering en Amazon Rekognition and Video
Blogs y artículos
Patrick Moorhead, 13 de mayo de 2020
James Hamilton, 28 de noviembre de 2018
Vídeos

Obtenga acceso instantáneo a la capa gratuita de AWS.

Comience con el ML desde la Consola de administración de AWS.