AWS Inferentia

Alto rendimiento al menor costo en Amazon EC2 para la inferencia de aprendizaje profundo

Los aceleradores de AWS Inferentia están diseñados por AWS para ofrecer un alto rendimiento al menor costo para sus aplicaciones de inferencia de aprendizaje profundo (DL). 

El acelerador AWS Inferentia de primera generación alimenta las instancias Inf1 de Amazon Elastic Compute Cloud (Amazon EC2), que ofrecen un rendimiento hasta 2,3 veces mayor y un costo por inferencia hasta un 70 % menor que las instancias comparables de Amazon EC2 basadas en GPU. Muchos clientes, como Airbnb, Snap, Sprinklr, Money Forward y Amazon Alexa, adoptaron las instancias Inf1 y se dieron cuenta de sus beneficios de rendimiento y costo.

El acelerador AWS Inferentia2 ofrece un gran avance en rendimiento y capacidades respecto a la primera generación de AWS Inferentia. Inferentia2 ofrece un rendimiento hasta 4 veces mayor y una latencia hasta 10 veces menor en comparación con Inferentia. Las instancias Inf2 de Amazon EC2 basadas en Inferentia2 están diseñadas para ofrecer un alto rendimiento al menor costo en Amazon EC2 para las aplicaciones de inferencia de aprendizaje profundo. Estas instancias están optimizadas para implementar modelos cada vez más complejos, como los modelos de lenguaje de gran tamaño (LLM) y los transformadores de visión, a escala. Las instancias Inf2 son las primeras instancias optimizadas para la inferencia en Amazon EC2 que admiten la inferencia distribuida a escala con una conectividad de altísima velocidad entre los aceleradores. Ahora se puede implementar eficazmente un modelo de parámetros de 175B para la inferencia en varios aceleradores en una sola instancia Inf2. Las instancias Inf2 ofrecen un mejor rendimiento de precio que Inf1 para modelos más pequeños.

AWS Neuron es el SDK que ayuda a los desarrolladores a implementar modelos en ambos aceleradores de AWS Inferentia y a ejecutar sus aplicaciones de inferencia para el procesamiento o comprensión del lenguaje natural, traducción de idiomas, generación de videos e imágenes, reconocimiento de voz, personalización, detección de fraudes y mucho más. Se integra de forma nativa con marcos populares de machine learning (ML), como PyTorch y TensorFlow, para que pueda continuar utilizando sus flujos de trabajo existentes y ejecutarlos en los aceleradores de Inferentia con solo unas pocas líneas de código.

Amazon Alexa adopta AWS Inferentia para reducir los costos de las inferencias de ML

Beneficios

Alto rendimiento y velocidad

Cada acelerador Inferentia de primera generación tiene cuatro NeuronCores de primera generación con hasta 16 aceleradores Inferentia por instancia EC2 Inf1. Cada acelerador Inferentia2 tiene dos NeuronCores de segunda generación con hasta 12 aceleradores Inferentia2 por instancia EC2 Inf2. Inferentia2 ofrece hasta 4 veces más rendimiento y 3 veces más rendimiento de cómputo que Inferentia. Cada acelerador Inferentia2 admite hasta 190 teraoperaciones flotantes por segundo (TFLOPS) de rendimiento FP16.

Baja latencia con memoria de gran ancho de banda

La primera generación de Inferentia tiene 8 GB de memoria DDR4 por acelerador y también cuenta con una gran cantidad de memoria en el chip. Inferentia2 ofrece 32 GB de HBM2e por acelerador, lo que aumenta la memoria total en 4 veces y el ancho de banda de la memoria en 10 veces con respecto a Inferentia.

Soporte nativo para marcos de trabajo de ML

El SDK de AWS Neuron se integra de forma nativa con marcos de trabajo de ML populares como PyTorch y TensorFlow. Con AWS Neuron, puede usar estos marcos para implementar de manera óptima modelos de DL en ambos aceleradores de AWS Inferentia con cambios mínimos en el código y sin necesidad de vincularse a soluciones específicas del proveedor.

Amplia gama de tipos de datos con casting automático

La primera generación de Inferentia admite tipos de datos FP16, BF16 e INT8. Inferentia2 agrega soporte adicional para FP32, TF32 y el nuevo tipo de datos FP8 configurable (cFP8) a fin de proporcionar a los desarrolladores más flexibilidad para optimizar el rendimiento y precisión. AWS Neuron toma modelos FP32 de alta precisión y los convierte de forma automática en tipos de datos de menor precisión, al tiempo que optimiza la precisión y el rendimiento. La difusión automática reduce el tiempo de comercialización al eliminar la necesidad de un reentrenamiento de menor precisión.

Capacidades de aprendizaje profundo de última generación


Inferentia2 agrega optimizaciones de hardware para tamaños de entrada dinámicos y operadores personalizados escritos en C++. También admite el redondeo estocástico, una forma de redondear probabilísticamente que permite un alto rendimiento y una mayor precisión en comparación con los modos de redondeo heredados.

Creado para la sostenibilidad


Las instancias de Inf2 ofrecen hasta un 45 % más de rendimiento por vatio en comparación con las instancias basadas en GPU en Amazon EC2, ya que tanto ellas como los aceleradores subyacentes de Inferentia2 están diseñados para ejecutar modelos de aprendizaje profundo a escala. Con las instancias de Inf2 podrá alcanzar sus objetivos de sostenibilidad cuando implemente modelos ultragrandes.

SDK AWS Neuron

AWS Neuron es el SDK que ayuda a los desarrolladores a implementar modelos en los aceleradores de AWS Inferentia y a entrenarlos en el acelerador de AWS Trainium. Se integra de forma nativa con marcos populares de machine learning, como PyTorch y TensorFlow, para que pueda continuar utilizando sus flujos de trabajo existentes y ejecutarlos en los aceleradores de Inferentia con solo unas pocas líneas de código.

Más información » 

AWS Trainium

AWS Trainium es un acelerador de entrenamiento de aprendizaje profundo diseñado por AWS que ofrece un entrenamiento de aprendizaje profundo de alto rendimiento y rentable en AWS. Las instancias de Amazon EC2 Trn1, impulsadas por AWS Trainium, ofrecen un rendimiento máximo en el entrenamiento de aprendizaje profundo de modelos populares de procesamiento del lenguaje natural (NLP) en AWS. Las instancias Trn1 ofrecen hasta un 50 % de ahorro en el costo de entrenamiento con respecto a instancias comparables basadas en GPU.

Más información » 

Testimonios de los clientes

Qualtrics

Qualtrics diseña y desarrolla software de administración de experiencias.

“En Qualtrics, nuestro objetivo es crear tecnología que elimine las deficiencias en la experiencia de los clientes, empleados, marcas y productos. Para lograrlo, desarrollamos complejos modelos de aprendizaje profundo multitarea y multimodal para lanzar nuevas funciones, como la clasificación de textos, etiquetado de secuencias, análisis del discurso, extracción de frases clave, extracción de temas, agrupación y comprensión de conversaciones de principio a fin. A medida que utilizamos estos modelos más complejos en más aplicaciones, el volumen de datos no estructurados crece, y necesitamos soluciones optimizadas para la inferencia que puedan satisfacer estas demandas, como las instancias Inf2, para ofrecer las mejores experiencias a nuestros clientes. Nos entusiasma la llegada de las nuevas instancias de Inf2, porque no solo nos permitirán alcanzar mayores rendimientos, al tiempo que reducen drásticamente la latencia, sino que también introducen funciones como la inferencia distribuida y el soporte mejorado de formas de entrada dinámicas, que nos ayudarán a escalar para satisfacer las necesidades de despliegue a medida que avancemos hacia modelos grandes y más complejos.”

Aaron Colak, director de Core Machine Learning de Qualtrics

Print

Finch Computing es una empresa de tecnología de lenguaje natural que proporciona aplicaciones de inteligencia artificial para clientes gubernamentales, de servicios financieros y de integración de datos.

“Para satisfacer las necesidades de nuestros clientes de procesamiento del lenguaje natural en tiempo real, desarrollamos modelos de aprendizaje profundo de última generación que se escalan a grandes cargas de trabajo de producción. Tenemos que proporcionar transacciones de baja latencia y lograr altos rendimientos para procesar fuentes de datos globales. Hasta ahora, migramos muchas cargas de trabajo de producción a instancias Inf1 y logramos una reducción del 80 % en el costo con respecto a las GPU. Hoy en día, estamos desarrollando modelos más grandes y complejos que permiten obtener un significado más profundo y profundo del texto escrito. Muchos de nuestros clientes necesitan acceder a esta información en tiempo real y el rendimiento de las instancias Inf2 nos ayudará a ofrecer una latencia más baja y un mayor rendimiento en comparación con las instancias Inf1”. Con las mejoras en el rendimiento de Inf2 y las nuevas funciones de Inf2, como la compatibilidad con tamaños de entrada dinámicos, mejoramos nuestra rentabilidad, elevamos la experiencia del cliente en tiempo real y ayudamos a nuestros clientes a obtener nuevos conocimientos de sus datos”.

Franz Weckesser, arquitecto jefe de Finch Computing

airbnb-case-study

Fundada en 2008, Airbnb, con sede en San Francisco, es un mercado comunitario con más de 4 millones de anfitriones que han recibido a más de 900 millones de huéspedes en casi todos los países del mundo.

“La plataforma de asistencia comunitaria de Airbnb permite experiencias de servicio excepcionales, escalables e inteligentes para nuestra comunidad de millones de huéspedes y anfitriones en todo el mundo. Buscamos constantemente formas de mejorar el rendimiento de nuestros modelos de procesamiento de lenguaje natural que utilizan nuestras aplicaciones de chatbot de soporte. Con las instancias Amazon EC2 Inf1 powered by AWS Inferentia, vemos una mejora del doble en el rendimiento listo para usar, en comparación con las instancias basadas en GPU para nuestros modelos BERT basados en PyTorch. Esperamos aprovechar las instancias Inf1 para otros modelos y casos de uso en el futuro”.

Bo Zeng, director de Ingeniería, AirBnB

Snap Inc
“Incorporamos el machine learning (ML) en muchos aspectos de Snapchat y el análisis de la innovación en este campo es una prioridad clave. Una vez que nos enteramos de Inferentia, comenzamos a colaborar con AWS a fin de adoptar instancias de Inf1/Inferentia que nos ayudaran con la implementación del aprendizaje automático, incluidos el rendimiento y el costo. Comenzamos con nuestros modelos de recomendación y esperamos adoptar más modelos con las instancias Inf1 en el futuro”.

Nima Khajehnouri, VP de Ingeniería, Snap Inc.

Sprinklr
“La plataforma de administración unificada de la experiencia del cliente impulsada por IA de Sprinklr (Unified-CXM) permite a las empresas recopilar y traducir los comentarios de los clientes en tiempo real a través de múltiples canales en información procesable, lo que resulta en una resolución proactiva de problemas, desarrollo de productos mejorado, marketing de contenido mejorado, mejor servicio al cliente y más”. Mediante el uso de Amazon EC2 Inf1, pudimos mejorar significativamente el rendimiento de uno de nuestros modelos de procesamiento de lenguaje natural (NLP) y mejorar el rendimiento de uno de nuestros modelos de visión artificial. Esperamos seguir utilizando Amazon EC2 Inf1 para servir mejor a nuestros clientes globales”.

Vasant Srinivasan, vicepresidente sénior de Ingeniería de Productos, Sprinklr

Autodesk
“Autodesk potencia la tecnología cognitiva de nuestro asistente virtual impulsado por IA, Autodesk Virtual Agent (AVA), mediante el uso de Inferentia. AVA responde más de 100 000 preguntas de los clientes al mes aplicando la Natural Language Understanding (NLU, comprensión del lenguaje natural) y técnicas de aprendizaje profundo para extraer el contexto, la intención y el significado de las consultas. Mediante el uso de Inferentia, podemos obtener un rendimiento 4,9 veces mayor que G4dn para nuestros modelos de NLU y esperamos ejecutar más cargas de trabajo en las instancias Inf1 basadas en Inferentia”.

Binghui Ouyang, científica de datos sénior, Autodesk

Screening Eagle
“El uso del georradar y la detección de defectos visuales suele ser el campo de los topógrafos expertos. Una arquitectura basada en microservicios de AWS nos permite procesar los videos capturados por los vehículos de inspección automatizados y los inspectores. Al migrar nuestros modelos internos de las instancias tradicionales basadas en la GPU a Inferentia, pudimos reducir los costos en un 50 %. Además, pudimos ver mejoras de rendimiento cuando comparamos los tiempos con una instancia de GPU G4dn. Nuestro equipo espera ejecutar más cargas de trabajo en las instancias Inf1 basadas en Inferentia”.

Jesús Hormigo, director general de nube e IA de Screening Eagle Technologies

NTT PC

NTTPC Communications es un proveedor de soluciones de comunicaciones y servicios de red en Japón, líder en telecomunicaciones en la introducción de nuevos productos innovadores en el mercado de tecnologías de la información y las comunicaciones.

“NTTPC desarrolló AnyMotion, un servicio de plataforma API de análisis de movimiento basado en modelos avanzados de machine learning de estimación de postura. NTTPC implementó su plataforma AnyMotion en instancias de Amazon EC2 Inf1 mediante Amazon Elastic Container Service (ECS) para un servicio de orquestación de contenedores completamente administrado. Al implementar sus contenedores AnyMotion en Amazon EC2 Inf1, NTTPC obtuvo 4,5 veces más en todo momento, una latencia de inferencia un 25 % menor y un coste 90 % menor en comparación con las instancias EC2 basadas en GPU de la generación actual. Estos resultados superiores ayudarán a mejorar la calidad del servicio AnyMotion a escala”.

Toshiki Yanagisawa, ingeniero de software, NTT PC Communications Incorporated

Anthem

Anthem es una de las principales compañías de seguros de salud del país. Atiende las necesidades de atención médica de más de 40 millones de miembros en docenas de estados. 

“El mercado de las plataformas digitales de salud sigue creciendo a un ritmo extraordinario. La recopilación de información sobre este mercado es una tarea difícil debido a la gran cantidad de datos de las opiniones de los clientes y a su naturaleza desestructurada. Nuestra aplicación automatiza la generación de conocimientos procesables a partir de las opiniones de los clientes a través de modelos de lenguaje natural de aprendizaje profundo (Transformers). Nuestra aplicación es computacionalmente intensiva y necesita ser implementada de una manera muy eficiente. Implementamos sin problemas nuestra carga de trabajo de inferencia de aprendizaje profundo en las instancias Inf1 de Amazon EC2 impulsadas por el procesador AWS Inferentia. Las nuevas instancias de Inf1 proporcionan 2 veces más rendimiento a las instancias basadas en la GPU y nos permitieron racionalizar nuestras cargas de trabajo de inferencia”.

Numan Laanait, doctor, IA principal/científico de datos, Anthem
Miro Mihaylov, doctor, IA principal/científico de datos, Anthem

Condé Nast
“La cartera global de Condé Nast abarca más de 20 marcas de publicaciones líderes, incluidas Wired, Vogue y Vanity Fair. En unas pocas semanas, nuestro equipo pudo integrar nuestro motor de recomendaciones con los chips de AWS Inferentia. Esta combinación permite múltiples optimizaciones de tiempo de ejecución para modelos de lenguaje natural de última generación en instancias Inf1 de SageMaker. Como resultado, observamos una reducción de costes del 72 % en comparación con las instancias de GPU implementadas anteriormente”.

Paul Fryzel, ingeniero principal, infraestructura de IA, Condé Nast

Ciao
“Ciao está realizando una evolución de las cámaras de seguridad convencionales para convertirlas en cámaras de análisis de alto rendimiento, equivalentes a la capacidad del ojo humano. Con nuestra aplicación, se están realizando avances en prevención de desastres, monitoreando las condiciones ambientales usando soluciones de cámara con IA basadas en la nube para alertar de las condiciones antes de que el desastre se produzca. Estas alertas permiten reaccionar a la situación en forma anticipada. Basándose en la detección de objetos,también podemos brindar conocimientos estimando la cantidad de invitados entrantes a partir de videos (sin personal) en tiendas físicas. Ciao Camera adoptó comercialmente instancias Inf1 basadas en AWS Inferentia con 40 % de mejora en el rendimiento de precios con respecto a G4dn con YOLOv4. Esperamos con ansias desarrollar más servicios con Inf1 para aprovechar su eficiencia significativa en los costes”.

Shinji Matsumoto, ingeniero de Software, Ciao Inc.

欧文ベーシックロゴ(The Asahi Shimbun)
“El Asahi Shimbun es uno de los periódicos más populares de Japón. Media Lab, establecido como uno de los departamentos de nuestra empresa, tiene las misiones de alcanzar la tecnología más reciente, especialmente la IA y conectarse con tecnologías de avanzada para nuevos negocios. Con el lanzamiento de instancias Inf1 de Amazon EC2 basadas en AWS Inferentia en Tokio, probamos nuestra aplicación de IA de resúmenes de texto basada en PyTorch en estas instancias. Esta aplicación procesa una gran cantidad de texto y genera titulares y oraciones de resumen entrenada con artículos de los últimos 30 años. Con Inferentia, disminuimos los costos por una orden de magnitud a través de instancias basadas en la CPU. Esta drástica reducción en costes nos permitirá implementar nuestros modelos más complejos a escala, que anteriormente se creía que no eran posible desde el punto de vista económico”

Hideaki Tamori, doctor, administrador sénior, Media Lab, The Asahi Shimbun Company

CS Disco
“CS Disco está reinventando la tecnología legal como proveedor líder de soluciones de inteligencia artificial para la detección electrónica, que fueron desarrolladas por abogados para abogados. La IA de Disco acelera la ingrata tarea de analizar terabytes de datos, reduce los tiempos de revisión y mejora la precisión de la revisión al aprovechar los complejos modelos de procesamiento del lenguaje natural, que son costosos y prohibitivos a nivel informático. Disco descubrió que las instancias Inf1 basadas en AWS Inferentia reducen el costo de inferencia en la IA de Disco en al menos un 35 % en comparación con las instancias de GPU actuales. Sobre la base de esta experiencia positiva con las instancias Inf1, CS Disco aprovechará las oportunidades para la migración a Inferentia”.

Alan Lockett, director sénior de Investigación, CS Disco

Talroo
“En Talroo, les proporcionamos a nuestros clientes una plataforma impulsada en datos que les permite atraer candidatos para trabajos únicos, de manera que puedan contratar. Estamos constantemente explorando nuevas tecnologías para asegurarnos de ofrecer los mejores productos y servicios a nuestros clientes. Con Inferentia, extraemos información de un corpus de datos de texto para mejorar nuestra tecnología de búsqueda y coincidencia potenciada por IA. Talroo aprovecha las interfaces Instancias Inf1 de Amazon EC2 para crear modelos de comprensión del lenguaje natural de alto nivel de procesamiento con SageMaker. Las pruebas iniciales de Talroo muestran que las instancias inf1 de Amazon EC2 ofrecen una latencia de inferencia un 40 % menor y un rendimiento dos veces más elevado en comparación con las instancias basadas en las GPU G4dn. Con base a estos resultados, Talroo espera utilizar instancias Inf1 de Amazon EC2 como parte de su infraestructura de AWS”.

Janet Hu, ingeniero de Software, Talroo

DMP
“Digital Media Professionals (DMP) proyecta el futuro con una plataforma ZIA™ basada en IA (Inteligencia artificial). Las eficientes tecnologías de clasificación de visión computarizada de DMP se utilizan para desarrollar la comprensión de gran cantidad de datos de imágenes en tiempo real, como la observación de condiciones, la prevención de delitos y de accidentes. Hemos identificado que nuestros modelos de segmentación de imágenes se ejecutan cuatro veces más rápido en instancias Inf1 basadas en AWS Inferentia que en instancias G4 basadas en GPU. Debido a este mayor rendimiento y menor coste, Inferentia nos permite implementar toda la carga de trabajo de nuestra IA, tales como aplicaciones para cámaras de automóviles a escala”.

Hiroyuki Umeda, director y gerente general, grupo de Ventas y Marketing, Digital Media Professionals

Hotpot.ai

Hotpot.ai permite a los no diseñadores crear gráficos atractivos y ayuda a los diseñadores profesionales a automatizar las tareas rutinarias. 

“Debido a que el aprendizaje automático es el núcleo de nuestra estrategia, nos entusiasmó probar los casos de instancias Inf1 basadas en AWS Inferentia. Descubrimos que las instancias de Inf1 eran fáciles de integrar en nuestra canalización de investigación y desarrollo. Sobre todo, observamos un impresionante aumento del rendimiento en comparación con las instancias basadas en la GPU G4dn. Con nuestro primer modelo, las instancias Inf1 produjeron un 45% más de rendimiento y redujeron el costo por inferencia en casi un 50%. Queremos trabajar en estrecha colaboración con el equipo de AWS para trasladar otros modelos y trasladar la mayor parte de nuestra infraestructura de inferencia de ML a AWS Inferentia”.

Clarence Hu, fundador, Hotpot.ai

SkyWatch
“SkyWatch procesa cientos de billones de píxeles de datos de observación de la Tierra, que se captan desde el espacio todos los días. La adopción de las nuevas instancias Inf1 basadas en AWS Inferentia mediante Amazon SageMaker para la detección de nubes en tiempo real y la puntuación de la calidad de imágenes fue rápida y fácil. Todo fue cuestión de cambiar el tipo de instancia en nuestra configuración de desarrollo. Al cambiar los tipos de instancia a Inf1 basada en Inferentia, mejoramos el rendimiento en un 40 % y redujimos los costos generales en un 23 %. Esto es una gran victoria. No ha permitido reducir los costos operativos generales a la vez que seguimos ofreciendo imágenes satelitales de alta calidad a nuestros clientes, con mínimos gastos generales de ingeniería. Buscamos realizar la transición de todos nuestros procesos de ML por lotes y puntos de enlace de inferencia para usar instancias Inf1 a fin de mejorar aún más la fiabilidad de los datos y la experiencia de los clientes”.

Adler Santos, gerente de Ingeniería, SkyWatch

Money Forward, Inc.

Money Forward, Inc. brinda servicios a empresas e individuos con una plataforma financiera abierta y justa. Como parte de esta plataforma, HiTTO Inc., una empresa del grupo Money Forward, ofrece un servicio de chatbot con IA, que utiliza modelos de NLP personalizados para abordar las diversas necesidades de sus clientes corporativos.

“Migrar nuestro servicio de chatbot con IA a instancias Inf1 de Amazon EC2 fue sencillo. Finalizamos la migración en 2 meses y lanzamos un servicio a gran escala en las instancias Inf1 con Amazon Elastic Container Service (ECS). Pudimos reducir nuestra latencia de inferencia en un 97 % y nuestros costos de inferencia en más del 50 % (en comparación con instancias basadas en GPU comparables), al ofrecer varios modelos por instancia Inf1. Esperamos ejecutar más cargas de trabajo en las instancias Inf1 basadas en inferencias”.

Kento Adachi, líder técnico, Departamento del director de Tecnología, Money Forward, Inc.

Servicios de Amazon con AWS Inferentia

Amazon Advertising

Amazon Advertising ayuda a las empresas de todos los tamaños a conectar con sus clientes en cada etapa de su proceso de compra. Cada día se revisan, clasifican y publican millones de anuncios, tanto con texto como con imágenes, con el objetivo de ofrecer una experiencia óptima al cliente.

“Para el procesamiento de nuestros anuncios con texto, implementamos modelos BERT basados en PyTorch de forma global en instancias Inf1 basadas en AWS Inferentia. Con el paso a Inferentia desde las GPU, conseguimos reducir los costos un 69 % sin afectar el rendimiento. Compilar y probar nuestros modelos para AWS Inferentia nos llevó menos de tres semanas. Gracias a que utilizamos Amazon SageMaker para implementar nuestros modelos en instancias Inf1, nos aseguramos de que la implementación fuera escalable y fácil de administrar. Cuando analicé por primera vez los modelos compilados, el rendimiento con AWS Inferentia fue tan impresionante que hasta tuve que volver a ejecutar los puntos de referencia para asegurarme de que eran correctos. En un futuro, tenemos previsto migrar nuestros modelos de procesamiento de anuncios con imágenes a Inferentia. Ya hemos comprobado que la latencia es un 30 % menor y conseguimos un ahorro de costos del 71 % en comparación con instancias similares basadas en GPU para estos modelos”.

Yashal Kanungo, científico aplicado, Amazon Advertising

Lea el blog de noticias »

Alexa 8up logo
“La inteligencia basada en IA y ML de Amazon Alexa, con tecnología de Amazon Web Services, está disponible en más de 100 millones de dispositivos hoy en día, y nuestra promesa a los clientes es que Alexa será cada vez más inteligente, más conversacional, más proactiva y aún más encantadora. Cumplir esa promesa requiere mejoras continuas en los tiempos de respuesta y en los costos de la infraestructura de machine learning, por lo que nos entusiasma utilizar Inf1 de Amazon EC2 para reducir la latencia de inferencia y el costo por inferencia en la conversión de texto a voz de Alexa. Con Inf1 de Amazon EC2 podremos mejorar aún más el servicio para las decenas de millones de clientes que utilizan Alexa cada mes”.

Tom Taylor, vicepresidente sénior, Amazon Alexa

“Innovamos constantemente para mejorar la experiencia de nuestros clientes y reducir nuestros costos de infraestructura”. Trasladar nuestras cargas de trabajo de respuesta a preguntas basadas en la web (WBQA) de instancias P3 basadas en GPU a instancias Inf1 basadas en AWS Inferentia no solo nos ayudó a reducir los costos de inferencia en un 60 %, sino que también mejoró la latencia de extremo a extremo en más de un 40 %, lo que contribuyó a mejorar la experiencia de preguntas y respuestas de los clientes con Alexa. Utilizar Amazon SageMaker para nuestro modelo basado en Tensorflow hizo que el proceso de cambio a las instancias de Inf1 fuera sencillo y fácil de gestionar. Ahora utilizamos instancias Inf1 a nivel global para ejecutar estas cargas de trabajo de WBQA y optimizamos el rendimiento de estas para AWS Inferentia con el fin de reducir aún más los costos y la latencia”.

Eric Lind, ingeniero de desarrollo de software, Alexa AI

Amazon Alexa
“Amazon Prime Video usa modelos de ML de visión artificial para analizar la calidad de los videos de los eventos en vivo a fin de garantizar una experiencia de visualización óptima para los miembros de Prime Video. Implementamos nuestros modelos ML de clasificación de imágenes en instancias Inf1 de EC2 y vimos una mejora en el rendimiento 4 veces superior y hasta un 40% de ahorro en el costo. Ahora, queremos aprovechar este ahorro de costos para innovar y crear modelos avanzados que puedan detectar defectos más complejos, como diferencias de sincronización entre los archivos de audio y video, para ofrecer una experiencia de visualización mucho mejor a los miembros de Prime Video”.
 
Victor Antonino, arquitecto de soluciones, Amazon Prime Video
Amazon Alexa
“Amazon Rekognition es una aplicación simple y fácil de análisis de imágenes y videos que ayuda al cliente a detectar objetos, personas, textos y actividades. Amazon Rekognition necesita una infraestructura de aprendizaje profundo de alto rendimiento que pueda analizar miles de millones de imágenes y videos diariamente para nuestros clientes. Con las instancias Inf1 basadas en AWS Inferentia, la ejecución de modelos de Rekognition, como la clasificación de objetos, dio como resultado una latencia 8 veces menor y el doble de rendimiento que la ejecución de estos modelos en GPU. Con base en estos resultados, estamos pasando Rekognition a Inf1, lo que permite a nuestros clientes obtener resultados precisos más rápido”.
 
Rajneesh Singh, director, SW Engineering, Rekognition y Video

Vídeos

AWS re:Invent 2019: vea la presentación de Andy Jassy sobre la inversión de componentes y Inf1
AWS re:Invent 2019: inferencia de aprendizaje automático con las nuevas instancias Inf1 de Amazon EC2, con Amazon Alexa
Reduzca el costo de ejecución de aplicaciones de aprendizaje automático con las nuevas instancias Inf1 de Amazon EC2 - Presentaciones técnicas en línea de AWS
Regístrese para obtener una cuenta gratuita

Obtenga acceso instantáneo a la capa gratuita de AWS. 

Registrarse 
Comience a crear en la consola

Comience a realizar tareas de aprendizaje automático en la consola de AWS.

Iniciar sesión