Instancias Inf1 de Amazon EC2

Alto rendimiento y la inferencia de aprendizaje automático más económica en la nube

Empresas de diversos sectores aspiran a transformarse gracias a la IA para impulsar la innovación empresarial, mejorar la experiencia del cliente y procesar las mejoras. Los modelos de Machine Learning que permiten ejecutar aplicaciones de IA son cada vez más complejos, lo que hace que aumenten los costos de la infraestructura informática subyacentes. Hasta el 90 % de la inversión en infraestructura para el desarrollo y ejecución de aplicaciones de ML va para la inferencia. Los clientes buscan soluciones de infraestructura rentables para implementar sus aplicaciones de ML en producción.

Las instancias Inf1 de Amazon EC2 ofrecen la inferencia de ML de alto rendimiento de menor costo en la nube. Brindan un rendimiento 2,3 veces mayor y un costo hasta un 70 % menor por inferencia en comparación con las instancias Amazon EC2 basadas en GPU de generación actual comparables. Las instancias Inf1 se crean desde cero para ser compatibles con las aplicaciones de inferencia de Machine Learning. Ofrecen hasta 16 chips de AWS Inferentia, chips de inferencia de Machine Learning de alto rendimiento diseñados y creados por AWS. Además, las instancias Inf1 incluyen procesadores Intel® Xeon® escalables de segunda generación y con redes de hasta 100 Gbps para lograr una inferencia de alto rendimiento.

Los clientes pueden usar instancias Inf1 para ejecutar aplicaciones de inferencia de Machine Learning a gran escala, como la búsqueda, los motores de recomendaciones, la visión computarizada, el reconocimiento de voz, el procesamiento de lenguaje natural, la personalización y la detección de fraudes, al costo más bajo en la nube.

Los desarrolladores pueden implementar sus modelos de Machine Learning en instancias Inf1 con el SDK de AWS Neuron, que se integra con marcos de aprendizaje automático populares tales como TensorFlow, PyTorch y MXNet. Pueden continuar usando los mismos procesos de ML y migrar aplicaciones sin complicaciones a instancias Inf1 con muy pocos cambios en el código y sin tener que recurrir a soluciones específicas del proveedor.

Comenzar a usar instancias Inf1 es fácil con Amazon SageMaker, AMI de AWS Deep Learning preconfiguradas con el SDK de Neuron o con Amazon ECS o Amazon EKS para aplicaciones de ML en contenedores.

Amazon EC2 Inf1 instances based on AWS Inferentia (2:51)

Beneficios

Costo hasta un 70 % menor por inferencia

Con Inf1, los desarrolladores pueden reducir significativamente el costo de sus implementaciones de producción de Machine Learning con el costo por inferencia más bajo de la nube. La combinación del poco costo de la instancia y el gran rendimiento de las instancias Inf1 ofrecen un costo por inferencia hasta un 70 % más bajo que las instancias EC2 basadas en GPU de generación actual comparables.

Facilidad de uso y portabilidad del código

El SDK de Neuron está integrado con marcos de Machine Learning, como TensorFlow, PyTorch y MXNet. Los desarrolladores pueden continuar usando los mismos procesos de ML y migrar aplicaciones sin complicaciones a instancias Inf1 con muy pocos cambios en el código. Esto les brinda la libertad necesaria para usar el marco de Machine Learning de su elección, la plataforma informática que mejor se adapte a sus necesidades y aprovechar las últimas tecnologías sin estar limitados a las soluciones del proveedor.

Rendimiento hasta 2,3 veces mayor

Las instancias Inf1 brindan un rendimiento hasta 2,3 veces mayor en comparación con las instancias Amazon EC2 basadas en GPU de generación actual comparables. Los chips de AWS Inferentia que usan las instancias Inf1 están optimizados para el rendimiento de las inferencias de lotes pequeños, gracias a lo cual las aplicaciones en tiempo real pueden maximizar el rendimiento y cumplir los requisitos de latencia.

Latencia extremadamente baja

Los chips de AWS Inferentia cuentan con una gran memoria que les permite almacenar en caché modelos de Machine Learning directamente en el chip. Puede implementar sus modelos con capacidades como la canalización de NeuronCore, con las que deja de ser necesario acceder a recursos de memoria externos. Las instancias Inf1 le permiten implementar aplicaciones de inferencia en tiempo real con latencias prácticamente en tiempo real sin que el ancho de banda se vea afectado.

Soporte para una amplia variedad de modelos de Machine Learning y tipos de datos

Las instancias Inf1 son compatibles con muchas de las arquitecturas de modelos de Machine Learning que se usan comúnmente, como SSD, VGG o ResNext para el reconocimiento y la clasificación de imágenes, así como también Transformer y BERT para el procesamiento y la traducción del lenguaje natural. Asimismo, la compatibilidad con el repositorio de modelos Hugging Face en Neuron permite que los clientes puedan compilar y ejecutar inferencias con modelos ya entrenados, o incluso perfeccionados, de forma fácil. Para ello, basta con cambiar una única línea del código. Admite múltiples tipos de datos, como BF16 y FP16, con precisión combinada para una amplia gama de modelos y necesidades de rendimiento.

Características

Con tecnología de AWS Inferentia

AWS Inferentia es un chip personalizado de aprendizaje automático creado por AWS con el fin de ofrecer un alto rendimiento a un costo bajo. Cada chip de AWS Inferentia brinda hasta 128 TOPS (billones de operaciones por segundo) de rendimiento, y admite tipos de datos FP16, BF16 y INT8. Los chips de AWS Inferentia también cuentan con una gran cantidad de memoria en chip que se puede utilizar para detectar grandes modelos; esto es particularmente beneficioso para los modelos que requieren un acceso frecuente a la memoria.

El kit de desarrollo de software (SDK) de AWS Neuron consta de un compilador, un controlador de tiempo de ejecución y herramientas de generación de perfiles. Esto permite la implementación de modelos de redes neuronales complejas, creados y entrenados en marcos populares, como TensorFlow, PyTorch y MXNet, para que se ejecuten con instancias Inf1. Con la canalización de NeuronCore de Neuron, puede dividir grandes modelos para la ejecución mediante múltiples chips de Inferentia con interconexión chip a chip física de alta velocidad, de manera que consigue una inferencia de alto rendimiento y un costo más bajo por inferencia.

Redes y almacenamiento de alto rendimiento

Las instancias Inf1 ofrecen hasta 100 Gbps de procesamiento de red para las aplicaciones que requieren acceso a las redes de alta velocidad. Las tecnologías de última generación Elastic Network Adapter (ENA) y NVM Express (NVMe) proporcionan a las instancias Inf1 interfaces de alto rendimiento y baja latencia para redes y Amazon Elastic Block Store (Amazon EBS).

Creación en el sistema Nitro de AWS

El sistema Nitro de AWS es una amplia colección de bloques funcionales que descargan muchas de las funciones de virtualización tradicionales a hardware y software dedicados para ofrecer alto rendimiento, alta disponibilidad y alta seguridad, al tiempo que reduce la sobrecarga de la virtualización.

Funcionamiento

Cómo utilizar Inf1 y AWS Inferentia

Testimonios de los clientes

SkyWatch
“Incorporamos el aprendizaje automático (ML) en muchos aspectos de Snapchat y el análisis de la innovación en este campo es una prioridad clave. Una vez que nos enteramos de Inferentia, comenzamos a colaborar con AWS a fin de adoptar instancias de Inf1/Inferentia que nos ayudaran con la implementación del aprendizaje automático, incluidos el rendimiento y el costo. Comenzamos con nuestros modelos de recomendación y esperamos adoptar más modelos con las instancias Inf1 en el futuro”.

Nima Khajehnouri, vicepresidente de Ingeniería, Snap Inc.

Anthem
“Autodesk potencia la tecnología cognitiva de nuestro asistente virtual impulsado por IA, Autodesk Virtual Agent (AVA), mediante el uso de Inferentia. AVA responde más de 100 000 preguntas de los clientes al mes aplicando la Natural Language Understanding (NLU, comprensión del lenguaje natural) y técnicas de aprendizaje profundo para extraer el contexto, la intención y el significado de las consultas. Mediante el uso de Inferentia, podemos obtener un rendimiento 4,9 veces mayor que G4dn para nuestros modelos de NLU y esperamos ejecutar más cargas de trabajo en las instancias Inf1 basadas en Inferentia”.

Binghui Ouyang, científica de datos sénior, Autodesk

Sprinklr
“La plataforma de administración de la experiencia del cliente unificada (Unified-CXM) impulsada por la IA de Sprinklr permite a las empresas recopilar y traducir los comentarios de los clientes en tiempo real a través de varios canales en conocimientos procesables, lo que resulta en una resolución proactiva de problemas, desarrollo de productos aumentado, un marketing de contenidos mejorado, un mejor servicio al cliente y mucho más”. Mediante el uso de Amazon EC2 Inf1, pudimos mejorar significativamente el rendimiento de uno de nuestros modelos de procesamiento del lenguaje natural (NLP) y mejorar el rendimiento de uno de nuestros modelos de visión artificial. Esperamos seguir utilizando Amazon EC2 Inf1 para servir mejor a nuestros clientes globales”.

Vasant Srinivasan, vicepresidente sénior de ingeniería de productos en Sprinklr

Anthem
Anthem es una de las principales compañías de seguros de salud del país. Atiende las necesidades de atención médica de más de 40 millones de miembros en docenas de estados. “El mercado de las plataformas digitales de salud sigue creciendo a un ritmo extraordinario. La recopilación de información sobre este mercado es una tarea difícil debido a la gran cantidad de datos de las opiniones de los clientes y a su naturaleza desestructurada. Nuestra aplicación automatiza la generación de conocimientos procesables a partir de las opiniones de los clientes a través de modelos de lenguaje natural de aprendizaje profundo (Transformers). Nuestra aplicación es computacionalmente intensiva y necesita ser implementada de una manera muy eficiente. Implementamos sin problemas nuestra carga de trabajo de inferencia de aprendizaje profundo en las instancias Inf1 de Amazon EC2 impulsadas por el procesador AWS Inferentia. Las nuevas instancias de Inf1 proporcionan 2 veces más rendimiento a las instancias basadas en la GPU y nos permitieron racionalizar nuestras cargas de trabajo de inferencia.”

Numan Laanait, PhD, científico de datos/jefe de IA y Miro Mihaylov, PhD, científico de datos/jefe de IA

Condé Nast
“La cartera global de Condé Nast abarca más de 20 marcas de publicaciones líderes, incluidas Wired, Vogue y Vanity Fair. En unas pocas semanas, nuestro equipo pudo integrar nuestro motor de recomendaciones con los chips de AWS Inferentia. Esta combinación permite múltiples optimizaciones de tiempo de ejecución para modelos de lenguaje natural de última generación en instancias Inf1 de SageMaker. Como resultado, observamos una reducción de costos del 72 % en comparación con las instancias de GPU implementadas anteriormente”.

Paul Fryzel, ingeniero principal, Infraestructura de IA

Asahi Shimbun
“Ciao está realizando una evolución de las cámaras de seguridad convencionales para convertirlas en cámaras de análisis de alto rendimiento, equivalentes a la capacidad del ojo humano. Con nuestra aplicación, se están realizando avances en prevención de desastres, monitoreando las condiciones ambientales usando soluciones de cámara con IA basadas en la nube para alertar de las condiciones antes de que el desastre se produzca. Estas alertas permiten reaccionar a la situación en forma anticipada. Basándose en la detección de objetos,también podemos brindar conocimientos estimando la cantidad de invitados entrantes a partir de videos (sin personal) en tiendas físicas. Ciao Camera adoptó comercialmente instancias Inf1 basadas en AWS Inferentia con 40 % de mejora en el rendimiento de precios con respecto a G4dn con YOLOv4. Esperamos con ansias desarrollar más servicios con Inf1 para aprovechar su eficiencia significativa en los costos”.

Shinji Matsumoto, ingeniero de software, Ciao Inc.

Asahi Shimbun
“El Asahi Shimbun es uno de los periódicos más populares de Japón. Media Lab, establecido como uno de los departamentos de nuestra empresa, tiene las misiones de alcanzar la tecnología más reciente, especialmente la IA y conectarse con tecnologías de avanzada para nuevos negocios. Con el lanzamiento de instancias Inf1 de Amazon EC2 basadas en AWS Inferentia en Tokio, probamos nuestra aplicación de IA de resúmenes de texto basada en PyTorch en estas instancias. Esta aplicación procesa una gran cantidad de texto y genera titulares y oraciones de resumen entrenada con artículos de los últimos 30 años. Con Inferentia, disminuimos los costos por una orden de magnitud a través de instancias basadas en la CPU. Esta drástica reducción en costos nos permitirá implementar nuestros modelos más complejos a escala, que anteriormente se creía que no eran posible desde el punto de vista económico”

Hideaki Tamori, doctor, administrador sénior, Media Lab, The Asahi Shimbun Company

CS Disco
“CS Disco está reinventando la tecnología legal como proveedor líder de soluciones de inteligencia artificial para la detección electrónica, que fueron desarrolladas por abogados para abogados. La IA de Disco acelera la ingrata tarea de analizar terabytes de datos, reduce los tiempos de revisión y mejora la precisión de la revisión al aprovechar los complejos modelos de procesamiento del lenguaje natural, que son costosos y prohibitivos a nivel informático. Disco ha descubierto que las instancias Inf1 basadas en AWS Inferentia reducen el costo de inferencia en la IA de Disco en al menos un 35 % en comparación con las instancias de GPU actuales. Sobre la base de esta experiencia positiva con las instancias Inf1, CS Disco aprovechará las oportunidades para la migración a Inferentia”.

Alan Lockett, director sénior de Investigación de CS Disco

Talroo
“En Talroo, les proporcionamos a nuestros clientes una plataforma impulsada en datos que les permite atraer candidatos para trabajos únicos, de manera que puedan contratar. Estamos constantemente explorando nuevas tecnologías para asegurarnos de ofrecer los mejores productos y servicios a nuestros clientes. Con Inferentia, extraemos información de un corpus de datos de texto para mejorar nuestra tecnología de búsqueda y coincidencia potenciada por IA. Talroo aprovecha las interfaces Instancias Inf1 de Amazon EC2 para crear modelos de comprensión del lenguaje natural de alto nivel de procesamiento con SageMaker. Las pruebas iniciales de Talroo muestran que las instancias inf1 de Amazon EC2 ofrecen una latencia de inferencia un 40 % menor y un rendimiento dos veces más elevado en comparación con las instancias basadas en las GPU G4dn. En base a estos resultados, Talroo espera utilizar instancias Inf1 de Amazon EC2 como parte de su infraestructura de AWS”.

Janet Hu, ingeniero de software, Talroo

Digital Media Professionals (DMP)
“Digital Media Professionals (DMP) proyecta el futuro con una plataforma ZIA™ basada en IA (Inteligencia artificial). Las eficientes tecnologías de clasificación de visión computarizada de DMP se utilizan para desarrollar la comprensión de gran cantidad de datos de imágenes en tiempo real, como la observación de condiciones, la prevención de delitos y de accidentes. Hemos identificado que nuestros modelos de segmentación de imágenes se ejecutan cuatro veces más rápido en instancias Inf1 basadas en AWS Inferentia que en instancias G4 basadas en GPU. Debido a este mayor rendimiento y menor costo, Inferentia nos permite implementar toda la carga de trabajo de nuestra IA, tales como aplicaciones para cámaras de automóviles a escala”.

Hiroyuki Umeda - director y gerente general, Grupo de ventas y Marketing, Digital Media Professionals

Hotpot.ai
Hotpot.ai permite a los no diseñadores crear gráficos atractivos y ayuda a los diseñadores profesionales a automatizar las tareas rutinarias. “Debido a que el aprendizaje automático es el núcleo de nuestra estrategia, nos entusiasmó probar los casos de instancias Inf1 basadas en AWS Inferentia. Descubrimos que las instancias de Inf1 eran fáciles de integrar en nuestra canalización de investigación y desarrollo. Sobre todo, observamos un impresionante aumento del rendimiento en comparación con las instancias basadas en la GPU G4dn. Con nuestro primer modelo, las instancias Inf1 produjeron un 45% más de rendimiento y redujeron el costo por inferencia en casi un 50%. Queremos trabajar en estrecha colaboración con el equipo de AWS para trasladar otros modelos y trasladar la mayor parte de nuestra infraestructura de inferencia de aprendizaje automático a AWS Inferentia”.

Clarence Hu, fundador de Hotpot.ai

SkyWatch
“SkyWatch procesa cientos de billones de píxeles de datos de observación de la Tierra, que se captan desde el espacio todos los días. La adopción de las nuevas instancias Inf1 basadas en AWS Inferentia mediante Amazon SageMaker para la detección de nubes en tiempo real y la puntuación de la calidad de imágenes fue rápida y fácil. Todo fue cuestión de cambiar el tipo de instancia en nuestra configuración de desarrollo. Al cambiar los tipos de instancia a Inf1 basada en Inferentia, mejoramos el rendimiento en un 40 % y redujimos los costos generales en un 23 %. Esto es una gran victoria. No ha permitido reducir los costos operativos generales a la vez que seguimos ofreciendo imágenes satelitales de alta calidad a nuestros clientes, con mínimos gastos generales de ingeniería. Buscamos realizar la transición de todos nuestros procesos de aprendizaje automático por lotes y puntos de enlace de inferencia para usar instancias Inf1 a fin de mejorar aún más la confiabilidad de los datos y la experiencia de los clientes”.

Adler Santos, gerente de ingeniería, SkyWatch

Servicios de Amazon que utilizan instancias Inf1 de Amazon EC2

Amazon Alexa
“La inteligencia basada en IA y ML de Amazon Alexa, con tecnología de Amazon Web Services, está disponible en más de 100 millones de dispositivos hoy en día, y nuestra promesa a los clientes es que Alexa cada vez se hace más inteligente, más conversacional, más proactiva y aún más encantadora. Cumplir esa promesa requiere mejoras continuas en los tiempos de respuesta y en los costos de la infraestructura de machine learning, por lo que nos entusiasma utilizar Inf1 de Amazon EC2 para reducir la latencia de inferencia y el costo por inferencia en la conversión de texto a voz de Alexa. Con Inf1 de Amazon EC2 podremos mejorar aún más el servicio para las decenas de millones de clientes que utilizan Alexa cada mes”.

Tom Taylor, vicepresidente sénior, Amazon Alexa

“Innovamos constantemente para mejorar la experiencia de nuestros clientes y reducir nuestros costos de infraestructura”. Trasladar nuestras cargas de trabajo de respuesta a preguntas basadas en la web (WBQA) de instancias P3 basadas en GPU a instancias Inf1 basadas en AWS Inferentia no solo nos ayudó a reducir los costos de inferencia en un 60 %, sino que también mejoró la latencia de extremo a extremo en más de un 40 %, lo que contribuyó a mejorar la experiencia de preguntas y respuestas de los clientes con Alexa. Utilizar Amazon SageMaker para nuestro modelo basado en Tensorflow hizo que el proceso de cambio a las instancias de Inf1 fuera sencillo y fácil de gestionar. Ahora utilizamos instancias Inf1 a nivel global para ejecutar estas cargas de trabajo de WBQA y optimizamos el rendimiento de estas para AWS Inferentia con el fin de reducir aún más los costos y la latencia”.

Eric Lind, ingeniero de desarrollo de software, Alexa AI.

Amazon Alexa
“Amazon Rekognition es una aplicación simple y fácil de análisis de imágenes y videos que ayuda al cliente a detectar objetos, personas, textos y actividades. Amazon Rekognition necesita una infraestructura de aprendizaje profundo de alto rendimiento que pueda analizar miles de millones de imágenes y videos diariamente para nuestros clientes. Con las instancias Inf1 basadas en AWS Inferentia, la ejecución de modelos de Rekognition, como la clasificación de objetos, dio como resultado una latencia 8 veces menor y el doble de rendimiento que la ejecución de estos modelos en GPU. Con base en estos resultados, estamos pasando Rekognition a Inf1, lo que permite a nuestros clientes obtener resultados precisos más rápido”.
 
Rajneesh Singh, director, SW Engineering, Rekognition y Video

Precios

* Los precios que se muestran son para la región EE. UU. Este (Norte de Virginia) de AWS. Los precios de las instancias reservadas para 1 y 3 años son para las opciones de pago “parcial por adelantado”, y “sin pago por adelantado” para instancias sin la opción de pago parcial.

Las instancias Inf1 de Amazon EC2 se encuentran disponibles en las regiones EE. UU. Este (Norte de Virginia) y EE. UU. Oeste (Oregón) de AWS como instancias bajo demanda, reservadas o de spot.

Introducción

Uso de Amazon SageMaker

Amazon SageMaker facilita la compilación e implementación de su modelo de aprendizaje automático entrenado en producción en las instancias de Amazon Inf1, de manera que puede comenzar a generar predicciones en tiempo real con baja latencia. AWS Neuron, el compilador para AWS Inferentia, se integra con Amazon SageMaker Neo, lo que le permite compilar sus modelos de aprendizaje automático entrenados para ejecutar las instancias Inf1 de manera óptima. Con Amazon SageMaker puede ejecutar fácilmente sus modelos de clústeres de escalado automático de instancias Inf1 distribuidas en varias zonas de disponibilidad para ofrecer inferencia en tiempo real de alto rendimiento y alta disponibilidad. Aprenda cómo implementar Inf1 con Amazon SageMaker mediante los ejemplos en GitHub.

Uso de AMI de aprendizaje profundo de AWS

Las AMI de aprendizaje profundo de AWS (DLAMI) ofrecen a los investigadores y a los profesionales del aprendizaje automático la infraestructura y las herramientas necesarias para agilizar las tareas de aprendizaje profundo en la nube a cualquier escala. El AWS Neuron SDK viene preinstalado en las AMI de AWS Deep Learning para compilar y ejecutar sus modelos de aprendizaje automático en forma óptima en instancias Inf1. Si desea obtener más información orientativa acerca del proceso introductorio, visite la guía de selección de AMI y más recursos sobre aprendizaje profundo. Consulte la guía Introducción a AWS DLAMI para saber cómo usar la DLAMI con Neuron.

Uso de contenedores de aprendizaje profundo

Los desarrolladores ahora pueden implementar instancias Inf1 en Amazon Elastic Kubernetes Service (EKS), que es un servicio Kubernetes completamente administrado, así como en Amazon Elastic Container Service (ECS), que es un servicio de organización de contenedores completamente administrado de Amazon. Conozca más sobre la introducción a Inf1 en Amazon EKS o con Amazon ECS. Hay más detalles disponibles sobre la ejecución de contenedores en instancias Inf1 en la página del Tutorial de herramientas de contenedores de Neuron. Neuron también está disponible de manera preinstalada en los Contenedores de aprendizaje profundo de AWS.