Instancias Inf1 de Amazon EC2

Alto rendimiento y la inferencia de aprendizaje automático más económica en la nube

Los negocios de una gran variedad de sectores recurren al aprendizaje automático para abordar los casos de uso, como ofrecer recomendaciones de compra personalizadas, mejorar la moderación del contenido en línea y optimizar la interacción con el cliente a través de los chatbots conscientes del contexto. Sin embargo, a medida que los modelos de aprendizaje automático se hacen más capaces, también se tornan más complejos. Esto impulsa la necesidad de computar lo que conduce a un aumento de costos. En muchos casos, hasta el 90 % de la infraestructura gastada para desarrollar y ejecutar una aplicación de aprendizaje automático está en inferencia, lo que hace que sea crítica la necesidad de contar con una infraestructura de inferencia de aprendizaje automático rentable y de alto rendimiento.

Las instancias Inf1 de Amazon EC2 ofrezcan un rendimiento hasta un 30 % mayor y un costo por inferencia hasta un 45 % menor por inferencia en comparación con las instancias G4 de Amazon EC2, que eran las instancias de menor costo para la inferencia de aprendizaje automático en la nube. Las instancias de Inf1 se crean desde cero para admitir las aplicaciones de inferencia de aprendizaje automático. Estas instancias ofrecen hasta 16 chips de AWS Inferentia, chips de inferencia de aprendizaje automático de alto rendimiento diseñados y creados por AWS. Además, las instancias Inf1 incluyen los últimos procesadores Intel® Xeon® escalables de segunda generación y con redes de hasta 100 Gbps para lograr una inferencia de alto rendimiento. Con las instancias Inf1, los clientes pueden ejecutar aplicaciones de inferencia de aprendizaje automático a gran escala, como la recomendación, la visión computarizada, el reconocimiento de voz, el procesamiento de lenguaje natural, la personalización y la detección de fraudes, al costo más bajo en la nube.

Los desarrolladores pueden implementar sus modelos de aprendizaje automático en instancias de Inf1 utilizando AWS Neuron SDK, que se integra con marcos de aprendizaje automático populares tales como TensorFlow, PyTorch y MXNet. Consta de un compilador, un tiempo de ejecución y herramientas de perfiles para optimizar el rendimiento de inferencia en AWS Inferentia. La forma más rápida y fácil de comenzar con las instancias Inf1 es mediante Amazon SageMaker, un servicio completamente administrado que permite a los desarrolladores crear, entrenar e implementar los modelos de aprendizaje automático rápidamente. Los desarrolladores que prefieren administrar sus plataformas de desarrollo de las aplicaciones de aprendizaje automático, pueden comenzar ya sea lanzando instancias Inf1 con AMI de AWS Deep Learning AMI, que incluyen el Neuron SDK, o utilizan instancias Inf1 a través de Amazon Elastic Kubernetes Service (EKS) o Amazon Elastic Container Service (ECS) para aplicaciones de aprendizaje automático en contenedores.

SiteMerch-EC2-Instances_accelerated-trial_2up

Prueba gratuita: hasta 10 000 USD en créditos de AWS para EC2 Hardware Accelerated Instances, ideal para aplicaciones de gráficos, ML y HPC.

Haga clic aquí para solicitarla 
Instancias Inf1 de Amazon EC2 basadas en AWS Inferentia (2:51)

Beneficios

Costo hasta un 45 % menor por inferencia

El alto rendimiento de las instancias Inf1 posibilita la disminución del costo por inferencia en la nube. El costo por inferencia es hasta un 45 % menor con respecto a las instancias G4 de Amazon EC2, que eran las instancias de menor costo para la inferencia de aprendizaje automático en la nube hasta el momento. Esto genera importantes ahorros en los costos, ya que la inferencia de aprendizaje automático representa hasta el 90 % de los costos operativos a la hora de ejecutar las cargas de trabajo de aprendizaje automático.

Rendimiento hasta un 30 % más elevado

Las instancias Inf1 ofrecen un rendimiento hasta un 30 % mayor para las aplicaciones de inferencia por lotes en comparación con las instancias G4 de Amazon EC2. Las aplicaciones de inferencia por lotes, como el etiquetado de fotos, son susceptibles al rendimiento de las inferencias o a la cantidad de inferencias que se pueden procesar por segundo. Se optimizan las instancias Inf1 a fin de proporcionar un alto rendimiento para pequeños lotes, que es crítico para aplicaciones que tienen requisitos de tiempo de respuesta estrictos. Cada instancia Inf1 tiene entre 1 y 16 chips de AWS Inferentia, por lo que pueden aumentar el rendimiento hasta 2000 teraoperaciones por segundo (TOPS).

Latencia extremadamente baja

Las instancias Inf1 ofrecen latencia baja para aplicaciones en tiempo real. Las aplicaciones de inferencia en tiempo real, como la generación y búsqueda de voz, deben generar inferencias rápidamente en respuesta a la entrada de un usuario y dependen de la latencia de la inferencia. La memoria de gran tamaño en los chips de AWS Inferentia que se utilizan en las instancias Inf1 permite almacenar en caché modelos de aprendizaje automático directamente en el chip. Esto elimina la necesidad de acceder a recursos de memoria externos durante la inferencia, lo que permite una baja latencia sin afectar el ancho de banda.

Inferencia de aprendizaje automático para una amplia gama de casos de uso

Los desarrolladores pueden aprovechar el alto rendimiento, la baja latencia y la inferencia de bajo costo con las instancias Inf1 para una amplia gama de aplicaciones de aprendizaje automático aplicables en diversos segmentos verticales de negocio incluido análisis de imagen y video, agentes conversación, detección de fraude, pronóstico financiero, automatización de la sanidad, motores de recomendación, análisis de texto y transcripción.

Facilidad de uso y portabilidad del código

Dado que el Neuron SDK está integrado con marcos de aprendizaje automático comunes tales como TensorFlow y PyTorch, los desarrolladores pueden implementar sus modelos existentes en instancias EC2 Inf1 con mínimos cambios en el código. Esto les da la libertad de seguir usando el marco de aprendizaje automático que ellos prefieran, elegir la plataforma informática que mejor se adapte a sus requisitos de relación entre precio y rendimiento, y aprovechar las últimas tecnologías sin estar limitados a las bibliotecas de software específicas del proveedor.

Soporte para diferentes modelos de aprendizaje automático y tipos de datos

Dado que las instancias Inf1 usan AWS Neuron, son compatibles con muchos de los modelos de aprendizaje automático que se usan comúnmente, como el detector de disparo único (SSD) o ResNet para el reconocimiento y la clasificación de imágenes, así como también Transformer y BERT para el procesamiento y la traducción del lenguaje natural. Admite múltiples tipos de datos que incluyen INT8, BF16 y FP16, con precisión combinada para una amplia gama de modelos y necesidades de rendimiento.

Características

Con tecnología de AWS Inferentia

AWS Inferentia es un chip personalizado de aprendizaje automático creado por AWS con el fin de ofrecer un alto rendimiento a un costo bajo. Cada chip de AWS Inferentia brinda hasta 128 TOPS (billones de operaciones por segundo) de rendimiento, y admite tipos de datos FP16, BF16 y INT8. Los chips de AWS Inferentia también cuentan con una gran cantidad de memoria en chip que se puede utilizar para detectar grandes modelos; esto es particularmente beneficioso para los modelos que requieren un acceso frecuente a la memoria.

El kit de desarrollo de software (SDK) de AWS Neuron consta de un compilador, tiempo de ejecución y herramientas de generación de perfiles. Esto permite la ejecución de modelos de redes neuronales complejas, creados y entrenados en marcos populares, como TensorFlow, PyTorch y MXNet, para que se ejecuten con instancias Inf1. AWS Neuron también es compatible con la capacidad de dividir grandes modelos para la ejecución mediante múltiples chips de Inferentia con interconexión chip a chip física de alta velocidad, de manera que entrega rendimiento de alta inferencia y costos de baja inferencia.

Redes y almacenamiento de alto rendimiento

Las instancias Inf1 ofrecen hasta 100 Gbps de procesamiento de red para las aplicaciones que requieren acceso a las redes de alta velocidad. Las tecnologías de última generación Elastic Network Adapter (ENA) y NVM Express (NVMe) proporcionan a las instancias Inf1 interfaces de alto rendimiento y baja latencia para redes y Amazon Elastic Block Store (Amazon EBS).

Creación en el sistema Nitro de AWS

El sistema Nitro de AWS es una amplia colección de bloques funcionales que descargan muchas de las funciones de virtualización tradicionales a hardware y software dedicados para ofrecer alto rendimiento, alta disponibilidad y alta seguridad, al tiempo que reduce la sobrecarga de la virtualización.

Funcionamiento

Cómo utilizar Inf1 y AWS Inferentia

Testimonios de clientes

Anthem
Anthem es una de las principales compañías de beneficios de salud del país, que atiende las necesidades de atención médica de más de 40 millones de miembros en docenas de estados. “El mercado de las plataformas digitales de salud sigue creciendo a un ritmo extraordinario. La recopilación de información sobre este mercado es una tarea difícil debido a la gran cantidad de datos de las opiniones de los clientes y a su naturaleza desestructurada. Nuestra aplicación automatiza la generación de conocimientos procesables a partir de las opiniones de los clientes a través de modelos de lenguaje natural de aprendizaje profundo (Transformers). Nuestra aplicación es computacionalmente intensiva y necesita ser implementada de una manera muy eficiente. Implementamos sin problemas nuestra carga de trabajo de inferencia de aprendizaje profundo en las instancias Inf1 de Amazon EC2 impulsadas por el procesador AWS Inferentia. Las nuevas instancias de Inf1 proporcionan 2 veces más rendimiento a las instancias basadas en la GPU y nos permitieron racionalizar nuestras cargas de trabajo de inferencia.”

Numan Laanait, PhD, científico de datos/jefe de IA y Miro Mihaylov, PhD, científico de datos/jefe de IA

Condé Nast
“La cartera global de Condé Nast abarca más de 20 marcas de publicaciones líderes, incluidas Wired, Vogue y Vanity Fair. En unas pocas semanas, nuestro equipo pudo integrar nuestro motor de recomendaciones con los chips de AWS Inferentia. Esta combinación permite múltiples optimizaciones de tiempo de ejecución para modelos de lenguaje natural de última generación en instancias Inf1 de SageMaker. Como resultado, observamos una mejora en el rendimiento de una reducción del costo del 72 % en comparación con las instancias de GPU implementadas anteriormente”.

Paul Fryzel, ingeniero principal, Infraestructura de IA

Asahi Shimbun
“El Asahi Shimbun es uno de los periódicos más populares de Japón. Media Lab, establecido como uno de los departamentos de nuestra empresa, tiene las misiones de alcanzar la tecnología más reciente, especialmente la IA y conectarse con tecnologías de avanzada para nuevos negocios. Con el lanzamiento de instancias inf1 de Amazon EC2 basadas en AWS Inferentia en Tokio, probamos nuestra aplicación de IA de resúmenes de texto basada en PyTorch en estas instancias. Esta aplicación procesa una gran cantidad de texto y genera titulares y oraciones de resumen entrenada con artículos de los últimos 30 años. Con Inferentia, disminuimos los costos por una orden de magnitud a través de instancias basadas en la CPU. Esta drástica reducción en costos nos permitirá implementar nuestros modelos más complejos a escala, que anteriormente se creía que no eran posible desde el punto de vista económico”

Hideaki Tamori, doctor, administrador sénior, Media Lab, The Asahi Shimbun Company

CS Disco
“CS Disco está reinventando la tecnología legal como proveedor líder de soluciones de inteligencia artificial para la detección electrónica, que fueron desarrolladas por abogados para abogados. La ICA de Disco acelera la ingrata tarea de analizar terabytes de datos, reduce los tiempos de revisión y mejora la precisión de la revisión al aprovechar los complejos modelos de procesamiento del lenguaje natural, que son costosos y prohibitivos a nivel informático. Disco ha descubierto que las instancias Inf1 basadas en AWS Inferentia reducen el costo de inferencia en la IA de Disco en al menos un 35 % en comparación con las instancias de GPU actuales. Sobre la base de esta experiencia positiva con las instancias Inf1, CS Disco aprovechará las oportunidades para la migración a Inferentia”.

Alan Lockett, director sénior de Investigación de CS Disco

Talroo
“En Talroo, les proporcionamos a nuestros clientes una plataforma impulsada en datos que les permite atraer candidatos para trabajos únicos, de manera que puedan contratar. Estamos constantemente explorando nuevas tecnologías para asegurarnos de ofrecer los mejores productos y servicios a nuestros clientes. Con Inferentia, extraemos información de un corpus de datos de texto para mejorar nuestra tecnología de búsqueda y coincidencia potenciada por IA. Talroo aprovecha las interfaces Instancias inf1 de Amazon EC2 para crear modelos de comprensión del lenguaje natural de alto nivel de procesamiento con SageMaker. Las pruebas iniciales de Talroo muestran que las instancias inf1 de Amazon EC2 ofrecen una latencia de inferencia un 40 % menor y un rendimiento dos veces más elevado en comparación con las instancias basadas en las GPU G4dn. En base a estos resultados, Talroo espera utilizar instancias Inf1 de Amazon EC2 como parte de su infraestructura de AWS”.

Janet Hu, ingeniero de software, Talroo

Digital Media Professionals (DMP)
Digital Media Professionals (DMP) proyecta el futuro con una plataforma ZIA en tiempo real basada en la IA (Inteligencia Artificial). Las eficientes tecnologías de clasificación de visión computarizada de DMP se utilizan para construir una visión de gran cantidad de datos de imágenes en tiempo real, como la observación de condiciones, la prevención de delitos y la prevención de accidentes. Estamos evaluando activamente las instancias de Inf1 sobre opciones alternativas, ya que creemos que Inferentia nos dará el rendimiento y la estructura de costos que necesitamos para implementar nuestras aplicaciones de IA a escala.” 

Hiroyuki Umeda, director y gerente general, Grupo de Ventas y Marketing, Digital Media Professionals

Hotpot.ai
Hotpot.ai permite a los no diseñadores crear gráficos atractivos y ayuda a los diseñadores profesionales a automatizar las tareas rutinarias. “Debido a que el aprendizaje automático es el núcleo de nuestra estrategia, nos entusiasmó probar los casos de instancias Inf1 basadas en AWS Inferentia. Descubrimos que las instancias de Inf1 eran fáciles de integrar en nuestra canalización de investigación y desarrollo. Sobre todo, observamos un impresionante aumento del rendimiento en comparación con las instancias basadas en la GPU G4dn. Con nuestro primer modelo, las instancias Inf1 produjeron un 45% más de rendimiento y redujeron el costo por inferencia en casi un 50%. Queremos trabajar en estrecha colaboración con el equipo de AWS para trasladar otros modelos y trasladar la mayor parte de nuestra infraestructura de inferencia de aprendizaje automático a AWS Inferentia”.

Clarence Hu, fundador de Hotpot.ai

INGA
“La misión de INGA es crear soluciones avanzadas de resúmenes de texto basadas en tecnologías de aprendizaje profundo e inteligencia artificial que se puedan integrar fácilmente en las canalizaciones comerciales actuales. Creemos que los resúmenes de texto serán esenciales para ayudar a que los negocios deriven información significativa a partir de los datos. Rápidamente aumentamos las instancias Inf1 de Amazon EC2 basadas en AWS Inferentia y se las integra a nuestro canal de desarrollo. El impacto fue inmediato y significativo. Las instancias Inf1 brindan un alto rendimiento, lo que nos permite mejorar la eficiencia y la efectividad de nuestros canales de modelos de inferencia. Hemos experimentado un rendimiento 4 veces superior y listo para usar, y un costo un 30 % más bajo de los canales en general en comparación con nuestro anterior canal basado en GPU”.

Yaroslav Shakula, jefe de desarrollo comercial de INGA Technologies

SkyWatch
“SkyWatch procesa cientos de billones de píxeles de datos de observación de la Tierra, que se captan del espacio todos los días. La adopción de las nuevas instancias Inf1 basadas en AWS Inferentia mediante Amazon SageMaker para la detección de nubes en tiempo real y la puntuación de la calidad de imágenes fue rápida y fácil. Todo fue cuestión de cambiar el tipo de instancia en nuestra configuración de desarrollo. Al cambiar los tipos de instancia a Inf1 basada en Inferentia, mejoramos el rendimiento en un 40 % y redujimos los costos generales en un 23 %. Esto es una gran victoria. No ha permitido reducir los costos operativos generales a la vez que seguimos ofreciendo imágenes satelitales de alta calidad a nuestros clientes, con mínimos gastos generales de ingeniería. Buscamos realizar la transición de todos nuestros procesos de aprendizaje automático por lotes y puntos de enlace de inferencia para usar instancias Inf1 a fin de mejorar aún más la confiabilidad de los datos y la experiencia de los clientes”.

Adler Santos, gerente de ingeniería, SkyWatch

Servicios de Amazon que utilizan instancias Inf1 de Amazon EC2

Amazon Alexa

Se han vendido más de 100 millones de dispositivos Alexa en todo el mundo, y los clientes también han dejado más de 400 000 reseñas de 5 estrellas para los dispositivos Echo en Amazon. “La inteligencia de inteligencia artificial y aprendizaje automático de Alexa de Amazon, con tecnología Amazon Web Services, está disponible en más de 100 millones de dispositivos en la actualidad; y nuestra promesa a los clientes es que Alexa se tornará cada vez más inteligente, más conversadora, más proactiva e incluso más encantadora”, dijo Tom Taylor, vicepresidente sénior de Amazon Alexa. “Para cumplir con esa promesa se requieren mejoras continuas en los tiempos de respuesta y los costos de infraestructura del aprendizaje automático, por lo que nos emociona usar Inf1 de Amazon EC2 para la latencia de menor inferencia y el costo por inferencia en la conversión de texto a voz de Alexa. Con Inf1 de Amazon EC2, podremos realizar un servicio aún mejor para las decenas de millones de clientes que usan Alexa cada mes”.

Precios

* Los precios que se muestran son para la región EE. UU. Este (Norte de Virginia) de AWS. Los precios de las instancias reservadas para 1 y 3 años son para las opciones de pago “parcial por adelantado”, y “sin pago por adelantado” para instancias sin la opción de pago parcial.

Las instancias Inf1 de Amazon EC2 se encuentran disponibles en las regiones EE. UU. Este (Norte de Virginia) y EE. UU. Oeste (Oregón) de AWS como instancias bajo demanda, reservadas o de spot.

Introducción

Uso de Amazon SageMaker

Amazon SageMaker facilita la compilación e implementación de su modelo de aprendizaje automático entrenado en producción en las instancias de Amazon Inf1, de manera que puede comenzar a generar predicciones en tiempo real con baja latencia. AWS Neuron, el compilador para AWS Inferentia, se integra con Amazon SageMaker Neo, lo que le permite compilar sus modelos de aprendizaje automático entrenados para ejecutar las instancias Inf1 de manera óptima. Con Amazon SageMaker puede ejecutar fácilmente sus modelos de clústeres de escalado automático de instancias Inf1 distribuidas en varias zonas de disponibilidad para ofrecer inferencia en tiempo real de alto rendimiento y alta disponibilidad. Aprenda cómo implementar Inf1 con Amazon SageMaker mediante los ejemplos en Github.

Uso de AMI de aprendizaje profundo de AWS

Las AMI de aprendizaje profundo de AWS (DLAMI) ofrecen a los investigadores y a los profesionales del aprendizaje automático la infraestructura y las herramientas necesarias para agilizar las tareas de aprendizaje profundo en la nube a cualquier escala. El AWS Neuron SDK viene preinstalado en las AMI de AWS Deep Learning para compilar y ejecutar sus modelos de aprendizaje automático en forma óptima en instancias Inf1. Si desea obtener más información orientativa acerca del proceso introductorio, visite la guía de selección de AMI y más recursos sobre aprendizaje profundo. Consulte la guía Introducción a AWS DLAMI para saber cómo usar la DLAMI con Neuron.

Uso de contenedores de aprendizaje profundo

Los desarrolladores ahora pueden implementar instancias Inf1 en Amazon Elastic Kubernetes Service (EKS), que es un servicio Kubernetes completamente administrado, así como en Amazon Elastic Container Service (ECS), que es un servicio de organización de contenedores completamente administrado de Amazon. Conozca más sobre la introducción de Inf1 en Amazon EKS en este blog. Hay más detalles disponibles sobre la ejecución de contenedores en instancias Inf1 en la página del Tutorial de herramientas de contenedores de Neuron. El soporte de Inf1 para Contenedores de aprendizaje profundo de AWS llegará pronto.