Instancias Inf2 de Amazon EC2

Alto rendimiento al menor costo en Amazon EC2 para la inferencia de IA generativa

Las instancias Inf2 de Amazon Elastic Compute Cloud (Amazon EC2) están diseñadas específicamente para la inferencia de aprendizaje profundo (DL). Ofrecen un alto rendimiento al menor costo en Amazon EC2 para modelos de inteligencia artificial (IA) generativa, incluidos los modelos de lenguaje de gran tamaño (LLM) y los transformadores de visión. Puede usar instancias Inf2 a fin de ejecutar sus aplicaciones de inferencia para resumir texto, generar código, video e imágenes, hacer reconocimiento de voz, personalizar, detectar fraudes, etc.

Las instancias Inf2 funcionan con AWS Inferentia2, el acelerador de AWS Inferentia de segunda generación. Las instancias Inf2 aumentan el rendimiento de Inf1 al ofrecer un rendimiento de computación 3 veces mayor, una memoria aceleradora total 4 veces mayor, un rendimiento hasta 4 veces mayor y una latencia hasta 10 veces menor. Las instancias Inf2 son las primeras instancias optimizadas para la inferencia en Amazon EC2 que admiten la inferencia distribuida a escala con una conectividad de altísima velocidad entre los aceleradores. Ahora puede implementar modelos de manera eficiente y rentable con cientos de miles de millones de parámetros en múltiples aceleradores en instancias Inf2.

El SDK de AWS Neuron ayuda a los desarrolladores a implementar modelos en los aceleradores de AWS Inferentia (y a entrenarlos en los aceleradores de AWS Trainium). Se integra de forma nativa con marcos como PyTorch y TensorFlow, para que pueda continuar usando sus flujos de trabajo existentes y ejecutarlos en instancias Inf2.

Funcionamiento

  • Uso de la DLAMI de AWS
  • Diagrama que muestra el flujo de trabajo para implementar instancias Inf2 de Amazon EC2 mediante la AMI de aprendizaje profundo de AWS (DLAMI).
  • Uso de Amazon EKS
  • Diagrama que muestra el flujo de trabajo para crear clústeres de Kubernetes, implementar instancias Inf2 de Amazon EC2 para los clústeres y ejecutar las aplicaciones de inferencia en Kubernetes.
  • Uso de Amazon ECS
  • Diagrama que muestra el flujo de trabajo para implementar instancias Inf2 de Amazon EC2 mediante contenedores de aprendizaje profundo de AWS con Amazon ECS.
  • Uso de Amazon SageMaker
  • Diagrama que muestra el flujo de trabajo para usar los artefactos del modelo almacenados en un bucket de Amazon S3 y una imagen de contenedor de Amazon ECR con Amazon SageMaker para implementar la inferencia en las instancias Inf2.

Beneficios

Implemente más de 100 000 millones modelos de IA generativa con parámetros a escala

Las instancias Inf2 son las primeras instancias optimizadas para inferencias en Amazon EC2 que admiten la inferencia distribuida a escala. Ahora puede implementar modelos de manera eficiente con cientos de miles de millones de parámetros en varios aceleradores en instancias Inf2 gracias a la conectividad de altísima velocidad entre aceleradores.

Aumento del rendimiento y reducción significativa de los costos de inferencia

Las instancias Inf2 están diseñadas para ofrecer un alto rendimiento al menor costo en Amazon EC2 para los despliegues de aprendizaje profundo. Ofrecen un rendimiento 4 veces mayor y una latencia hasta 10 veces menor que las instancias Inf1 de Amazon EC2. Las instancias Inf2 ofrecen hasta un 40 % más de rendimiento en precio que otras instancias Amazon EC2 comparables.

Compatibilidad con los marcos de trabajo y bibliotecas de ML existentes


Use el SDK de AWS Neuron para extraer todo el rendimiento de las instancias Inf2. Con Neuron, puede usar sus marcos existentes, como PyTorch y TensorFlow, y optimizar el rendimiento listo para usar para modelos de repositorios populares como Hugging Face. Neuron admite integraciones en tiempo de ejecución con herramientas de servicio como TorchServe y TensorFlow Serving. También ayuda a optimizar el rendimiento con herramientas integradas de perfil y depuración, como Neuron-Top, y se integra en herramientas de visualización populares, como TensorBoard.

Cumpla sus objetivos de sostenibilidad con una solución energéticamente eficiente

Las instancias Inf2 ofrecen hasta un 50 % más de rendimiento/vatio que otras instancias de Amazon EC2 comparables. Estas instancias y los aceleradores Inferentia2 subyacentes usan procesos de chips avanzados y optimizaciones de hardware y software para ofrecer una alta eficiencia energética al ejecutar modelos de DL a escala. El uso de instancias Inf2 le permitirá alcanzar sus objetivos de sostenibilidad cuando implemente modelos ultragrandes.

Características

Hasta 2,3 petaFLOPS con AWS Inferentia2

Las instancias Inf2 funcionan con hasta 12 aceleradores de AWS Inferentia2 conectados con NeuronLink de altísima velocidad para comunicaciones colectivas optimizadas. Ofrecen hasta 2,3 petaFLOPS de computación y hasta 4 veces más rendimiento y 10 veces menos latencia que las instancias Inf1.

Hasta 384 GB de memoria aceleradora de gran ancho de banda

Para adaptarse a modelos de DL de gran tamaño, las instancias Inf2 ofrecen hasta 384 GB de memoria aceleradora compartida (32 GB de gran ancho de banda en cada acelerador Inferentia2, 4 veces más grande que Inferentia de primera generación) con 9,8 TB/s de ancho de banda de memoria total (10 veces más rápido que Inferentia de primera generación).

Para una comunicación rápida entre aceleradores, las instancias Inf2 admiten 192 GB/s de NeuronLink, una interconexión sin bloqueo de alta velocidad. Inf2 es la única instancia optimizada para inferencias que ofrece esta interconexión, una característica que solo está disponible en las instancias de entrenamiento más caras. En el caso de los modelos ultragrandes que no caben en un solo acelerador, los datos fluyen directamente entre los aceleradores con NeuronLink, sin pasar por la CPU por completo. Con NeuronLink, Inf2 permite una inferencia distribuida más rápida y mejora el rendimiento y la latencia.

Optimizado para nuevos tipos de datos con transmisión automática

Inferentia2 admite FP32, TF32, BF16, FP16, UINT8 y el nuevo tipo de datos FP8 configurable (cFP8). AWS Neuron toma modelos FP32 y FP16 de alta precisión y los transfiere automáticamente en tipos de datos de menor precisión, a la vez que optimiza la precisión y el rendimiento. La transferencia automática reduce el tiempo de comercialización al eliminar la necesidad de volver a entrenar con menor precisión y permitir una inferencia de mayor rendimiento con tipos de datos más pequeños.

Optimizaciones de DL de última generación

Para respaldar el rápido ritmo de innovación de DL, las instancias Inf2 cuentan con varias innovaciones que las hacen flexibles y ampliables para implementar modelos de DL en constante evolución. Las instancias Inf2 tienen optimizaciones de hardware y soporte de software para formas de entrada dinámicas. Para permitir la compatibilidad con nuevos operadores en el futuro, admiten operadores personalizados escritos en C++. También admiten el redondeo estocástico, un método de redondeo probabilístico que permite un alto rendimiento y una mayor precisión en comparación con los modos de redondeo heredados. 

Detalles del producto

Tamaño de la instancia Aceleradores Inferentia2 Memoria del
acelerador
(GB)
vCPU Memoria
(GiB)
Almacenamiento
local
Interconexión
entre aceleradores
Ancho de banda
de la red
(Gbps)
Ancho de banda
de EBS
(Gbps)
Precio bajo demanda 1 año de instancias reservadas 3 años de instancias reservadas
inf2.xlarge 1 32 4 16 Solo EBS N/D Hasta 15 Hasta 10 0,76 USD 0,45 USD 0,30 USD
inf2.8xlarge 1 32 32 128 Solo EBS N/D Hasta 25 10 1,97 USD 1,81 USD 0,79 USD
inf2.24xlarge 6 192 96 384 Solo EBS 50 30 6,49 USD 3,89 USD 2,60 USD
inf2.48xlarge 12 384 192 768 Solo EBS 100 60 12,98 USD 7,79 USD 5,19 USD

Testimonios de clientes

“Nuestro equipo de Leonardo aprovecha la IA generativa para permitir a los profesionales y entusiastas de la creatividad producir recursos visuales con una calidad, velocidad y consistencia de estilo incomparables. El rendimiento en relación con el precio de AWS Inf2 nos permite reducir nuestros costos en un 80 %, sin sacrificar el rendimiento, cambiando fundamentalmente la propuesta de valor que podemos ofrecer a los clientes, habilitando nuestras características más avanzadas a un punto de precio más accesible. También alivia las preocupaciones sobre el costo y la disponibilidad de capacidad para nuestros servicios auxiliares de IA, que son cada vez más importantes a medida que crecemos y escalamos. Es una tecnología clave para nosotros a medida que continuamos ampliando los límites de lo que es posible con la IA generativa, lo que permite una nueva era de creatividad y poder expresivo para nuestros usuarios”.

Pete Werner, Head of AI, Leonardo.ai
logotipo de Runway
“En Runway, nuestro conjunto de herramientas mágicas de IA permite a nuestros usuarios generar y editar contenido como nunca antes. Estamos ampliando constantemente los límites de lo que es posible con la creación de contenido con IA y, a medida que nuestros modelos de IA se vuelven más complejos, los costos de infraestructura subyacente para ejecutar estos modelos a gran escala pueden llegar a ser caros. Gracias a nuestra colaboración con las instancias Inf2 de Amazon EC2 impulsadas por AWS Inferentia, podemos ejecutar algunos de nuestros modelos con un rendimiento hasta 2 veces mayor que las instancias comparables basadas en GPU. Esta inferencia de alto rendimiento y bajo costo nos permite introducir más características, implementar modelos más complejos y, en última instancia, ofrecer una mejor experiencia a los millones de creadores que utilizan Runway”.

Cristóbal Valenzuela, cofundador y CEO, Runway
Qualtrics

Qualtrics diseña y desarrolla software de administración de experiencias.

“En Qualtrics, nuestro objetivo es crear tecnología que elimine las deficiencias en la experiencia de los clientes, empleados, marcas y productos. Para lograrlo, desarrollamos complejos modelos de aprendizaje profundo multitarea y multimodal para lanzar nuevas características, como la clasificación de textos, etiquetado de secuencias, análisis del discurso, extracción de frases clave, extracción de temas, agrupación y comprensión de conversaciones de principio a fin. A medida que usamos estos modelos más complejos en más aplicaciones, el volumen de datos no estructurados crece y necesitamos soluciones optimizadas para la inferencia que puedan satisfacer estas demandas, como las instancias Inf2, para ofrecer las mejores experiencias a nuestros clientes. Nos entusiasma la llegada de las nuevas instancias Inf2, porque no solo nos permitirán alcanzar mayores rendimientos, al tiempo que reducen drásticamente la latencia, sino que también introducen características como la inferencia distribuida y el soporte mejorado de formas de entrada dinámicas, que nos ayudarán a escalar para satisfacer las necesidades de implementación a medida que avancemos hacia modelos grandes y más complejos”.

Aaron Colak, Head of Core Machine Learning en Qualtrics
Finch Computing

Finch Computing es una empresa de tecnología de lenguaje natural que proporciona aplicaciones de inteligencia artificial para clientes gubernamentales, de servicios financieros y de integración de datos.

“Para satisfacer las necesidades de nuestros clientes de procesamiento del lenguaje natural en tiempo real, desarrollamos modelos de aprendizaje profundo de última generación que se escalan a grandes cargas de trabajo de producción. Tenemos que proporcionar transacciones de baja latencia y lograr altos rendimientos para procesar orígenes de datos globales. Hasta ahora, migramos muchas cargas de trabajo de producción a instancias Inf1 y logramos una reducción del 80 % en el costo con respecto a las GPU. Hoy en día, estamos desarrollando modelos más grandes y complejos que permitan obtener un significado más profundo del texto escrito. Muchos de nuestros clientes necesitan acceder a esta información en tiempo real y el rendimiento de las instancias Inf2 nos ayudará a ofrecer una latencia más baja y un mayor rendimiento en comparación con las instancias Inf1”. Con las mejoras en el rendimiento de Inf2 y las nuevas características de Inf2, como la compatibilidad con tamaños de entrada dinámicos, mejoramos nuestra rentabilidad, elevamos la experiencia del cliente en tiempo real y ayudamos a nuestros clientes a obtener nuevos conocimientos de sus datos”.

Franz Weckesser, Chief Architect en Finch Computing
Logotipo de Money Forward

Money Forward Inc. brinda servicios a empresas e individuos con una plataforma financiera abierta y justa. Como parte de esta plataforma, HiTTO Inc., una empresa del grupo Money Forward, ofrece un servicio de chatbot con IA, que usa modelos de procesamiento de lenguaje natural (NLP) personalizados para abordar las diversas necesidades de sus clientes corporativos.

“Lanzamos un servicio de chatbot con IA a gran escala en las instancias Inf1 de Amazon EC2 y logramos reducir costos y nuestra latencia de inferencia en un 97 % en comparación con las instancias basadas en GPU. Estamos muy satisfechos de ver nuevas mejoras de rendimiento en los resultados de nuestras pruebas iniciales en las instancias Inf2 de Amazon EC2. Con el mismo modelo de NLP personalizado, AWS Inf2 pudo reducir aún más la latencia 10 veces más que Inf1. A medida que avanzamos hacia modelos de parámetros multimillonarios más grandes, Inf2 nos da la confianza de que podemos seguir ofreciendo a nuestros clientes una experiencia de usuario integral superior”.

Takuya Nakade, CTO, Money Forward Inc.
Logotipo de Fileread.ai
“En Fileread.ai, estamos creando soluciones para que el interactuar con sus documentos sea tan fácil como el hacerles preguntas, lo que permitirá a los usuarios encontrar lo que buscan entre todos sus documentos y obtener la información correcta más rápidamente. Desde que cambiamos a la nueva instancia Inf2 de EC2, hemos observado una mejora significativa en nuestras capacidades de inferencia de NLP. El ahorro de costos por sí solo ha supuesto un punto de inflexión para nosotros, ya que nos ha permitido asignar los recursos de manera más eficiente sin sacrificar la calidad. Redujimos la latencia de las inferencias en un 33 % y, al mismo tiempo, aumentamos el rendimiento en un 50 %, lo que permitió a nuestros clientes ofrecer plazos de entrega más rápidos. Nuestro equipo ha quedado impresionado por la velocidad y el rendimiento de Inf2 en comparación con las instancias G5 más antiguas, y está claro que este es el futuro con la implementación de modelos de NLP”.

Daniel Hu, CEO, Fileread
Logotipo de Yaraku
“En Yaraku, nuestra misión es crear una infraestructura que ayude a las personas a comunicarse sin barreras lingüísticas. Nuestro producto estrella, YarakuZen, permite a cualquier persona, desde traductores profesionales hasta personas monolingües, traducir y poseditar textos y documentos con confianza. Para respaldar este proceso, ofrecemos una amplia gama de herramientas sofisticadas basadas en modelos de aprendizaje profundo, que abarcan tareas como traducción, alineación de palabras bitexto, segmentación de oraciones, modelado del lenguaje y muchas otras. Al usar las instancias Inf1, hemos podido acelerar nuestros servicios para satisfacer la creciente demanda y, al mismo tiempo, reducir el costo de inferencia en más de un 50 % en comparación con las instancias basadas en GPU. Ahora estamos avanzando en el desarrollo de modelos más grandes de próxima generación que requerirán las capacidades mejoradas de las instancias Inf2 para satisfacer la demanda y, al mismo tiempo, mantener una latencia baja. Con Inf2, podremos escalar verticalmente nuestros modelos 10 veces y, al mismo tiempo, mantener un rendimiento similar, lo que nos permitirá ofrecer niveles de calidad aún más altos a nuestros clientes”.

Giovanni Giacomo, NLP Lead, Yaraku

Testimonios de los socios de AWS

logotipo de Hugging Face
“La misión de Hugging Face es democratizar el buen ML para ayudar a los desarrolladores de ML de todo el mundo a resolver problemas del mundo real. Y la clave para ello es garantizar que los mejores y más recientes modelos se ejecuten de la manera más rápida y eficiente posible en los mejores aceleradores de ML de la nube. Estamos muy entusiasmados con la posibilidad de que Inferentia2 se convierta en la nueva forma estándar de implementar modelos de IA generativa a escala. Con Inf1, obtuvimos un costo hasta un 70 % menor al de las instancias tradicionales basadas en GPU, y con Inf2 hemos visto una latencia hasta 8 veces menor en los transformadores tipo BERT en comparación con Inferentia1. Con Inferentia2, nuestra comunidad podrá escalar fácilmente este rendimiento a LLM a una escala de más de 100 000 millones de parámetros, y también a los últimos modelos de difusión y visión artificial”.  
logotipo de PyTorch
“PyTorch acelera el camino desde la creación de prototipos de investigación hasta las implementaciones de producción para los desarrolladores de ML. Hemos colaborado con el equipo de AWS para proporcionar soporte nativo con PyTorch para las nuevas instancias Inf2 de Amazon EC2 con tecnología de AWS Inferentia2. Puesto que más miembros de nuestra comunidad buscan implementar grandes modelos de IA generativa, nos complace asociarnos con el equipo de AWS para optimizar la inferencia distribuida en las instancias de Inf2 con la conectividad de NeuronLink de alta velocidad entre aceleradores. Con Inf2, los desarrolladores que usan PyTorch ahora pueden implementar fácilmente modelos de transformadores de visión y LLM ultragrandes. Además, las instancias Inf2 aportan otras capacidades innovadoras a los desarrolladores de PyTorch, como tipos de datos eficientes, formas dinámicas, operadores personalizados y un redondeo estocástico optimizado para el hardware, lo que las hace ideales para una amplia adopción por parte de la comunidad de PyTorch”. 
Logotipo de Weight & Biases
“Weights & Biases (W&B) proporciona herramientas de desarrollo para que los ingenieros de ML y los científicos de datos puedan crear mejores modelos con mayor rapidez. La plataforma de W&B proporciona a los profesionales del ML una amplia variedad de conocimientos para mejorar el rendimiento de los modelos, incluido el uso de la infraestructura de computación subyacente. Hemos colaborado con el equipo de AWS para agregar compatibilidad para Amazon Trainium e Inferentia2 a nuestro panel de métricas del sistema, lo que proporciona datos valiosos que se necesitan durante la experimentación con modelos y el entrenamiento de estos. Esto permite a los profesionales del ML optimizar sus modelos para aprovechar al máximo el hardware específico de AWS para entrenar sus modelos más rápido y a un menor costo”.

Phil Gurbacki, VP of Product, Weights & Biases
Logotipo de OctoML
“OctoML ayuda a los desarrolladores a reducir los costos y a crear aplicaciones de IA escalables al empaquetar sus modelos de DL para que se ejecuten en un hardware de alto rendimiento. Hemos pasado los últimos años acumulando experiencia en las mejores soluciones de software y hardware, e integrándolas en nuestra plataforma. Nuestras raíces como diseñadores de chips y hackers de sistemas hacen que AWS Trainium e Inferentia sean aún más interesantes para nosotros. Consideramos que estos aceleradores son un factor clave para el futuro de la innovación de la IA en la nube. El lanzamiento de las instancias Inf2 en GA es especialmente oportuno, ya que estamos viendo el surgimiento del popular LLM como un componente clave de las aplicaciones de IA de próxima generación. Estamos muy contentos de poder ofrecer estas instancias en nuestra plataforma para ayudar a los desarrolladores a aprovechar fácilmente su alto rendimiento y el ahorro de costos”.
 
Jared Roesch, CTO y cofundador, OctoML
Logotipo de OctoML
“El desafío histórico de LLM y, en términos más generales, de las aplicaciones de IA generativa de nivel empresarial son los costos asociados con el entrenamiento y la ejecución de modelos de aprendizaje continuo de alto rendimiento. Junto con AWS Trainium, AWS Inferentia2 elimina los compromisos financieros a los que se enfrentan nuestros clientes cuando necesitan un entreno de alto rendimiento. Ahora, nuestros clientes que buscan ventajas en el entreno y la inferencia pueden lograr mejores resultados por menos dinero. Trainium e Inferentia aceleran la escalabilidad para cumplir incluso los requisitos de aprendizaje continuo más exigentes de las empresas más grandes de la actualidad. Muchos clientes de Nextira que ejecutan grandes cargas de trabajo de IA se beneficiarán directamente de estos nuevos chipsets, lo que aumentará la eficiencia en el ahorro de costos y el rendimiento y generará resultados más rápidos en su mercado”.

Jason Cutrer, fundador y CEO, Nextira

Servicios de Amazon que utilizan instancias Inf2 de Amazon EC2

logotipo de Amazon

Amazon CodeWhisperer es un complemento de codificación de IA que genera recomendaciones de código de una sola línea o de funciones completas en tiempo real en su entorno de desarrollo integrado (IDE) para que pueda crear software rápidamente.

“Con CodeWhisperer, mejoramos la productividad de los desarrolladores de software, pues proporcionamos recomendaciones de código mediante modelos de IA generativos. Para desarrollar recomendaciones de código altamente eficaces, escalamos nuestra red de DL a miles de millones de parámetros. Nuestros clientes necesitan recomendaciones de código en tiempo real mientras escriben, por lo que las respuestas de baja latencia son fundamentales. Los modelos de IA generativa de gran tamaño requieren una computación de alto rendimiento para ofrecer tiempos de respuesta en una fracción de segundo. Con Inf2, conseguimos la misma latencia que al ejecutar CodeWhisperer en instancias de GPU optimizadas para el entrenamiento de grandes secuencias de entrada y salida. Por lo tanto, las instancias de Inf2 nos ayudan a ahorrar costos y energía, a la vez que ofrecen la mejor experiencia posible a los desarrolladores”.  

Doug Seven, director general de Amazon CodeWhisperer

logotipo de Amazon

El motor de búsqueda de productos de Amazon indexa miles de millones de productos, resuelve una infinidad de consultas de clientes diarias y es uno de los servicios más usados a nivel mundial.

“Estoy muy entusiasmado con el lanzamiento de Inf2 en GA. El rendimiento superior de Inf2, junto con su capacidad para gestionar modelos más grandes con miles de millones de parámetros, hace que sea la elección perfecta para nuestros servicios y nos permite abrir nuevas posibilidades en términos de complejidad y precisión de los modelos. Con la importante aceleración y la rentabilidad que ofrece Inf2, su integración en la infraestructura de servicios de Amazon Search puede ayudarnos a satisfacer las crecientes demandas de nuestros clientes. Estamos planificando potenciar nuestras nuevas experiencias de compra mediante LLM generativos con Inf2”. 

Trishul Chilimbi, vicepresidente, Amazon Search

Introducción

Uso de Amazon SageMaker

Implemente modelos en instancias Inf2 con mayor facilidad con Amazon SageMaker, reduzca significativamente los costos de implementación de modelos de ML y aumente el rendimiento sin necesidad de administrar la infraestructura. SageMaker es un servicio completamente administrado que se integra con las herramientas de MLOps. Por lo tanto, puede escalar la implementación de sus modelos, administrar los modelos de forma más eficaz en producción y reducir la carga operativa.

Uso de las AMI de aprendizaje profundo de AWS

Las AMI de aprendizaje profundo de AWS (DLAMI) ofrecen a los investigadores y profesionales de ML la infraestructura y las herramientas necesarias para agilizar las tareas de aprendizaje profundo en la nube a cualquier escala. Los controladores AWS Neuron vienen preconfigurados en la DLAMI para implementar sus modelos de DL de manera óptima en las instancias de Inf2.

Uso de contenedores de aprendizaje profundo de AWS

Ahora puede implementar instancias Inf2 en Amazon Elastic Kubernetes Service (Amazon EKS), que es un servicio de Kubernetes completamente administrado, así como en Amazon Elastic Container Service (Amazon ECS), que es un servicio de orquestación de contenedores completamente administrado. Neuron también está disponible de manera preinstalada en los contenedores de aprendizaje profundo de AWS. Para obtener más información sobre cómo ejecutar contenedores en instancias Inf2, consulte lostutoriales sobre contenedores de Neuron.

Regístrese para obtener una cuenta de AWS

Regístrese para obtener una cuenta de AWS

Obtenga acceso instantáneo a la capa gratuita de AWS.

Aprenda con tutoriales sencillos

Aprenda con tutoriales de 10 minutos

Explore y aprenda con tutoriales sencillos.

Comience a crear con EC2 en la consola

Comience a crear en la consola

Comience a crear soluciones con las guías paso a paso, que lo ayudarán a lanzar un proyecto en AWS.