AWS Inferentia

Chip de inferencias para aprendizaje automático de alto rendimiento con diseño personalizado de AWS

La visión de AWS es hacer que el aprendizaje profundo sea omnipresente para los desarrolladores cotidianos y democratizar el acceso a la infraestructura de vanguardia disponible en un modelo de uso de bajo costo de pago por uso. AWS Inferentia es el primer componente personalizado de Amazon diseñado para acelerar las cargas de trabajo de aprendizaje profundo y forma parte de una estrategia a largo plazo para cumplir esta visión. AWS Inferentia está diseñado para proporcionar una inferencia de alto rendimiento en la nube, reducir el costo total de la inferencia y facilitar a los desarrolladores la integración del Machine Learning en sus aplicaciones empresariales.

El kit de desarrollo de software (SDK) de AWS Neuron consta de un compilador, tiempo de ejecución y herramientas de generación de perfiles para optimizar el rendimiento de las cargas de trabajo de AWS Inferentia. Los desarrolladores pueden implementar complejos modelos de redes neuronales creados y entrenados en marcos populares, como TensorFlow, PyTorch y MXNet. También pueden implementarlos en instancias Inf1 de Amazon EC2 basadas en AWS Inferentia. Puede seguir usando los mismos marcos de ML que usa actualmente y migrar sus modelos a Inf1 con muy pocos cambios en el código y sin tener que recurrir a soluciones específicas de proveedores.

Amazon Alexa adopta AWS Inferentia para reducir los costos de las inferencias de ML

Beneficios

Alto rendimiento

Cada chip de AWS Inferentia admite hasta 128 TOPS (billones de operaciones por segundo) de rendimiento con hasta 16 chips de Inferentia por instancia EC2 Inf1 de EC2. Inferentia se ha optimizado para maximizar el rendimiento de lotes pequeños, lo que resulta especialmente beneficioso para las aplicaciones que tienen requisitos de latencia estrictos, como la generación y la búsqueda de voz.

Baja latencia

Los chips de AWS Inferentia cuentan con una gran cantidad de memoria en chip, que puede utilizarse para almacenar modelos grandes en caché, en lugar de almacenarlos fuera del chip. Esto tiene un impacto significativo en la reducción de la latencia de inferencia, ya que los núcleos de procesamiento de Inferentia, denominados núcleos de neurona, tienen acceso de alta velocidad a los modelos que están almacenados y no están limitados por el ancho de banda de la memoria fuera del chip.

Facilidad de uso

Los desarrolladores pueden entrenar modelos usando marcos populares, como TensorFlow, PyTorch y MXNet, e implementarlos fácilmente en instancias Inf1 basadas en AWS Inferentia usando el SDK de AWS Neuron. AWS Inferentia admite los tipos de datos FP16, BF16 e INT8. Además, Inferentia puede tomar un modelo entrenado de 32 bits y ejecutarlo automáticamente a la velocidad de un modelo de 16 bits con BFloat16.

Instancias Inf1 de Amazon EC2 powered by AWS Inferentia

Las instancias Inf1 de Amazon EC2 basadas en chips de AWS Inferentia brindan un rendimiento 2,3 veces mayor y un costo hasta un 70 % menor por inferencia en comparación con las instancias Amazon EC2 basadas en GPU. Las instancias Inf1 cuentan con hasta 16 chips de AWS Inferentia, los últimos procesadores personalizados Intel® Xeon® escalables de segunda generación y con redes de hasta 100 Gbps para lograr una inferencia de alto rendimiento. La forma más rápida y fácil de comenzar con las instancias Inf1 es mediante Amazon SageMaker, un servicio completamente administrado que permite a los desarrolladores crear, entrenar e implementar los modelos de aprendizaje automático rápidamente. Los desarrolladores que usan aplicaciones en contenedores también pueden utilizar Amazon Elastic Kubernetes Service (EKS) para implementar instancias Inf1.

Más información »

AWS Neuron SDK

AWS Neuron es un kit de desarrollo de software (SDK) para ejecutar la inferencia de Machine Learning con los chips de AWS Inferentia. Cuenta con un compilador, un tiempo de ejecución y herramientas de generación de perfiles que permiten a los desarrolladores ejecutar inferencia de alto rendimiento y baja latencia con instancias Inf1 de Amazon EC2 basadas en AWS Inferentia. Con Neuron, los desarrolladores pueden entrenar fácilmente modelos de Machine Learning en cualquier marco conocido, como TensorFlow, PyTorch y MXNet, así como para ejecutarlos de forma óptima en instancias Inf1 de EC2. Puede seguir usando los mismos marcos de ML que usa actualmente y migrar su software a instancias Inf1 con muy pocos cambios en el código y sin tener que recurrir a soluciones específicas de proveedores. El SDK de AWS Neuron viene preinstalado en las AMI de AWS Deep Learning, así como en AWS Deep Learning Containers, por lo que es fácil comenzar a usar instancias de Inf1.

Más información » o Comience »

Vídeos

AWS re:Invent 2019: vea la presentación de Andy Jassy sobre la inversión de componentes y Inf1
AWS re:Invent 2019: inferencia de aprendizaje automático con las nuevas instancias Inf1 de Amazon EC2, con Amazon Alexa
Reduzca el costo de ejecución de aplicaciones de aprendizaje automático con las nuevas instancias Inf1 de Amazon EC2 - Presentaciones técnicas en línea de AWS
Sign up for a free account
Regístrese para obtener una cuenta gratuita

Obtenga acceso instantáneo a la capa gratuita de AWS. 

Regístrese 
Standard Product Icons (Start Building) Squid Ink
Comience a crear en la consola

Comience a realizar tareas de aprendizaje automático en la consola de AWS.

Iniciar sesión