AWS Inferentia

Chip de inferencias para aprendizaje automático de alto rendimiento con diseño personalizado de AWS

La demanda de aceleración del aprendizaje profundo crece a un ritmo rápido y en una amplia gama de aplicaciones. Las aplicaciones como las recomendaciones de búsqueda personalizadas, los precios dinámicos o el servicio de atención al cliente automatizado crecen en sofisticación y se vuelven más caras de ejecutar en producción. A medida que más aplicaciones incorporan capacidades de aprendizaje automático, un mayor porcentaje de las cargas de trabajo necesita aceleración, incluidas las que necesitan un rendimiento en tiempo real de baja latencia. Estas aplicaciones se benefician de la infraestructura optimizada para ejecutar algoritmos de aprendizaje automático.

La visión de AWS es hacer que el aprendizaje profundo sea omnipresente para los desarrolladores cotidianos y democratizar el acceso al hardware de vanguardia disponible en un modelo de uso de bajo costo de pago por uso. AWS Inferentia es un gran paso y compromiso que nos ayudará a cumplir esta visión. AWS Inferentia está diseñado para proporcionar un alto rendimiento de inferencia en la nube, reducir el costo total de la inferencia y facilitarle la integración del aprendizaje automático como parte de las características y capacidades de su aplicación estándar.

AWS Inferentia

Beneficios

Alto rendimiento

Cada chip de AWS Inferentia admite hasta 128 TOPS (billones de operaciones por segundo) de rendimiento a baja potencia para permitir múltiples chips por instancia EC2. AWS Inferentia admite los tipos de datos FP16, BF16 e INT8. Además, Inferentia puede tomar un modelo entrenado de 32 bits y ejecutarlo a la velocidad de un modelo de 16 bits con BFloat16.

Baja latencia

Los chips de AWS Inferentia cuentan con una gran cantidad de memoria en chip, que puede utilizarse para almacenar modelos grandes en caché y así eliminar la necesidad de almacenarlos fuera del chip. Esto tiene un impacto significativo en la reducción de la latencia de inferencia ya que los núcleos de procesamiento de Inferentia, los núcleos de neurona, tienen acceso de alta velocidad a los modelos y no están limitados por el ancho de banda de la memoria fuera del chip.

Facilidad de uso

AWS Inferentia viene con el kit de desarrollo de software (SDK) de AWS Neuron que permite la ejecución de modelos complejos de redes neuronales, creados y entrenados en marcos populares mediante instancias Inf1 de EC2 basadas en AWS Inferentia. Neuron consta de un compilador, tiempo de ejecución y herramientas de creación de perfiles, y está preintegrado en marcos de aprendizaje automático populares, incluidos TensorFlow, Pytorch y MXNet para ofrecer un rendimiento óptimo de las instancias Inf1 de EC2.

Product-Page_Standard-Icons_02_Sign-Up_SqInk
Inscríbase para obtener una cuenta gratuita

Obtenga acceso instantáneo a la capa gratuita de AWS. 

Regístrese 
Product-Page_Standard-Icons_03_Start-Building_SqInk
Comience a crear en la consola

Comience a realizar tareas de aprendizaje automático en la consola de AWS.

Iniciar sesión