Amazon Elastic Inference

Reduzca los costos de inferencia de machine learning hasta en un 75 %

 Actualización importante

Gracias por su interés en Amazon Elastic Inference. Amazon Elastic Inference ya no está disponible para nuevos clientes. Puede obtener un mejor rendimiento a un costo menor para sus cargas de trabajo de inferencia de machine learning si utiliza otras opciones de aceleración de hardware, como AWS Inferentia. Si actualmente utiliza Amazon Elastic Inference, considere migrar su carga de trabajo a estas alternativas. Para obtener más información, visite la página de infraestructura de machine learning de AWS.

Amazon Elastic Inference le permite adjuntar aceleración impulsada por GPU de bajo costo a las instancias Amazon EC2 y SageMaker o tareas de Amazon ECS para reducir el costo de ejecutar la inferencia de aprendizaje profundo hasta un 75 %. Amazon Elastic Inference admite modelos TensorFlow, Apache MXNet, PyTorch y ONNX.

La inferencia es el proceso de predecir con un modelo entrenado. En aplicaciones de aprendizaje profundo, las cuentas de inferencia por hasta un 90 % de costos operativos totales por dos razones. Primero, las instancias de GPU únicas suelen diseñarse para la capacitación del modelo y no para la inferencia. Mientras que un lote de trabajo de formación técnica procesa cientos de muestras de datos en paralelo, los trabajos de inferencias usualmente procesan una sola entrada en tiempo real que consume una pequeña cantidad de cómputo de GPU. Esto hace que la inferencia de GPU independiente sea poco rentable. Por otro lado, las instancias de CPU independientes no se especializan en operaciones con matrices y por lo tanto, suelen ser demasiado lentas para la inferencia de aprendizaje profundo. En segundo lugar, los modelos diferentes tienen distintas CPU, GPU y requisitos de memorias. La optimización para un recurso puede llevar al desaprovechamiento de otros recursos y altos costos.

Amazon Elastic Inference resuelve estos problemas al permitir adjuntar la cantidad correcta de aceleración de inferencia impulsada por GPU a cualquier tipo de instancia EC2 o SageMaker o tarea de ECS sin cambios de código. Con Amazon Elastic Inference, ahora puede elegir el tipo de instancia de CPU en AWS que mejor se adapta a las necesidades generales informáticas y de memoria de su aplicación y, luego, configurar por separado la cantidad de aceleración de inferencia de GPU que necesita para usar los recursos de manera eficiente y reducir los costos.

Beneficios

Reduce los costos de inferencias hasta un 75 %

Amazon Elastic Inference le permite elegir el tipo de instancia que mejor se adapte a las necesidades informáticas y de memoria de su aplicación. Por lo tanto, puede especificar por separado la cantidad de aceleración de inferencia que necesita. Esto reduce los costos de inferencia hasta un 75 % debido a que ya no necesita un sobreaprovisionamiento informático de GPU para la inferencia.

Consiga exactamente lo que necesita

Amazon Elastic Inference puede proporcionar tan poco como un TFLOPS (un millón de billones de operaciones de punto de flotación por segundo) de precisión única para la aceleración de la inferencia o tanto como 32 TFLOPS de precisión combinada. Este es un rango más apropiado de informática de inferencia que un rango de hasta 1000 TFLOPS proporcionado mediante una instancia P3 única de Amazon EC2. Por ejemplo, un modelo simple de procesamiento de idioma quizás no necesite un TFLOPS para ejecutar bien la inferencia, mientras que un modelo sofisticado de visión de computadora quizás necesite hasta 32 TFLOPS.

Responda a los cambios de demanda

Puede fácilmente escalar la cantidad de aceleración de inferencia de forma sencilla usando grupos de Auto Scaling de Amazon EC2 para cumplir con las demandas de su aplicación sin sobreaprovisionar la capacidad. Con EC2 Auto Scaling incrementa su instancia EC2 para cumplir con la demanda creciente, también incrementa de forma automática el acelerador adjunto para cada instancia. De manera similar, cuando reduce sus instancias EC2 a medida que desciende la demanda, también reduce el acelerador adjunto para cada instancia. Esto lo ayuda a pagar solo por lo que necesita y cuando lo necesita.

Compatibilidad con marcos populares

Amazon Elastic Inference admite modelos TensorFlow y Apache MXNet, con marcos de trabajo adicionales próximamente.

Blog: Amazon Elastic Inference – Aceleración de inferencia impulsada por GPU
28 de noviembre de 2018