Características de Amazon Elastic Inference

Actualización importante

Gracias por su interés en Amazon Elastic Inference. Amazon Elastic Inference ya no está disponible para nuevos clientes. Puede obtener un mejor rendimiento a un costo menor para sus cargas de trabajo de inferencia de machine learning si utiliza otras opciones de aceleración de hardware, como AWS Inferentia. Si actualmente utiliza Amazon Elastic Inference, considere migrar su carga de trabajo a estas alternativas. Para obtener más información, visite la página de infraestructura de machine learning de AWS.

Amazon Elastic Inference le permite asociar la cantidad correcta de aceleración de inferencia basada en GPU a cualquier instancia de Amazon EC2, instancia de Amazon SageMaker o tarea de ECS. Esto significa que ahora puede elegir la instancia de CPU que mejor se adapte a las necesidades generales de capacidad informática, memoria y almacenamiento de su aplicación y luego configurar por separado la cantidad de aceleración de inferencia con tecnología de GPU que necesita.

Se integra en Amazon SageMaker, Amazon EC2 y Amazon ECS

Existen varias maneras de ejecutar cargas de trabajo de inferencia en AWS: implementar un modelo en Amazon SageMaker para lograr una experiencia completamente administrada, o ejecutarlo en instancias de Amazon EC2 o tareas de Amazon ECS y hacerse cargo de la administración. Como Amazon Elastic Inference se integra correctamente en Amazon SageMaker, Amazon EC2 y Amazon ECS, puede agregar aceleración de inferencia en todos los casos. Puede especificar la cantidad deseada de aceleración de inferencia al momento de crear el punto de enlace de HTTPS de su modelo en Amazon SageMaker, cuando inicia su instancia de Amazon EC2 y cuando define su tarea de Amazon ECS.

Compatibilidad con TensorFlow, Apache MXNet y PyTorch

Amazon Elastic Inference se diseñó para utilizarse con las versiones optimizadas de TensorFlow Serving, Apache MXNet y PyTorch de AWS. Estas optimizaciones permiten que los marcos detecten automáticamente la presencia de aceleradores de inferencia, distribuyan las operaciones de modelos de manera óptima entre la GPU del acelerador y la CPU de la instancia y controlen de forma segura el acceso a los aceleradores mediante el uso de políticas de AWS Identity and Access Management (IAM). Como las bibliotecas optimizadas para TensorFlow Serving, MXNet y PyTorch se ofrecen de manera automática en Amazon SageMaker, en las AMI de aprendizaje profundo de AWS y AWS Deep Learning Containers, no debe realizar ninguna modificación en el código para poder implementar los modelos en producción. Puede seguir las instrucciones que se suministran aquí para descargarlas de manera independiente.

Compatibilidad con el formato abierto de intercambio de redes neuronales (ONNX)

ONNX es un formato abierto que permite entrenar un modelo en un marco de aprendizaje profundo y luego transferirlo a otro para fines de inferencia. Esta posibilidad le permite aprovechar las fortalezas de marcos diferentes. ONNX se integra en PyTorch, MXNet, Chainer, Caffe2 y Microsoft Cognitive Toolkit, y existen conectores para muchos otros marcos, incluido TensorFlow. Para poder usar los modelos en formato ONNX con Amazon Elastic Inference, los modelos entrenados deben transferirse a la versión de AWS optimizada para Apache MXNet a fin de realizar una implementación en producción.

Selección de operaciones de precisión sencilla o combinada

Los aceleradores de Amazon Elastic Inference admiten tanto operaciones de precisión sencilla (punto flotante de 32 bits) como operaciones de precisión combinada (punto flotante de 16 bits). La precisión sencilla suministra un intervalo numérico extremadamente amplio para representar los parámetros que utiliza su modelo. Sin embargo, la mayoría de los modelos en realidad no necesita ese nivel de precisión y el cálculo de números tan amplios genera una pérdida innecesaria de rendimiento. Para evitar dicho problema, las operaciones de precisión combinada le permiten reducir el intervalo numérico a la mitad para lograr un rendimiento de inferencia 8 veces mayor.

Disponibilidad en varias cantidades de aceleración

Amazon Elastic Inference se encuentra disponible en varios niveles de procesamiento que van de 1 a 32 billones de operaciones de punto flotante por segundo (TFLOPS) por acelerador, lo que lo transforma en un servicio eficiente para la aceleración de una amplia gama de modelos de inferencia, como visión artificial, procesamiento de lenguaje natural y reconocimiento de habla. A diferencia de las instancias P3 de Amazon EC2 que comienzan en 125 TFLOPS (la instancia P3 más pequeña disponible), Amazon Elastic Inference empieza en un único TFLOPS por acelerador. Esto le permite ajustar la escala de la aceleración de inferencia en incrementos más acordes. También puede seleccionar tamaños de aceleradores más grandes, de hasta 32 TFLOPS por acelerador, para modelos de mayor complejidad.

Escalado automático

Amazon Elastic Inference puede formar parte del mismo grupo de Auto Scaling de Amazon EC2 que utilice para ajustar la escala de las instancias de Amazon SageMaker, Amazon EC2 y Amazon ECS. Cuando Auto Scaling de EC2 agregue más instancias EC2 para satisfacer las demandas de su aplicación, también ajustará la escala del acelerador asociado a cada instancia. De manera similar, cuando Auto Scaling reduzca sus instancias EC2 a medida que descienda el nivel de la demanda, también reducirá el acelerador asociado para cada instancia. Este proceso facilita el ajuste de escala de la aceleración de inferencia junto con la capacidad informática de su aplicación a los fines de satisfacer las demandas de su aplicación.