Con Amazon Elastic Inference es posible asociar la cantidad correcta de aceleración de inferencia basada en GPU a cualquier tipo de instancia de Amazon EC2 o Amazon SageMaker. Esto significa que ahora puede elegir el tipo de instancia que mejor se adapte a las necesidades generales de capacidad informática, de memoria y almacenamiento de su aplicación, y luego configurar por separado la cantidad de aceleración de inferencia que necesita. 

Se integra en Amazon SageMaker y Amazon EC2

Existen dos maneras de ejecutar cargas de trabajo de inferencia en AWS: implementar un modelo en Amazon SageMaker para lograr una experiencia completamente administrada o ejecutarlo en instancias de Amazon EC2 y hacerse cargo de la administración. Como Amazon Elastic Inference se integra correctamente en Amazon SageMaker y Amazon EC2, puede agregar aceleración de inferencia en ambos casos. Con Amazon SageMaker, puede especificar la cantidad deseada de aceleración de inferencia al momento de crear el punto de enlace de HTTPS de su modelo, y con Amazon EC2, al momento de iniciar la instancia.

Compatibilidad con TensorFlow y Apache MXNet

Amazon Elastic Inference se diseñó para utilizarse con las versiones optimizadas para TensorFlow Serving y Apache MXNet de AWS. Estas optimizaciones permiten que los marcos detecten automáticamente la presencia de aceleradores de inferencia, distribuyan las operaciones de modelos de manera óptima entre la GPU del acelerador y la CPU de la instancia, y controlen de forma segura el acceso a los aceleradores mediante el uso de políticas de AWS Identity and Access Management (IAM). Como las bibliotecas optimizadas para TensorFlow Serving y MXNet se suministran de manera automática en las AMI de aprendizaje profundo de AWS y Amazon SageMaker, no debe realizar ninguna modificación en el código para poder implementar los modelos en producción. Puede seguir las instrucciones que se suministran aquí para descargarlas de manera independiente.

Compatibilidad con el formato abierto de intercambio de redes neuronales (ONNX)

ONNX es un formato abierto que permite entrenar un modelo en un marco de aprendizaje profundo y luego transferirlo a otro para fines de inferencia. Esta posibilidad le permite aprovechar las fortalezas de marcos diferentes. Por ejemplo, con ONNX puede beneficiarse de la flexibilidad de PyTorch para crear y entrenar un modelo y luego transferirlo a Apache MXNet a fin de que pueda ejecutar inferencias de manera eficiente y masiva a escala. ONNX se integra en PyTorch, MXNet, Chainer, Caffe2 y Microsoft Cognitive Toolkit, y existen conectores para muchos otros marcos, incluido TensorFlow. Para poder usar los modelos en formato ONNX con Amazon Elastic Inference, los modelos entrenados deben transferirse a la versión de AWS optimizada para Apache MXNet a fin de realizar una implementación en producción.

Selección de operaciones de precisión sencilla o combinada

Los aceleradores de Amazon Elastic Inference admiten tanto operaciones de precisión sencilla (punto flotante de 32 bits) como operaciones de precisión combinada (punto flotante de 16 bits). La precisión sencilla suministra un intervalo numérico extremadamente amplio para representar los parámetros que utiliza su modelo. Sin embargo, la mayoría de los modelos en realidad no necesita ese nivel de precisión y el cálculo de números tan amplios genera una pérdida innecesaria de rendimiento. Para evitar dicho problema, las operaciones de precisión combinada le permiten reducir el intervalo numérico a la mitad para lograr un rendimiento de inferencia 8 veces mayor.

Disponibilidad en varias cantidades de aceleración

Amazon Elastic Inference se encuentra disponible en varios niveles de procesamiento que van de 1 a 32 billones de operaciones de punto flotante por segundo (TFLOPS) por acelerador, lo que lo transforma en un servicio eficiente para la aceleración de una amplia gama de modelos de inferencia, como visión artificial, procesamiento de lenguaje natural y reconocimiento de habla. A diferencia de las instancias P3 de Amazon EC2 que comienzan en 125 TFLOPS (la instancia P3 más pequeña disponible), Amazon Elastic Inference empieza en un único TFLOPS por acelerador. Esto le permite ajustar la escala de la aceleración de inferencia en incrementos más acordes. También puede seleccionar tamaños de aceleradores más grandes, de hasta 32 TFLOPS por acelerador, para modelos de mayor complejidad.

Escalado automático

Amazon Elastic Inference puede formar parte del mismo grupo de Auto Scaling de Amazon EC2 que utilice para ajustar la escala de las instancias de Amazon EC2 y Amazon SageMaker. Cuando Auto Scaling de EC2 agregue más instancias EC2 para satisfacer las demandas de su aplicación, también ajustará la escala del acelerador asociado a cada instancia. De manera similar, cuando Auto Scaling reduzca sus instancias EC2 a medida que descienda el nivel de la demanda, también reducirá el acelerador asociado para cada instancia. Este proceso facilita el ajuste de escala de la aceleración de inferencia junto con la capacidad informática de su aplicación a los fines de satisfacer las demandas de su aplicación.

Product-Page_Standard-Icons_01_Product-Features_SqInk
Más información sobre los precios del producto

Consulte los precios de Amazon Elastic Inference

Más información 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
Inscríbase para obtener una cuenta gratuita

Obtenga acceso automáticamente a la capa gratuita de AWS. 

Inscribirse 
Product-Page_Standard-Icons_03_Start-Building_SqInk
Comience a crear en la consola

Comience a usar Amazon Elastic Inference en Amazon SageMaker o Amazon EC2.

Iniciar sesión