Preguntas frecuentes sobre Amazon Elastic Inference

Aspectos generales

P: ¿Por qué Amazon alienta a los clientes a trasladar las cargas de trabajo de Amazon Elastic Inference (EI) a opciones de aceleración de hardware más nuevas, como AWS Inferentia?

Los clientes obtienen un mejor rendimiento a un precio mucho mejor que Amazon EI con nuevas opciones de aceleradores de hardware, como AWS Inferentia, para sus cargas de trabajo de inferencia. AWS Inferentia se diseñó para proporcionar una inferencia de alto rendimiento en la nube, reducir el costo total de la inferencia y facilitar a los desarrolladores la integración del machine learning en sus aplicaciones empresariales. Para que los clientes puedan beneficiarse de estos aceleradores de hardware de nueva generación, no incorporaremos nuevos clientes a Amazon EI después del 15 de abril de 2023.

P: ¿Qué servicios de AWS se ven afectados por la decisión de dejar de incorporar nuevos clientes a Amazon Elastic Inference (EI)?

Este anuncio afectará a los aceleradores de Amazon EI adjuntos a cualquier instancia de Amazon EC2, Amazon SageMaker o Amazon Elastic Container Service (ECS). En Amazon SageMaker, esto se aplica tanto a los puntos de conexión como a los kernels de los cuadernos que utilizan los aceleradores de Amazon EI.

P: ¿Podré crear un nuevo acelerador de Amazon Elastic Inference (EI) después del 15 de abril de 2023?

No, si es un cliente nuevo y no ha utilizado Amazon EI en los últimos 30 días, no podrá crear una nueva instancia de Amazon EI en su cuenta de AWS después del 15 de abril de 2023. Sin embargo, si ha utilizado un acelerador de Amazon EI al menos una vez en los últimos 30 días, puede adjuntar un nuevo acelerador de Amazon EI a su instancia.

P: Actualmente utilizamos aceleradores de Amazon Elastic Inference (EI). ¿Podremos seguir utilizándolos después del 15 de abril de 2023?

Sí, podrá utilizar los aceleradores de Amazon EI. Le recomendamos que migre las cargas de trabajo de inferencia de ML actuales que se ejecutan en Amazon EI a otras opciones de acelerador de hardware lo antes posible.

P: ¿Cómo puedo evaluar las opciones de instancia alternativas para mis puntos de conexión actuales de Amazon SageMaker Inference?

El recomendador de inferencias de Amazon SageMaker puede ayudarlo a identificar despliegues rentables para migrar las cargas de trabajo existentes desde Amazon Elastic Inference (EI) hacia una instancia de ML adecuada compatible con SageMaker.

P: ¿Cómo cambio el tipo de instancia de mi punto de conexión actual en Amazon SageMaker?

Primero, cree un nuevo EndpointConfig que utilice el nuevo tipo de instancia. Si tiene una política de escalado automático, elimine la política de escalado automático existente.
Llame a UpdateEndpoint mientras especifica su EndpointConfig recién creado.
Espere a que su punto de conexión cambie de estado a InService. Esto tardará entre 10 y 15 minutos aproximadamente.
Por último, si necesita un escalado automático para su nuevo punto de conexión, cree una nueva política de escalado automático para este nuevo punto de conexión y ProductionVariant.

P: ¿Cómo cambio el tipo de instancia de mi instancia de cuaderno de Amazon SageMaker actual mediante Amazon Elastic Inference (EI)?

Haga clic en “Notebook instances” (Instancias de cuaderno) en Console (Consola) y, a continuación, en la instancia de cuaderno que desee actualizar. Asegúrese de que la instancia de cuaderno tenga el estado “Stopped” (Detenida). Por último, puede hacer clic en “Edit” (Editar) y cambiar el tipo de instancia. Cuando se inicie la instancia de cuaderno, asegúrese de seleccionar el kernel correcto para la nueva instancia.

P: ¿Existe algún tipo de instancia específico que sea una buena alternativa a Amazon Elastic Inference (EI)?

Cada carga de trabajo de machine learning es única. Recomendamos utilizar el recomendador de inferencias de Amazon SageMaker para ayudarlo a identificar el tipo de instancia correcto para su carga de trabajo de ML, sus requisitos de rendimiento y su presupuesto. AWS Inferentia, específicamente inf1.xlarge, es la mejor alternativa de alto rendimiento y bajo costo para los clientes de Amazon EI. En la siguiente tabla, comparamos el rendimiento y el precio por hora de las diferentes opciones de aceleradores de Amazon EI en SageMaker con Inferentia. Inferentia ofrece el mejor precio y rendimiento y es más económica por hora que todas las instancias de Amazon EI, suponiendo una instancia de host c5.xlarge (consulte la tabla siguiente). Tenga en cuenta que los modelos se deben compilar primero antes de poder implementarlos en AWS Inferentia. Los clientes de SageMaker pueden usar la configuración “ml_inf” de SageMaker Neo como TargetDevice para compilar sus modelos. Si no utiliza SageMaker, utilice directamente el compilador AWS Neuron.

Los precios que figuran a continuación corresponden a la región us-east-2

Tipo de instancia + inferencia Elastic	Precio de por hora	Costo total de EI por hora	Premium en comparación con AWS Inferentia	Ahorro de costos de Inferentia en comparación con EI	Rendimiento (FP16 TFLOP)	Impr. de rendimiento con Inferentia
ml.c5.xlarge + ml.eia2.medium	0,17 USD	0,37 USD	0,07 USD	19 %	8	8 veces
ml.c5.xlarge + ml.eia1.medium	0,18 USD	0,39 USD	0,09 USD	23 %	8	8 veces
ml.c5.xlarge + ml.eia2.large	0,34 USD	0,54 USD	0,24 USD	44 %	16	4 veces
ml.c5.xlarge + ml.eia1.large	0,36 USD	0,57 USD	0,27 USD	47 %	16	4 veces
ml.c5.xlarge + ml.eia2.xlarge	0,48 USD	0,68 USD	0,38 USD	56 %	32	2 veces
ml.c5.xlarge + ml.eia1.xlarge	0,73 USD	0,93 USD	0,63 USD	68 %	32	2 veces

P: ¿Qué es Amazon Elastic Inference?

R: Amazon Elastic Inference (Amazon EI) es un servicio de computación acelerado que le permite asociar la cantidad correcta de aceleración de inferencia basada en GPU a cualquier tipo de instancia de Amazon EC2 o Amazon SageMaker o tarea de Amazon ECS. Esto significa que ahora puede elegir el tipo de instancia que mejor se adapte a las necesidades generales de informática, memoria y almacenamiento de su aplicación, y luego configurar por separado la cantidad de aceleración de inferencia que necesita.

P: ¿Qué son los aceleradores de inferencia de Amazon Elastic inference?

R: Los aceleradores de inferencia de Amazon Elastic Inference son dispositivos de hardware basados en GPU que están diseñados para funcionar con cualquier tipo de instancia EC2, Sagemaker o tarea de ECS a fin de acelerar las cargas de trabajo de inferencia de aprendizaje profundo a un bajo costo. Cuando lanza una instancia EC2 o una tarea ECS con Amazon Elastic Inference, se proporciona y asocia un acelerador a la instancia a través de la red. Las herramientas y los marcos de aprendizaje profundo, como TensorFlow Serving, Apache MXNet y PyTorch que están habilitados para Amazon Elastic Inference, pueden detectar y descargar automáticamente procesamiento informático modelo al acelerador asociado.

P: ¿Cuál es la diferencia entre los tipos de familia de aceleradores de inferencia de Amazon Elastic Inference?

R: Los aceleradores EIA2 tienen el doble de memoria de GPU que los aceleradores EIA1 equivalentes. Puede determinar las necesidades de memoria de su GPU en función de su modelo y los tamaños de entrada del tensor, y elegir la familia de aceleradores y el tipo adecuados para sus necesidades.

Configuración

P: ¿Cómo aprovisiono aceleradores de Amazon Elastic Inference?

R: Puede configurar puntos de enlace de Amazon SageMaker, instancias de Amazon EC2 o tareas de Amazon ECS con los aceleradores de Amazon Elastic Inference utilizando la consola de administración de AWS, la interfaz de línea de comandos (CLI) de AWS o AWS SDK. Hay dos requisitos para lanzar instancias EC2 con los aceleradores. Primero, deberá aprovisionar un punto de enlace de la VPC a AWS PrivateLink para las subredes cuando planea lanzar aceleradores. En segundo lugar, cuando lanza una instancia, debe proporcionar un rol de instancia con una política que permita a los usuarios acceder a la instancia para conectarse con los aceleradores. Cuando configura una instancia para lanzarla con Amazon EI, se proporciona un acelerador en la misma zona de disponibilidad detrás del punto de enlace de la VPC.

P: ¿Qué formatos modelo admite Amazon Elastic Inference?

R: Amazon Elastic Inference admite modelos entrenados usando modelos TensorFlow, Apache MXNet, PyTorch y ONNX.

P: ¿Puedo implementar modelos en Amazon Elastic Inference mediante marcos TensorFlow, Apache MXNet o PyTorch?

R: Sí, puede usar bibliotecas de TensorFlow Serving, Apache MXNet y PyTorch mejoradas con AWS para implementar modelos y hacer llamadas de inferencia.

P: ¿Cómo obtengo acceso a los marcos optimizados de AWS?

R: Las AMI de aprendizaje profundo de AWS incluyen las últimas versiones de TensorFlow Serving, Apache MXNet y PyTorch que están optimizadas para el uso con los aceleradores de Amazon Elastic Inference. También puede obtener las bibliotecas por medio de Amazon S3 para crear sus propias AMI o imágenes de contenedores. Consulte nuestra documentación en (https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/elastic-inference.html) para obtener más información.

P: ¿Puedo usar CUDA con los aceleradores de Amazon Elastic Inference?

R: No. Solo puede usar las bibliotecas de TensorFlow Serving, Apache MXNet o PyTorch mejoradas con AWS como una interfaz para los aceleradores de Amazon Elastic Inference.

Precios y facturación

P: ¿Cómo se cobra el uso de Amazon Elastic Inference?

R: Con Amazon Elastic Inference, paga solo por las horas de acelerador que usa. Consulte la página de precios para obtener más detalles.

P: ¿Incurriré en cargos por los puntos de enlace de la VPC a AWS PrivateLink para el servicio de Amazon Elastic Inference?

R: No. No se aplican cargos adicionales por los puntos de enlace de la VPC al servicio de Amazon Elastic Inference, siempre que tenga, al menos, una instancia configurada con un acelerador que se esté ejecutando en una zona de disponibilidad donde se aprovisiona un punto de enlace de la VPC.