¿Qué es la inferencia de Amazon SageMaker?
Amazon SageMaker AI facilita la implementación de modelos de ML, incluidos los modelos fundacionales (FM), para realizar solicitudes de inferencia con la mejor relación precio-rendimiento para cualquier caso de uso. Desde inferencias de baja latencia y alto rendimiento hasta aquellas de larga duración, Amazon SageMaker cubre todas sus necesidades de inferencia. Amazon SageMaker AI es un servicio totalmente administrado que se integra en herramientas de MLOps para permitirle escalar el despliegue de modelos, reducir los costos de inferencia, administrar los modelos de manera más eficiente en producción y reducir la carga operativa.
Beneficios de SageMaker Inference
Amplia gama de opciones de inferencia
Inferencia en tiempo real
Inferencia sin servidor
Inferencia asíncrona
Transformación en lotes
Opciones de inferencia escalables y rentables
Puntos de conexión de un solo modelo
Un modelo en un contenedor alojado en instancias dedicadas o sin servidor para lograr una latencia baja y un alto rendimiento.

Varios modelos en un solo punto de conexión
Aloje varios modelos en la misma instancia para utilizar mejor los aceleradores subyacentes y reducir los costos de implementación hasta en un 50 %. Puede controlar las políticas de escalado de cada FM por separado, lo que facilita la adaptación a los patrones de uso del modelo y, al mismo tiempo, optimiza los costos de infraestructura.

Canalizaciones de inferencia en serie
Varios contenedores que comparten instancias dedicadas y se ejecutan en una secuencia. Puede usar una canalización de inferencia para combinar tareas de ciencia de datos de preprocesamiento, predicciones y posprocesamiento.

Soporte para la mayoría de los marcos de machine learning y servidores modelo
La inferencia de Amazon SageMaker admite algoritmos integrados e imágenes de Docker prediseñadas para algunos de los marcos de machine learning más comunes, como TensorFlow, PyTorch, ONNX y XGBoost. Si ninguna de las imágenes de Docker prediseñadas satisface sus necesidades, puede crear su propio contenedor para usarlo con puntos de enlace multimodelo respaldados por CPU. La inferencia de SageMaker es compatible con los servidores modelo más populares, como TensorFlow Serving, TorchServe, NVIDIA Triton y el servidor multimodelo AWS.
LA IA Amazon SageMaker ofrece contenedores de aprendizaje profundo (DLC), bibliotecas y herramientas especializados para el paralelismo de modelos y la inferencia de modelos grandes (LMI), a fin de ayudarlo a mejorar el rendimiento de los modelos fundamentales. Con estas opciones, puede implementar modelos, incluidos los modelos fundacionales (FM) de forma rápida para prácticamente cualquier caso de uso.





Logre un alto rendimiento de inferencia a bajo costo
Logre un alto rendimiento de inferencia a bajo costo
El nuevo kit de herramientas de optimización de inferencias de Amazon SageMaker AI ofrece un rendimiento aproximadamente dos veces mayor y reduce los costos hasta en un 50 % para los modelos de IA generativa, como Llama 3, Mistral y Mixtral. Por ejemplo, con un modelo Llama 3-70B, puede lograr hasta aproximadamente 2400 tokens/seg en una instancia ml.p5.48xlarge frente a aproximadamente 1200 tokens/seg anteriormente sin ninguna optimización. Puede seleccionar una técnica de optimización de modelos, como la decodificación especulativa, la cuantificación y la compilación, o combinar varias técnicas, aplicarlas a sus modelos, ejecutar puntos de referencia para evaluar el impacto de las técnicas en la calidad de salida y el rendimiento de la inferencia, e implementar modelos con solo unos pocos clics.

Implemente modelos en la infraestructura de mayor rendimiento o utilice sistemas sin servidores
Amazon SageMaker AI ofrece más de 70 tipos de instancias con distintos niveles de procesamiento y memoria, incluidas instancias Inf1 de Amazon EC2 basadas en AWS Inferentia, chips de inferencia de ML de alto rendimiento diseñados y creados por AWS e instancias de GPU como Amazon EC2 G4dn. O bien, elija la inferencia sin servidor de Amazon SageMaker para escalar fácilmente a miles de modelos por punto de conexión, a un rendimiento de millones de transacciones por segundo (TPS) y a latencias de sobrecarga de menos de 10 milisegundos.

Prueba de sombra para validar el rendimiento de los modelos de ML
Amazon SageMaker AI lo ayuda a evaluar un modelo nuevo mediante pruebas de sombra de su rendimiento, que se comparan con el modelo que actualmente despliega SageMaker con solicitudes de inferencia en tiempo real. Las pruebas de sombra ayudan a detectar posibles errores de configuración y problemas de rendimiento antes de que afecten a los usuarios finales. Gracias a SageMaker AI, no es necesario invertir semanas de tiempo en crear su propia infraestructura de pruebas de sombra. Solo tiene que seleccionar un modelo de producción con el que desee realizar pruebas y SageMaker AI desplegará automáticamente el nuevo modelo en modo oculto y enviará una copia de las solicitudes de inferencia recibidas por el modelo de producción al nuevo modelo en tiempo real.

Escalado automático para mayor elasticidad
Puede usar políticas de escalado para escalar automáticamente los recursos informáticos subyacentes a fin de adaptarse a las fluctuaciones en las solicitudes de inferencia. Puede controlar las políticas de escalado para cada modelo de ML por separado para gestionar con facilidad los cambios en el uso del modelo y, al mismo tiempo, optimizar los costos de infraestructura.

Mejora de la latencia y enrutamiento inteligente
Puede reducir la latencia de inferencia de los modelos de ML al enrutar de manera inteligente las nuevas solicitudes de inferencia a las instancias que están disponibles, en lugar de enrutar las solicitudes de manera aleatoria a las instancias que ya están ocupadas atendiendo solicitudes de inferencia, lo que permite lograr una latencia de inferencia un 20 % más baja en promedio.
Reduzca la carga operativa y acelere el tiempo de generación de valor
Alojamiento y administración de modelos totalmente administrados
Al ser un servicio completamente administrado, Amazon SageMaker AI se encarga de configurar y administrar las instancias, las compatibilidades de las versiones de software y las versiones de parches. También proporciona métricas y registros integrados para los puntos de conexión que puede utilizar para supervisar y recibir alertas.

Integración incorporada con las características de MLOps
Las características de despliegue del modelo de Amazon SageMaker AI se integran de forma nativa con las capacidades de MLOps, que incluyen SageMaker Pipelines (automatización y orquestación del flujo de trabajo), SageMaker Projects (CI/CD para ML), SageMaker Feature Store (administración de características), SageMaker Model Registry (catálogo de modelos y artefactos para rastrear el linaje y respaldar los flujos de trabajo de aprobación automatizados), SageMaker Clarify (detección de sesgos) y SageMaker Model Monitor (detección de desviaciones de modelos y conceptos). Como resultado, ya sea que implemente un modelo o decenas de miles, SageMaker AI ayuda a reducir los gastos operativos asociados con el despliegue, escalado y administración de modelos de ML, y, al mismo tiempo, los pone en producción con mayor rapidez.

Clientes
Recursos para SageMaker Inference
Novedades
Total results: 403
- Fecha (de más reciente a más antigua)
-
30/01/2025
-
11/12/2024
-
06/12/2024
-
06/12/2024
-
04/12/2024