Amazon SageMaker AI lanza recomendaciones de inferencia de IA generativa optimizadas

Publicado en: 21 de abr de 2026

Amazon SageMaker AI ahora admite las recomendaciones de inferencia, una nueva capacidad que elimina la optimización manual y la evaluación comparativa para ofrecer un rendimiento de inferencia óptimo. Al ofrecer configuraciones de implementación óptimas y validadas con métricas de rendimiento, SageMaker AI acelera el camino hacia la producción y mantiene a los desarrolladores de modelos centrados en crear modelos precisos, no en administrar la infraestructura.

Los clientes aportan sus propios modelos de IA generativa, definen los patrones de tráfico esperados y especifican un objetivo de rendimiento (optimizar los costes, minimizar la latencia o maximizar el rendimiento). A continuación, SageMaker AI analiza la arquitectura del modelo y aplica optimizaciones alineadas con ese objetivo en varios tipos de instancias, comparando cada configuración en una infraestructura de GPU real con NVIDIA AIPerf. Al evaluar varios tipos de instancias, los clientes pueden seleccionar la opción más rentable para su carga de trabajo. El resultado son configuraciones listas para implementar con métricas validadas que incluyen el tiempo hasta el primer token, la latencia entre tokens, los percentiles de latencia de las solicitudes, el rendimiento y las proyecciones de costos.

 La capacidad está disponible actualmente en siete regiones de AWS: este de EE. UU. (norte de Virginia), oeste de EE. UU. (Oregón), este de EE. UU. (Ohio), Asia-Pacífico (Tokio), Europa (Irlanda), Asia-Pacífico (Singapur) y Europa (Fráncfort). Para obtener más información, consulte la documentación de SageMaker AI.