Amazon Bedrock presenta los niveles de servicio de inferencia Priority y Flex

Publicado en: 18 de nov de 2025

Hoy, Amazon Bedrock presenta dos nuevos niveles de servicio de inferencia para optimizar los costos y el rendimiento de las diferentes cargas de trabajo de IA. El nuevo nivel Flex ofrece precios rentables para aplicaciones que no son críticas en cuanto al tiempo, como las evaluaciones de modelos y el resumen de contenido, mientras que el nivel Priority ofrece un rendimiento superior y un procesamiento preferencial para las aplicaciones esenciales. En la mayoría de los modelos compatibles con el nivel prioritario, los clientes pueden obtener hasta un 25 % mayor rendimiento de tokens por segundo (OTPS) en comparación con el nivel estándar. Estos se unen al nivel Estándar existente para las aplicaciones de IA diarias con un rendimiento confiable.

Estos niveles de servicio abordan los desafíos clave a los que se enfrentan las organizaciones al implementar la IA a escala. El nivel Flex está diseñado para cargas de trabajo no interactivas que pueden tolerar latencias más prolongadas. Esto lo hace ideal para las evaluaciones de modelos, el resumen de contenido, el etiquetado y la anotación y el flujo de trabajo agéntico de varios pasos, y tiene un precio con descuento en comparación con el nivel Estándar. Durante los períodos de alta demanda, las solicitudes de Flex reciben una prioridad más baja en comparación con el nivel Estándar. El nivel Priority es ideal para aplicaciones esenciales, interacciones de usuarios finales en tiempo real y experiencias interactivas donde las respuestas rápidas y consistentes son esenciales. Durante los períodos de alta demanda, las solicitudes de nivel Priority reciben prioridad de procesamiento, a un precio superior, en comparación con otros niveles de servicio. Estos nuevos niveles de servicio ya están disponibles para una gama de modelos fundacionales líderes, incluidos OpenAI (gpt-oss-20b, gpt-oss-120b), DeepSeek (DeepSeek V3.1), Qwen3 (Coder-480B-A35B-Instruct, Coder-30B-A3B-Instruct, 32B dense, Qwen3-235B-A22B-2507) y Amazon Nova (Nova Pro y Nova Premier). Con estas nuevas opciones, Amazon Bedrock ayuda a los clientes a obtener un mayor control a la hora de equilibrar la rentabilidad con los requisitos de rendimiento. Esto les permite escalar las cargas de trabajo de IA de forma económica y, al mismo tiempo, garantizar experiencias de usuario óptimas para sus aplicaciones más críticas.

Para obtener más información sobre las regiones de AWS en las que están disponibles los niveles de servicio de inferencia de Amazon Bedrock Priority y Flex, consulte la tabla de regiones de AWS.

Obtenga más información sobre los niveles de servicio en nuestro blog de noticias y la documentación.