Amazon Bedrock AgentCore lanza capacidades para optimizar el rendimiento de los agentes en versión preliminar
Amazon Bedrock AgentCore lanza recomendaciones y dos formas de validar el rendimiento (evaluaciones por lotes y pruebas A/B). Esto completa el ciclo de observación, evaluación y mejora para los agentes de IA en producción. Hasta ahora, traducir los resultados de la evaluación en mejoras concretas y validadas requería la intervención manual y la intuición del desarrollador, más que un enfoque sistemático. Gracias a las recomendaciones, las evaluaciones por lotes y las pruebas A/B, los desarrolladores ahora tienen las herramientas para actuar en función de las evaluaciones que surjan.
A medida que los modelos evolucionan y el comportamiento de los usuarios cambia, la calidad de los agentes se degrada silenciosamente con el tiempo. La función de recomendaciones analiza los rastros de producción y los resultados de evaluación generados por AgentCore para crear instrucciones de sistema optimizadas y descripciones de herramientas adaptadas a su carga de trabajo específica. A continuación, las evaluaciones por lotes se utilizan para validar las recomendaciones comparándolas con casos de prueba predefinidos. Las pruebas A/B validan aún más esas recomendaciones mediante pruebas A/B controladas comparándolas con conjuntos de pruebas predefinidos o con tráfico de producción en vivo, y se informa de la significación estadística antes de promover cualquier cambio. Todas las recomendaciones requieren su aprobación antes de enviarse. En conjunto, estas capacidades completan el ciclo de mejora del rendimiento de los agentes. Los agentes no solo se ejecutan, sino que mejoran, según sus condiciones.
Puede utilizar las capacidades de optimización en todas las regiones de AWS en las que estén disponibles las evaluaciones de AgentCore. Para obtener más información, consulte la documentación de AgentCore.