Оценки Amazon Bedrock AgentCore теперь общедоступны
Оценки Amazon Bedrock AgentCore теперь общедоступны и обеспечивают автоматическую оценку качества агентов ИИ. Оценки позволяют разработчикам отслеживать качество агентов путем непрерывной оценки производственного трафика, проверять изменения с помощью рабочих процессов тестирования и измерять эффективность агентов по сравнению с определенными ожиданиями. Оценки AgentCore предлагают два типа оценки. Онлайн-оценка постоянно отслеживает эффективность агентов в производственной среде путем выборки и оценки трассировок реально выполненных запросов. Оценка по запросу позволяет командам тестировать агенты программно, поддерживая регрессионное тестирование в конвейерах CI/CD и интерактивных рабочих процессах разработки.
Команды могут оценивать агенты с помощью 13 встроенных анализаторов на предмет качества реагирования, безопасности, выполнения задач и использования инструментов. Разработчики также могут использовать Ground Truth для оценки производительности агентов в сравнении с ожиданиями, включая справочные ответы для проверки реагирования, поведенческие утверждения для целей на уровне сеанса и ожидаемые последовательности выполнения инструментов. В соответствии с требованиями конкретного домена команды могут настроить собственные оценщики, используя выбранные ими текстовые запросы и модель для оценки на основе LLM, или реализовать собственную логику на Python или JavaScript с помощью функций Lambda для оценки на основе кода. Оценки интегрируются с Наблюдаемостью AgentCore для унифицированного мониторинга и оповещений в реальном времени.
Платформа AgentCore Evaluations доступна в девяти регионах AWS: Восток США (Северная Вирджиния, Огайо), Запад США (Орегон), Азиатско-Тихоокеанский регион (Мумбаи, Сингапур, Сидней, Токио) и Европа (Ирландия, Франкфурт).
Узнайте больше об Оценках Amazon Bedrock AgentCore из документации и начните работу с набором инструментов AgentCore Starter