Оценки моделей и RAG в Amazon Bedrock теперь поддерживают пользовательские метрики

Проведено: 17 апр. 2025 г.

Оценки Amazon Bedrock предназначены для базовых моделей и систем дополненной извлеченными данными генерации (RAG) независимо от места их размещения: Amazon Bedrock, многооблачное или локальное развертывание. В Bedrock доступны человеческие оценки, программные оценки, такие как BERTScore, F1 и другие метрики точного совпадения, а также оценки «LLM-как-эксперт» для моделей и RAG. Для оценки моделей и RAG по методу «LLM-как-эксперт» клиенты могут выбрать встроенную метрику из обширного списка. Среди них корректность, полнота, достоверность (обнаружение галлюцинаций), а также метрики ответственного использования ИИ, такие как отказ в ответе, вредоносность и стереотипность ответа. Однако иногда клиентам нужно определить эти показатели по-другому или создать новые метрики, соответствующие их потребностям. Например, можно определить метрику, оценивающую ответ приложения на соответствие голосу бренда, или же классифицировать ответы по собственной системе категорий.

Теперь в Amazon Bedrock клиенты могут создавать и повторно использовать собственные метрики для оценки моделей и RAG по методу «LLM-как-эксперт». Клиенты могут создавать собственные текстовые запросы для эксперта, определять собственные категориальные или числовые шкалы рейтинга и с помощью встроенных переменных добавлять в запросы информацию из набора данных или ответов GenAI во время выполнения. Все это позволяет полностью настроить поток данных при оценке. Клиентам можно предложить создать новые шаблоны или категории для текстовых запросов эксперту с помощью готовых шаблонов для быстрого запуска. При желании также можно начать с чистого листа.

В качестве первого шага откройте консоль Amazon Bedrock или воспользуйтесь Bedrock API. Подробнее см. в соответствующем руководстве пользователя.