Общедоступная возможность оценки моделей Amazon Bedrock с LLM в роли судьи

Проведено: 20 мар. 2025 г.

Оценка модели в Amazon Bedrock теперь поддерживает общедоступную возможность использовать LLM в роли судьи. Оценка модели в Amazon Bedrock позволяет оценивать, сравнивать и выбирать самые подходящие модели для вашего варианта использования. Сервис Bedrock предлагает на выбор несколько больших языковых моделей (LLM), которые можно использовать в роли судьи для оптимального сочетания оценивающих и оцениваемых моделей. Кроме того, можно выбирать различные метрики качества, такие как корректность, полнота, профессиональный стиль и тон, а также метрики ответственного использования ИИ, такие как вредоносность и отказ в выдаче ответа. Оценка возможна для всех доступных моделей Amazon Bedrock, включая бессерверные модели, модели Bedrock Marketplace, совместимые с Converse API, настраиваемые и дистиллированные модели, импортированные модели и модельные маршрутизаторы. Вы также можете сравнивать результаты различных заданий оценки.

*Новые гибкие возможности.* С сегодняшнего дня вы можете проводить оценку любой модели или системы с хостингом где угодно, используя собственные, уже полученные ответы логического вывода, поместив их во входной набор данных текстовых запросов для задания оценки. Эти ответы могут быть получены из модели Amazon Bedrock или из любой модели или приложения с хостингом вне Amazon Bedrock. Таким образом, вызывать модель Amazon Bedrock в задании оценки не требуется и вы можете включить все промежуточные действия приложения в итоговые ответы.

Используя LLM в качестве судьи, можно получить качественную оценку, сравнимую с человеческой, за меньшую стоимость и сэкономить целые недели рабочего времени.

Подробнее см. страницу об оценках в Amazon Bedrock и документацию. Для начала войдите в консоль AWS или воспользуйтесь API-интерфейсами Amazon Bedrock.