Оценки в Amazon Bedrock
Оценивайте базовые модели, включая пользовательские и импортированные, чтобы находить модели, соответствующие вашим потребностям. Кроме того, можно оценивать извлечение данных или комплексный рабочий процесс RAG в базах знаний Amazon Bedrock.
Обзор
Amazon Bedrock предоставляет инструменты оценки, позволяющие ускорить внедрение приложений на основе генеративного ИИ. Оцените, сравните и выберите базовую модель для своего сценария использования с помощью Оценки модели. Подготовьте к работе приложения RAG, основанные на базах знаний Amazon Bedrock, путем оценки функций извлечения данных либо извлечения и генерации данных.

Виды оценки
Оценивайте комплексный рабочий процесс RAG в базах знаний Amazon Bedrock
Используйте оценку с извлечением и генерацией данных, чтобы понять, насколько эффективно в приложении работает функция комплексной генерации, дополненной извлеченными данными (RAG). Создайте условия, при которых генерируемый контент будет правильным, полным, будет ограничивать галлюцинации, а также соответствовать принципам ответственного использования ИИ. Просто выберите модель генерации контента и большую языковую модель (LLM), которая будет использоваться в качестве системы оценки с вашими базами знаний Amazon Bedrock, загрузите собственный набор данных с текстовыми запросами и выберите метрики, наиболее важные для оценки.

Извлекайте из баз знаний Amazon Bedrock только полные и релевантные данные
Используйте оценку извлекаемых данных при оценке баз знаний Amazon Bedrock для контроля настроек хранения и извлечения данных в базах знаний Amazon Bedrock. Обеспечьте релевантность полученного контента и его полное соответствие запросу пользователя. Просто выберите базу знаний и большую языковую модель (LLM), которая будет использоваться в качестве системы оценки, загрузите собственный набор данных с текстовыми запросами и выберите метрики, наиболее важные для оценки.

Оцените базовые модели, чтобы выбрать оптимальный вариант
Оценка модели в Amazon Bedrock позволяет использовать автоматические и человеческие оценки, что помогает выбрать оптимальную базовую модель для конкретного варианта использования. Для автоматической (программной) оценки модели используются специализированные и пользовательские наборы данных и заданные метрики, включая точность, устойчивость и токсичность. Для субъективных показателей вы можете использовать Amazon Bedrock, чтобы за несколько быстрых шагов настроить процесс оценки человеком. За счет оценки человеком вы можете использовать собственные наборы данных и определять специальные метрики, такие как релевантность, стиль и соответствие голосу бренда. В рабочих процессах человеческой оценки в качестве экспертов могут использоваться ваши собственные сотрудники. Также для проведения анализа человеком можно привлечь команду под управлением AWS, и тогда AWS наймет квалифицированных экспертов и будет управлять всем рабочим процессом от вашего имени. Также можно использовать функцию LLM-as-a-Judge для высококачественной оценки набора данных на основе таких метрик, как правильность, полнота и достоверность (обнаружение галлюцинаций), а также метрик ответственного использования ИИ, таких как отказ от ответа и опасные последствия ответа.

Сравнивайте результаты нескольких заданий по оценке, чтобы быстрее принимать решения
Используйте при оценке функцию сравнения, чтобы увидеть результаты изменений, внесенных в текстовые запросы, оцениваемые модели или базы знаний в системе RAG.
