Оценки в Amazon Bedrock

Оценивайте базовые модели, включая пользовательские и импортированные, чтобы находить модели, соответствующие вашим потребностям. Кроме того, можно оценивать извлечение данных или комплексный рабочий процесс RAG в базах знаний Amazon Bedrock.

Обзор

Amazon Bedrock предоставляет инструменты оценки, позволяющие ускорить внедрение приложений на основе генеративного ИИ. Оцените, сравните и выберите базовую модель для своего сценария использования с помощью Оценки модели. Подготовьте к работе приложения RAG, основанные на базах знаний Amazon Bedrock, путем оценки функций извлечения данных либо извлечения и генерации данных.

Снимок экрана пользовательского интерфейса

Виды оценки

Используйте метод LLM-as-a-Judge для оценки выходных данных модели с использованием своих пользовательских наборов текстовых запросов с такими метриками, как правильность, полнота и вредоносность.

Оценивайте выходные данные модели с помощью традиционных алгоритмов и метриках на естественном языке, такие как BERT Score, F1 и другие методы точного сопоставления. Используйте встроенные наборы данных с текстовыми запросами или свои собственные данные.

Оценивайте выходные данные модели вместе со своими сотрудниками или поручите AWS управлять оценкой ответов на пользовательские наборы текстовых запросов с помощью встроенных или пользовательских метрик.

Оценивайте качество данных, извлекаемых из баз знаний Amazon Bedrock с помощью пользовательских текстовых запросов и метрик, таких как релевантность и охват контекста.

Оценивайте генерируемый контент комплексного рабочего процесса RAG с помощью баз знаний Amazon Bedrock на основе пользовательских текстовых запросов и метрик, таких как достоверность, правильность и полнота.

Оценивайте комплексный рабочий процесс RAG в базах знаний Amazon Bedrock

Используйте оценку с извлечением и генерацией данных, чтобы понять, насколько эффективно в приложении работает функция комплексной генерации, дополненной извлеченными данными (RAG). Создайте условия, при которых генерируемый контент будет правильным, полным, будет ограничивать галлюцинации, а также соответствовать принципам ответственного использования ИИ. Просто выберите модель генерации контента и большую языковую модель (LLM), которая будет использоваться в качестве системы оценки с вашими базами знаний Amazon Bedrock, загрузите собственный набор данных с текстовыми запросами и выберите метрики, наиболее важные для оценки.

Снимок экрана пользовательского интерфейса

Извлекайте из баз знаний Amazon Bedrock только полные и релевантные данные

Используйте оценку извлекаемых данных при оценке баз знаний Amazon Bedrock для контроля настроек хранения и извлечения данных в базах знаний Amazon Bedrock. Обеспечьте релевантность полученного контента и его полное соответствие запросу пользователя. Просто выберите базу знаний и большую языковую модель (LLM), которая будет использоваться в качестве системы оценки, загрузите собственный набор данных с текстовыми запросами и выберите метрики, наиболее важные для оценки.

Снимок экрана пользовательского интерфейса

Оцените базовые модели, чтобы выбрать оптимальный вариант

Оценка модели в Amazon Bedrock позволяет использовать автоматические и человеческие оценки, что помогает выбрать оптимальную базовую модель для конкретного варианта использования. Для автоматической (программной) оценки модели используются специализированные и пользовательские наборы данных и заданные метрики, включая точность, устойчивость и токсичность. Для субъективных показателей вы можете использовать Amazon Bedrock, чтобы за несколько быстрых шагов настроить процесс оценки человеком. За счет оценки человеком вы можете использовать собственные наборы данных и определять специальные метрики, такие как релевантность, стиль и соответствие голосу бренда. В рабочих процессах человеческой оценки в качестве экспертов могут использоваться ваши собственные сотрудники. Также для проведения анализа человеком можно привлечь команду под управлением AWS, и тогда AWS наймет квалифицированных экспертов и будет управлять всем рабочим процессом от вашего имени. Также можно использовать функцию LLM-as-a-Judge для высококачественной оценки набора данных на основе таких метрик, как правильность, полнота и достоверность (обнаружение галлюцинаций), а также метрик ответственного использования ИИ, таких как отказ от ответа и опасные последствия ответа.

Снимок экрана пользовательского интерфейса

Сравнивайте результаты нескольких заданий по оценке, чтобы быстрее принимать решения

Используйте при оценке функцию сравнения, чтобы увидеть результаты изменений, внесенных в текстовые запросы, оцениваемые модели или базы знаний в системе RAG.

Снимок экрана пользовательского интерфейса