Оценки в Amazon Bedrock

Оценивайте базовые модели, включая пользовательские и импортированные, чтобы находить модели, соответствующие вашим потребностям. Кроме того, можно оценивать извлечение данных или комплексный рабочий процесс RAG в базах знаний Amazon Bedrock.

Обзор

Amazon Bedrock предоставляет инструменты оценки, позволяющие ускорить внедрение приложений на основе генеративного ИИ. Оцените, сравните и выберите базовую модель для своего сценария использования с помощью Оценки модели. Подготовьте к работе приложения RAG, основанные на базах знаний Amazon Bedrock, путем оценки функций извлечения данных либо извлечения и генерации данных.

Снимок экрана пользовательского интерфейса

Виды оценки

Модели: LLM-as-a-Judge

Используйте метод LLM-as-a-Judge для оценки выходных данных модели с использованием своих пользовательских наборов текстовых запросов с такими метриками, как правильность, полнота и вредоносность.

Модели: программные

Оценивайте выходные данные модели с помощью традиционных алгоритмов и метриках на естественном языке, такие как BERT Score, F1 и другие методы точного сопоставления. Используйте встроенные наборы данных с текстовыми запросами или свои собственные данные.

Модели: с участием человека

Оценивайте выходные данные модели вместе со своими сотрудниками или поручите AWS управлять оценкой ответов на пользовательские наборы текстовых запросов с помощью встроенных или пользовательских метрик.

Базы знаний: извлечение данных с помощью RAG

Оценивайте качество данных, извлекаемых из баз знаний Amazon Bedrock с помощью пользовательских текстовых запросов и метрик, таких как релевантность и охват контекста.

Базы знаний: извлечение и генерация данных с помощью RAG

Оценивайте генерируемый контент комплексного рабочего процесса RAG с помощью баз знаний Amazon Bedrock на основе пользовательских текстовых запросов и метрик, таких как достоверность, правильность и полнота.

Оценивайте комплексный рабочий процесс RAG в базах знаний Amazon Bedrock

Используйте оценку с извлечением и генерацией данных, чтобы понять, насколько эффективно в приложении работает функция комплексной генерации, дополненной извлеченными данными (RAG). Создайте условия, при которых генерируемый контент будет правильным, полным, будет ограничивать галлюцинации, а также соответствовать принципам ответственного использования ИИ. Просто выберите модель генерации контента и большую языковую модель (LLM), которая будет использоваться в качестве системы оценки с вашими базами знаний Amazon Bedrock, загрузите собственный набор данных с текстовыми запросами и выберите метрики, наиболее важные для оценки.

Извлекайте из баз знаний Amazon Bedrock только полные и релевантные данные

Используйте оценку извлекаемых данных при оценке баз знаний Amazon Bedrock для контроля настроек хранения и извлечения данных в базах знаний Amazon Bedrock. Обеспечьте релевантность полученного контента и его полное соответствие запросу пользователя. Просто выберите базу знаний и большую языковую модель (LLM), которая будет использоваться в качестве системы оценки, загрузите собственный набор данных с текстовыми запросами и выберите метрики, наиболее важные для оценки.

Оцените базовые модели, чтобы выбрать оптимальный вариант

Оценка модели в Amazon Bedrock позволяет использовать автоматические и человеческие оценки, что помогает выбрать оптимальную базовую модель для конкретного варианта использования. Для автоматической (программной) оценки модели используются специализированные и пользовательские наборы данных и заданные метрики, включая точность, устойчивость и токсичность. Для субъективных показателей вы можете использовать Amazon Bedrock, чтобы за несколько быстрых шагов настроить процесс оценки человеком. За счет оценки человеком вы можете использовать собственные наборы данных и определять специальные метрики, такие как релевантность, стиль и соответствие голосу бренда. В рабочих процессах человеческой оценки в качестве экспертов могут использоваться ваши собственные сотрудники. Также для проведения анализа человеком можно привлечь команду под управлением AWS, и тогда AWS наймет квалифицированных экспертов и будет управлять всем рабочим процессом от вашего имени. Также можно использовать функцию LLM-as-a-Judge для высококачественной оценки набора данных на основе таких метрик, как правильность, полнота и достоверность (обнаружение галлюцинаций), а также метрик ответственного использования ИИ, таких как отказ от ответа и опасные последствия ответа.

Сравнивайте результаты нескольких заданий по оценке, чтобы быстрее принимать решения

Используйте при оценке функцию сравнения, чтобы увидеть результаты изменений, внесенных в текстовые запросы, оцениваемые модели или базы знаний в системе RAG.

Начало работы

Блог

Базы знаний Amazon Bedrock теперь поддерживают оценку RAG (предварительная версия)

Читать блог

Блог

Оценка модели Amazon Bedrock теперь включает функцию LLM-as-a-judge (предварительная версия)

Читать блог

Блог

Узнайте, как оценивать модели для вашего варианта использования

Читать блог

Оценки в Amazon Bedrock

Обзор

Виды оценки

Модели: LLM-as-a-Judge

Модели: программные

Модели: с участием человека

Базы знаний: извлечение данных с помощью RAG

Базы знаний: извлечение и генерация данных с помощью RAG

Оценивайте комплексный рабочий процесс RAG в базах знаний Amazon Bedrock

Извлекайте из баз знаний Amazon Bedrock только полные и релевантные данные

Оцените базовые модели, чтобы выбрать оптимальный вариант

Сравнивайте результаты нескольких заданий по оценке, чтобы быстрее принимать решения

Начало работы

Базы знаний Amazon Bedrock теперь поддерживают оценку RAG (предварительная версия)

Оценка модели Amazon Bedrock теперь включает функцию LLM-as-a-judge (предварительная версия)

Узнайте, как оценивать модели для вашего варианта использования

Прекращение поддержки Internet Explorer