Что такое генерация с дополненной выборкой?
Генерация с дополненной выборкой (RAG) – это процесс оптимизации выходных данных большой языковой модели, поэтому перед получением ответа обращение идет к надежной базе знаний за пределами источников обучающих данных. Большие языковые модели (LLM) обучаются на огромных объемах данных и используют миллиарды параметров для получения оригинальных результатов для таких задач, как ответы на вопросы, перевод с различных языков и составление предложений. RAG расширяет и без того обширные возможности LLM в определенных доменах или внутренних базах знаний организации без необходимости переобучать модели. Это экономичный подход к улучшению результатов LLM, поэтому он остается актуальным, выверенным и полезным в самых разных условиях.
Почему генерация с дополненной выборкой так важна?
LLM – это ключевая технология искусственного интеллекта, с помощью которой разрабатываются интеллектуальные чат-боты и другие приложения для обработки естественного языка (NLP). Цель в том, чтобы создать ботов, способных отвечать на вопросы пользователей касательно разных тематик, используя перекрестные ссылки на надежные источники знаний. К сожалению, природа технологии LLM вносит непредсказуемость в ответы таких моделей. Кроме того, обучающие данные LLM статичны и накладывают ограничения на объем имеющихся в них знаний.
Ниже перечислены частые трудности при использовании LLM.
- Предоставление ложной информации, когда на вопрос нет ответа.
- Предоставление устаревшей или общей информации, когда пользователь ожидает конкретного ответа касательно текущего положения.
- Создание ответа на основе ненадежных источников.
- Создание неточных ответов из-за использования неправильной терминологии, когда разные учебные источники используют одну и ту же терминологию в разных сферах.
Большая языковая модель – это как новый сотрудник, который не хочет быть в курсе текущих событий, но на все вопросы отвечает с абсолютной уверенностью. К сожалению, такие ответы могут негативно повлиять на доверие пользователей, а это не то, что вы хотели бы получить от своих чат-ботов.
RAG – один из подходов к решению некоторых из этих проблем. Генерация с дополнительной выборкой направляет LLM на надежные и заранее определенные источники знаний. Организации получают больший контроль над текстом, который создает модель, а пользователи понимают, как LLM формирует ответ.
В чем преимущества генерации с дополненной выборкой?
Технология RAG дает несколько преимуществ в работе организации над генеративным искусственным интеллектом.
Экономически эффективное внедрение
Разработка чат-ботов обычно начинается с использования базовой модели. Базовые модели (FM) – это LLM модели с API-доступом, обученные на широком спектре обобщенных и неразмеченных данных. Очень высоки вычислительные и финансовые затраты переобучения FM для работы с информацией, относящейся к конкретной организации или отдельному домену. RAG – это более экономный подход к введению новых данных в LLM. Технология генеративного искусственного интеллекта становится более доступной и удобной в использовании.
Актуальная информация
Даже если исходные источники данных обучения для LLM соответствуют вашим потребностям, сохранить актуальность данных довольно сложно. RAG дает разработчикам уникальную возможность добавлять в генеративные модели новейшие исследования, статистику или новости. Они могут использовать RAG для прямого подключения LLM в режиме реального времени к лентам социальных сетей, новостным сайтам или другим часто обновляемым источникам информации. Так LLM может предоставлять пользователям самую актуальную информацию.
Повышенное доверие пользователей
RAG позволяет LLM, указывая источник, предоставлять точную информацию. Данные, которые создает модель, могут содержать цитаты или ссылки на источники. Пользователи могут сами найти исходные документы, если им требуется более подробная информация или нужно что-то уточнить. Это может повысить доверие к вашему генеративному искусственному интеллекту.
Больше полномочий для разработчиков
Используя RAG, разработчики могут эффективнее тестировать и улучшать свои приложения для чатов. Они могут отслеживать и изменять источники информации, которые поступают в LLM, чтобы адаптировать модель к изменяющимся требованиям или использовать ее для разных задач. Разработчики также могут ограничить поиск конфиденциальной информации различными уровнями авторизации и гарантировать, что LLM будет формировать правильные ответы. Кроме того, они могут устранять неисправности и вносить исправления, если LLM начинает ссылается на неправильные источники данных, отвечая на конкретные вопросы. Организации могут с большей уверенностью применять технологии генеративного искусственного интеллекта в более широком спектре приложений.
Как работает генерация с дополненной выборкой?
Если не использовать RAG, LLM воспринимает данные, вводимые пользователем, и создает ответ, основываясь на информации, которой ее обучили, или на том, что она уже знает. В RAG представлен компонент поиска информации, который использует данные, вводимые пользователем, для первого извлечения информации из нового источника данных. Запрос пользователя и связанная с ним информация передаются в LLM. LLM использует новые знания и учебные данные для создания лучших ответов. Далее представлен обзор этого процесса.
Создание внешних данных
Внешние данные – это новая информация, которая не входит в исходный набор данных для обучения LLM. Она может поступать из нескольких источников данных, в том числе из API, базы данных или репозиториев документов. Данные могут существовать в различных форматах (например, в форме записи данных или длинного текста). Другой метод, который использует искусственный интеллект, – это встраивание языковых моделей, иными словами, представление числовых данных и их хранение в векторной базе данных. Этот процесс создает библиотеку знаний, которую может воспринять генеративный искусственный интеллект.
Получение связанной информации
Следующий шаг – это релевантный поиск. Пользовательский запрос преобразуется в векторы и сопоставляется с векторными базами данных. Рассмотрим пример с умным чат-ботом, который может отвечать на вопросы о кадровых ресурсах организации. Если сотрудник задает вопрос: «Сколько у меня дней ежегодного отпуска?», система будет извлекать документы, регламентирующие предоставление ежегодных отпусков, а также сведения о прошлых отпусках каждого сотрудника. Чат-бот выберет именно эти документы, поскольку они имеют самое непосредственное отношение к тому, что спросил сотрудник. Модель вычислила и установила их релевантность с помощью математических векторных расчетов и представлений.
Добавление подсказки в LLM
На следующем этапе модель RAG дополняет данные или запросы, вводимые пользователем, добавляя соответствующую извлеченную из контекста информацию. Здесь для эффективного общения с LLM используется метод подсказки по цепочке рассуждений. Получая подсказку, большие языковые модели генерируют точный ответ на запрос пользователя.
Обновление внешних данных
Одна из проблем в том, что внешние данные могут устареть. Чтобы сохранять актуальную информацию для поиска, необходимо асинхронно обновлять документы и их встроенное представление. Это можно сделать в реальном времени с помощью автоматизированных процессов или посредством периодической пакетной обработки. В целом это распространенная проблема в аналитике данных, но здесь можно использовать различные аналитические подходы к управлению изменениями.
Далее на схеме показан концепт использования RAG с LLM.
В чем разница между генерацией с дополнительной выборкой и семантическим поиском?
Семантический поиск улучшает результаты RAG для организаций, желающих добавить обширные внешние источники информации в свои приложения LLM. Современные предприятия хранят огромное количество информации (например, руководства, ответы на часто задаваемые вопросы, исследовательские отчеты, инструкции по обслуживанию клиентов и репозитории кадровой документации) в различных системах. При масштабировании поиск нужного контекста сопряжен с большими трудностями и, следовательно, снижается качество данных, которые создает модель.
Технологии семантического поиска позволяют сканировать большие базы данных, которые наполеоны разнородной информацией, и получать более точные сведения. Например, модель может ответить на такой вопрос: «Сколько было потрачено на ремонт оборудования в прошлом году?». Для этого она сопоставляет вопрос с соответствующими документами и создает определенный текст вместо результатов поиска. Затем разработчики могут использовать этот ответ, чтобы предоставить LLM больше контекста.
Решения стандартного поиска или поиска по ключевым словам в RAG дают ограниченные результаты при выполнении задач с привлечением больших объемов знаний. При ручной подготовке данных разработчикам также приходится сталкиваться со встраиванием слов, разбиванием документов и другими сложностями. Напротив, технологии семантического поиска берут на себя всю работу по подготовке базы знаний, поэтому разработчики освобождаются от этой работы. Эти технологии также создают семантически связанные отрывки и слова-токены, упорядоченные по мере их релевантности, что позволяет добиться высокого качества содержимого RAG.
Как AWS может удовлетворить ваши требования к генерации ответа, дополненной результатами поиска?
Amazon Bedrock – это полностью управляемый сервис, включающий большой выбор высокопроизводительных базовых моделей (FM), а также широкий набор возможностей для создания приложений с генеративным ИИ, упрощающих разработку, а также обеспечивающих конфиденциальность и безопасность. С помощью баз знаний для Amazon Bedrock вы можете подключить FM к источникам данных для RAG всего за несколько щелчков. Векторные преобразования, извлечение и улучшенная генерация выходных данных обрабатываются автоматически.
Организации, управляющие собственной парадигмой RAG, могут использовать Amazon Kendra – новый высокоточный поисковый сервис, основанный на машинном обучении. Он предоставляет оптимизированный Kendra Retrieve API, который можно использовать вместе с высокоточным семантическим ранжировщиком Amazon Kendra в качестве корпоративного инструмента для извлечения рабочих процессов RAG. Например, с помощью Retrieve API вы можете:
- извлекать до 100 семантически релевантных отрывков длиной до 200 слов-токенов в каждом, отсортированных по релевантности;
- использовать встроенные коннекторы к популярным технологиям обработки данных, таким как Простой сервис уведомлений Amazon, SharePoint, Confluence и другим веб-сайтам;
- работать с документами HTML, Word, PowerPoint, PDF, Excel, а также с текстовыми файлами;
- фильтровать ответы на основе документов, на которые у вас есть разрешения.
Amazon также предлагает варианты для организаций, которые хотят создавать более персонализированные решения генеративного искусственного интеллекта. Amazon SageMaker JumpStart – это центр машинного обучения, предлагающий базовые модели, встроенные алгоритмы и готовые решения, которые можно развернуть в несколько щелчков мыши. Ускорить внедрение RAG можно, используя существующие записные книжки SageMaker и примеры кода.
Начните работу с генерацией ответа, дополненной результатами поиска, на AWS, создав бесплатный аккаунт уже сегодня
AWS: дальнейшие шаги
Получите мгновенный доступ к уровню бесплатного пользования AWS.