Что такое генеративные модели ИИ?
Что такое генеративные модели ИИ?
Генеративные модели ИИ имеют свои сильные и слабые стороны. В зависимости от сложности, производительности, конфиденциальности и требований к стоимости, предъявляемых к вашему варианту использования, некоторые модели могут оказаться лучшим выбором, чем другие. В этом руководстве рассматриваются факторы, которые следует учитывать, и лучшие практики выбора генеративной модели ИИ.
Генеративные модели ИИ могут создавать оригинальный и содержательный текст, изображения, аудио- и видеоконтент на основе данных, вводимых пользователями на естественном языке. Организации используют их для всего: от поддержки чат-ботов до создания шаблонов дизайна и решения сложных задач в области биологии. Существуют тысячи проприетарных моделей ИИ с открытым исходным кодом, а новые модели и улучшенные версии выпускаются ежедневно.
Несмотря на свою гибкость и универсальность, генеративные модели ИИ не являются универсальным решением для всех сценариев использования. Команды по искусственному интеллекту должны тщательно выбрать и оценить лучшую модель, которая оптимизирует затраты и производительность. Оценка моделей сложна. Популярные тесты, такие как Helm и таблица лидеров Hugging Face, дают только общее представление о том, как конкретная модель ИИ справляется с обычными задачами на естественном языке. Команды по ИИ должны использовать разные подходы для оценки выходных данных модели на пользовательских данных, а затем выбирать ту, которая лучше всего соответствует их требованиям.
Как оцениваются генеративные модели искусственного интеллекта (ИИ) для разных сценариев использования?
При выборе подходящей модели ИИ важно учитывать несколько факторов.
Модальность
Модальность – это тип данных, который обрабатывает модель: встраивания, изображения (зрение) или текст. Некоторые модели являются одномодальными и работают только с одним типом данных. Другие – мультимодальные, они могут обрабатывать несколько типов, но лучше справляются с одним из них. Например, Claude, Llama 3.1 и Titan Text G1 оптимальны для текстовых задач, а Stable Diffusion XL и Titan Image Generator v2 – для визуальных. Аналогичным образом, модель Titan Multimodal Embeddings G1 предпочтительна для перевода любого входного изображения или текста во встраивание, содержащее семантическое значение изображения и текста в одном и том же семантическом пространстве.
Размер модели
Размер модели – это количество параметров (внутренних переменных настройки). Оно может варьироваться от нескольких миллионов до сотен миллиардов. Размер модели напрямую определяет способность модели обучаться на данных. Модели с большим количеством параметров работают лучше, так как могут глубже понимать новые данные. Однако их настройка и эксплуатация обходятся дороже.
Задержка вывода
Задержка вывода обычно является проблемой в сценариях реального времени, когда пользователи вашего ИИ-приложения ожидают мгновенного ответа. Это общее время, которое модель затрачивает на обработку входных данных и выдачу результата в зависимости от их длины. Генеративные модели ИИ со сложной архитектурой могут работать медленнее, чем модели меньшего размера. Однако задержка вывода зависит как от ожидаемых запросов, так и от производительности модели. Увеличение количества токенов (например, букв, знаков препинания и т. д.) во вводе конечным пользователем также может повышать задержку.
Контекстное окно
Контекстное окно генеративной модели ИИ – это количество токенов, которое она может «помнить» для контекста за один раз. Модель с большим контекстным окном сохраняет больше предыдущего разговора и выдает более релевантные ответы. Таким образом, большие контекстные окна предпочтительнее для сложных задач, таких как суммирование длинных документов или ведение многооборотных диалогов.
Цены
Затраты на эксплуатацию модели включают расходы на использование проприетарных моделей, а также вычислительные и память. Эксплуатационные расходы могут различаться от модели к модели в зависимости от нагрузки. Сравнение затрат и выгод помогает получить максимальную отдачу от инвестиций. Например, запуск Claude 2 или Command R+ требует оплаты за использование, так как это проприетарные модели, тогда как развертывание Llama 2 7B обходится дешевле по вычислительным затратам. Однако если проприетарные модели дают значительно лучшую точность или эффективность для вашей задачи, их дополнительные расходы могут быть оправданы.
Качество ответа
Вы можете оценивать качество ответа модели ИИ с помощью нескольких показателей, таких как:
- Точность – как часто ответы модели верны.
- Релевантность – насколько ответы соответствуют заданным входным данным.
- Надежность – насколько хорошо модель справляется с намеренно вводящими в заблуждение данными.
- Токсичность – доля неприемлемого содержания или смещений в выходных данных модели.
Эти показатели обычно оцениваются по заранее установленному базовому уровню. Рекомендуется оценивать качество ответа нескольких моделей на одном и том же наборе данных и выбирать ту, которая показывает наивысшее качество.
Что такое процесс выбора генеративной модели ИИ?
Выбор модели генеративного ИИ начинается с определения конкретных требований вашего приложения. Убедитесь, что вы понимаете ожидания пользователей, требования к обработке данных, особенности развертывания и другие нюансы вашего бизнеса и отрасли. Затем можно исключать различные модели, проводя тесты качества, пока не будет найдена наилучшая модель для ваших требований.
Шаг 1. Первичный выбор модели в шорт-лист
Начните с выбора примерно 20 моделей из тысяч, которые соответствуют вашим требованиям. Выбор между открытыми и проприетарными моделями – это половина работы. После этого можно дополнительно сузить список, оценивая модели по ключевым критериям, таким как модальность, размер модели, контекстное окно и др., описанным ранее.
Генеративные модели ИИ с открытым исходным кодом и проприетарные
Модели с открытым исходным кодом дают гибкость и позволяют командам дорабатывать или полностью переобучать модель на собственных данных. Это особенно ценно в специализированных отраслях, где модели общего назначения плохо справляются с нишевыми задачами. Например, крупная страховая компания может предпочесть обучать модель с открытым исходным кодом на своих данных, вместо использования проприетарных моделей для финансового сектора, которые не полностью соответствуют их требованиям.
Однако модели с открытым исходным кодом требуют дополнительных мер. Они могут представлять угрозу безопасности и правовые риски, требуя от организаций соблюдения собственных мер соответствия и тщательной проверки лицензий. Собственные модели обычно включают встроенные функции безопасности, гарантии по данным и результатам, а также подтверждение соответствия требованиям, что снижает эксплуатационные расходы для компаний, ориентированных на минимизацию рисков.
Шаг 2. Проверка выходных данных и дальнейшее сужение списка
На этом этапе нужно определить три лучшие генеративные модели ИИ, наиболее подходящие для вашего варианта использования. Сначала выберите подмножество тестовых подсказок, соответствующих вашему сценарию. Затем визуально оцените выходные данные каждой модели для этих подсказок. Ищите результаты с наибольшей детализацией, максимально соответствующие вашим входным данным. Выберите три модели, которые дают наиболее релевантные, подробные и точные результаты.
Amazon SageMaker Clarify лучше всего подходит для этого этапа. Он автоматически оценивает базовые модели для вашего сценария генеративного ИИ по метрикам точности, надежности и токсичности, поддерживая инициативы по ответственному ИИ.
Шаг 3. Сравнительный анализ на основе конкретного сценария
Теперь можно более детально оценить выбранные модели на основе заранее определенных подсказок и результатов для вашего тестового набора данных. Ключевое значение имеет полный набор тестовых данных, охватывающий все аспекты сценария с различными вариантами. Также должен быть идеальный результат, чтобы статистически оценить, чьи выходные данные ближе всего к нему.
Amazon Bedrock предоставляет инструменты для оценки, сравнения и выбора модели ИИ для вашего сценария с помощью Model Evaluation.
Существуют три подхода к оценке (см. ниже).
Программный
Оценивайте выходные данные модели с использованием традиционных алгоритмов и метрик на естественном языке, таких как BERT Score, F1 и другие методы точного сопоставления. Amazon Bedrock позволяет решить эту задачу с помощью встроенных наборов оперативных данных или использовать собственные.
Задействование человека в процессе
Привлеките специалистов – членов команды, выборку пользователей или профессиональных оценщиков ИИ – чтобы оценить результаты всех трех моделей по заранее определенным метрикам. Они могут вручную сравнивать результаты с идеальными, или, если сценарий слишком широк, оценивать их на основе собственного суждения.
С помощью Amazon Bedrock вы можете оценивать результаты модели вместе с командой или поручить AWS управлять оценками на пользовательских наборах данных с метриками релевантности, стиля, соответствия голосу бренда или встроенными метриками.
Еще одна модель ИИ в качестве оценщика
В этом подходе другая модель ИИ беспристрастно оценивает результаты трех моделей. Это особенно подходит для сценариев, где выходные данные четко определены и их сходство с идеальным результатом можно измерить статистически. Amazon Bedrock позволяет использовать другую модель ИИ в режиме LLM-as-a-Judge. Можно применять свои наборы данных с метриками правильности, полноты, вредности, а также ответственными метриками ИИ, такими как отказ в ответе и вредность.
Шаг 4. Окончательный выбор
Используйте данные оценки вместе с анализом затрат и производительности, чтобы выбрать окончательную модель. В Amazon Bedrock можно сравнивать результаты изменений в подсказках и моделях, участвующих в оценке. Просмотрите всю аналитику в одном месте и выберите модель, обеспечивающую наилучший баланс между производительностью, затратами и рисками, эффективно используя ресурсы.
Выбор подходящей генеративной модели ИИ требует структурированного подхода, учитывающего технические возможности, бизнес-потребности и эксплуатационные ограничения. Главное – согласовать решение с конкретными требованиями вашего сценария использования. Тщательно оценивайте модели по таким факторам, как модальность, размер, возможности обработки данных и особенности развертывания. В конечном итоге правильная модель повышает эффективность и инновации и обеспечивает масштабируемую основу для будущих достижений вашей организации на основе искусственного интеллекта.