Перейти к главному контенту

Amazon Bedrock

Дистилляция модели Amazon Bedrock

Обзор

С помощью дистиллированных моделей Amazon Bedrock вы можете применять более компактные, быстрые и экономичные модели, обеспечивающие точность в каждом конкретном случае использования, сопоставимую с самыми передовыми моделями Amazon Bedrock. Дистиллированные модели в Amazon Bedrock работают на 500 % быстрее и стоят на 75 % дешевле оригинальных моделей, а в таких сценариях использования, как дополненная извлеченными данными генерация (RAG), точность теряется менее чем на 2 %.

Использование компактных и экономичных моделей

С помощью дистилляции моделей клиенты могут выбрать модель «учитель», точность которой они хотят достичь в своем случае использования, а затем выбрать модель «ученика», которую желают доработать. Клиенты также предоставляют подсказки в соответствии со своим вариантом использования. Модель дистилляции автоматизирует процесс генерирования ответов от учителя и использования этих ответов для настройки модели ученика. Затем модели ученика могут вести себя как модели учителей с аналогичной точностью при меньших затратах. Дистилляция моделей поддерживает множество моделей от разных поставщиков, включая Amazon Nova Premier (учитель) и Nova Pro (ученик), Claude 3.5 Sonnet версии 2 (учитель), Llama 3.3 70B (учитель) и Llama 3.2 1B/3B (ученик). Определенные пользовательские модели можно вызывать с помощью логических выводов по запросу, что помогает снизить потребность в постоянно работающей инфраструктуре. См. список моделей здесь.
Screenshot of a user interface for selecting teacher and student models for distillation, featuring Llama 3.1 models. The teacher model Llama 3.1 405B is selected, and student model options include Llama 3.1 70B and Llama 3.1 8B.

Достижение максимальной производительности дистиллированной модели с помощью запатентованного синтеза данных

Доработка компактной и экономичной модели для достижения точности аналогичной модели большего размера для конкретного варианта использования проводится многократно. Чтобы частично снять с себя бремя итераций, необходимое для достижения лучших результатов, в модели дистилляции могут применяться другие методы синтеза данных, которые лучше всего подходят для вашего варианта использования. Например, Bedrock может расширить набор обучающих данных, генерируя аналогичные подсказки или высококачественные синтетические ответы, используя в качестве эталона пары подсказок и ответов, предоставленные клиентом.
Screenshot of the AWS Synthetic Data Generation and Model Distillation user interface. The UI enables users to set the maximum response length, choose a distillation input dataset from an S3 location or invocation logs, and provides options to upload data or browse S3 buckets to generate synthetic responses for fine-tuning machine learning models.

Сокращение расходов с помощью простого переноса производственных данных

Во время традиционной тонкой настройки клиенты должны создавать подсказки и ответы. При использовании дистилляции моделей клиентам необходимо только предоставлять подсказки, которые затем используются для получения синтетических ответов и точной настройки моделей обучения. Пользователи могут направлять нас к своим журналам вызовов, а также отфильтровывать журналы на основе определенных полей метаданных. Дистилляция моделей позволяет считывать как запросы, так и ответы из журналов вызовов и пропускать генерацию синтетических ответов в рабочем процессе дистилляции, что снижает затраты из-за отсутствия необходимости снова генерировать ответы из модели обучения. Начните с примеров кода.
Screenshot of the AWS Synthetic Data Generation interface showing options for model distillation, including setting response length, selecting distillation input dataset, configuring S3 log access, adding metadata, and managing access to input data such as prompts or prompt-response pairs.

Увеличение точности предсказания вызовов функций для агентов

Вызов функций агентами – это ключевая возможность современных приложений на основе искусственного интеллекта, позволяющая моделям взаимодействовать с внешними инструментами, базами данных и API, точно определяя, когда и какие функции нужно вызывать, а также формируя корректные параметры. Хотя крупные модели, как правило, хорошо справляются с выбором подходящих функций и построением параметров вызова, они обычно требуют больших затрат и обладают большей задержкой. Дистилляция моделей Amazon Bedrock позволяет меньшим моделям с высокой точностью предсказывать вызовы функций, что способствует значительно более быстрой генерации ответов и снижению операционных расходов.