Amazon SageMaker AI теперь поддерживает спекулятивное декодирование EAGLE
Amazon SageMaker AI теперь поддерживает спекулятивное декодирование EAGLE (алгоритм экстраполяции для повышения эффективности языковых моделей), что позволяет повысить пропускную способность вывода больших языковых моделей до 2,5 раз. Эта возможность позволяет моделям прогнозировать и проверять несколько токенов одновременно, а не по одному за раз, что сокращает время отклика приложений с ИИ.
Чтобы интерфейс приложений с ИИ, развернутых в производственных средах, имел быстрый отклик, требуются инструменты обслуживания моделей с низкой задержкой и высокой пропускной способностью. Исследователям данных и ML-инженерам не хватает эффективных методов, которые позволили бы ускорить генерацию токенов без ущерба для качества вывода и не требовали бы комплексной перестройки архитектуры модели. Это затрудняет достижение ожидаемой производительности в условиях реальной рабочей нагрузки. Команды затрачивают значительное время на оптимизацию инфраструктуры, а не на улучшение приложений с ИИ. Используя спекулятивное декодирование EAGLE, SageMaker AI позволяет существенно повысить пропускную способность вывода при сохранении его качества за счет того, что модели генерируют и проверяют несколько токенов параллельно, а не последовательно. SageMaker AI автоматически выбирает алгоритм – EAGLE 2 или EAGLE 3 – с учетом архитектуры вашей модели и предлагает встроенные задачи оптимизации на основе специально подобранных данных или данных вашего приложения для обучения специализированных модулей прогнозирования (prediction heads). Затем оптимизированные модели можно развертывать через существующий процесс вывода SageMaker AI без изменений в инфраструктуре, что позволяет создавать приложения с более быстрым ИИ и предсказуемой производительностью.
Спекулятивное декодирование EAGLE доступно в следующих регионах AWS: Восток США (Северная Вирджиния, Огайо), Запад США (Орегон), Азиатско-Тихоокеанский регион (Токио, Сингапур), Европа (Ирландия, Франкфурт).
Дополнительные сведения о спекулятивном декодировании EAGLE см. в новостном блоге AWS и в документации по SageMaker AI.