Amazon SageMaker представляет новую возможность оптимизации логического вывода для генеративного ИИ
Сегодня было объявлено о том, что сервис Amazon SageMaker поддерживает новую общедоступную возможность логического вывода, которая обеспечивает двукратное увеличение пропускной способности при 50%-м снижении затрат для моделей генеративного искусственного интеллекта, таких как Llama 3, Mistral и Mixtral. Например, в модели Llama 3-70B можно получить до 2400 токенов в секунду на инстансе ml.p5.48xlarge по сравнению с 1200 токенами до оптимизации.
Благодаря этой новой возможности клиенты могут выбирать между различными новейшими методами оптимизации моделей, такими как спекулятивное декодирование, квантование и компиляция, и применять их к своим моделям генеративного искусственного интеллекта. Сервис SageMaker возьмет на себя все трудоемкие задачи по подготовке необходимого оборудования для запуска рецепта оптимизации, а также платформ и библиотек глубокого обучения. Клиенты получают готовое решение с поддержкой спекулятивного декодирования от SageMaker, которое было протестировано на работоспособность в большом масштабе для различных популярных моделей с открытым исходным кодом. Они также могут воспользоваться и собственным решением спекулятивного декодирования. Что касается квантования, SageMaker обеспечивает совместимость и поддержку прецизионных типов в моделях с различной архитектурой. Для методов компиляции инфраструктура среды выполнения SageMaker обеспечивает эффективную загрузку и кеширование оптимизированных моделей, что уменьшает время автоматического масштабирования.
Клиенты могут использовать эту новую возможность в AWS SDK для Python (Boto3), SageMaker Python SDK или Интерфейсе командной строки AWS (AWS CLI). Данная возможность теперь является общедоступной в следующих регионах: Восток США (Северная Вирджиния, Огайо), Запад США (Орегон), Азиатско-Тихоокеанский регион (Мумбаи, Сингапур, Сидней, Токио), Канада (Центральная), Европа (Франкфурт, Ирландия, Лондон, Париж, Стокгольм) и Южная Америка (Сан-Паулу).
Узнайте больше на странице документации и в блоге AWS ML.