Amazon SageMaker представляет новые возможности для ускорения масштабирования логического вывода генеративного ИИ

Проведено: 6 дек. 2024 г.

Мы рады объявить о двух новых возможностях SageMaker Inference, которые значительно улучшают развертывание и масштабирование моделей генеративного искусственного интеллекта: кэшировании контейнеров и быстром загрузчике моделей. Эти инновации решают важнейшие проблемы эффективного масштабирования больших языковых моделей (LLM), обеспечивают более быстрое реагирование на пики трафика и более экономичное масштабирование. Сокращая время загрузки моделей и ускоряя автоматическое масштабирование, эти функции позволяют клиентам повысить скорость реагирования своих приложений генеративного искусственного интеллекта на колебания спроса, особенно в том, что касается сервисов с динамическими схемами трафика.

Кэширование контейнеров значительно сокращает время, необходимое для масштабирования моделей генеративного искусственного интеллекта, для логических выводов за счет предварительного кэширования образов контейнеров. Это устраняет необходимость их загрузки при масштабировании, что приводит к значительному сокращению времени масштабирования адресов модели генеративного искусственного интеллекта. Быстрый загрузчик моделей передает веса моделей непосредственно из Amazon S3 в ускоритель, загружая модели намного быстрее по сравнению с традиционными методами. Эти возможности позволяют клиентам создавать более гибкие политики автоматического масштабирования, позволяющие SageMaker быстро добавлять новые инстансы или копии моделей при достижении определенных пороговых значений, тем самым поддерживая оптимальную производительность во время пиков трафика и в то же время эффективно управляя затратами.

Эти новые возможности доступны во всех регионах AWS, где доступен Amazon SageMaker Inference. Чтобы узнать больше, ознакомьтесь с нашей документацией, содержащей подробное руководство по внедрению.