Amazon SageMaker запускает ускоренное автоматическое масштабирование моделей генеративного искусственного интеллекта
Мы рады объявить о новой возможности вывода Amazon SageMaker, которая помогает клиентам сократить время автоматического масштабирования моделей генеративного искусственного интеллекта. Теперь клиенты могут использовать метрики продолжительностью менее одной минуты и значительно сократить общую задержку масштабирования моделей искусственного интеллекта. Используя это усовершенствование, клиенты могут повысить скорость реагирования своих приложений генеративного искусственного интеллекта при изменении спроса.
Благодаря этой возможности клиенты получают две новые метрики CloudWatch с высоким разрешением – ConcurrentRequestsPerModel и ConcurrentRequestsPerModelCopy, которые ускоряют автоматическое масштабирование. Эти метрики генерируются с интервалом в 10 секунд и позволяют получить более точное представление о нагрузке на конечную точку, отслеживая фактический параллелизм или количество запросов на вывод, обрабатываемых моделью на лету. Клиенты могут создавать политики автоматического масштабирования, используя эти метрики с высоким разрешением для масштабирования своих моделей, развернутых на конечных точках SageMaker. Amazon SageMaker начнет добавлять новые инстансы или копии моделей менее чем через одну минуту после достижения пороговых значений, определенных в этих политиках автоматического масштабирования. Это позволяет клиентам оптимизировать производительность и экономичность рабочих нагрузок, связанных с выводом, в SageMaker.
Эта новая возможность доступна в семействах инстансов ускорителей (g4dn, g5, g6, p2, p3, p4d, p4de, p5, inf1, inf2, trn1n, trn1) во всех регионах AWS, в которых доступен вывод Amazon SageMaker, кроме Китая и регионов AWS GovCloud (США). Дополнительные сведения см. в блоге AWS ML и в нашей документации.