В Amazon SageMaker представлена технология Scale Down to Zero для формирования логических выводов ИИ в целях экономии затрат клиентов

Проведено: 25 нояб. 2024 г.

Мы рады анонсировать Scale Down to Zero – новую функцию в Amazon SageMaker Inference, которая позволяет адресам масштабироваться до нулевых инстансов в периоды бездействия. Эта функция позволяет значительно снизить затраты на получение логических выводов с использованием моделей искусственного интеллекта, что делает ее особенно полезной для приложений с переменными шаблонами трафика, таких как чат-боты, системы модерации контента и другие варианты использования генеративного искусственного интеллекта.

С помощью функции Scale Down to Zero клиенты могут настроить свои адреса логических выводов SageMaker на автоматическое масштабирование до нуля неиспользуемых инстансов и быстрое масштабирование до необходимого объема с возобновлением трафика. Эта возможность актуальна для сценариев с прогнозируемыми схемами трафика, нестабильным трафиком логических выводов и средами разработки/тестирования. Внедрить Scale Down to Zero легко и просто при наличии компонентов логических выводов SageMaker. Клиенты могут настроить политики автоматического масштабирования с помощью AWS SDK для Python (Boto3), SDK SageMaker Python или интерфейса командной строки AWS (AWS CLI). Этот процесс включает настройку адреса с включенным масштабированием управляемых инстансов, настройку политик масштабирования и создание предупреждений CloudWatch для запуска действий по масштабированию.

Теперь функция Scale Down to Zero доступна во всех регионах AWS, где поддерживается Amazon SageMaker. Чтобы узнать больше о внедрении функции Scale Down to Zero и оптимизации затрат на развертывание генеративного ИИ, обратитесь к нашей странице документации.