Amazon SageMaker AI выпускает оптимизированные рекомендации по выводу генеративного искусственного интеллекта

Проведено: 21 апр. 2026 г.

Amazon SageMaker AI теперь поддерживает рекомендации по выводу – новую возможность, которая исключает потребность в ручной оптимизации и сравнительном анализе для обеспечения оптимальной производительности вывода. Предоставляя проверенные оптимальные конфигурации развертывания с метриками производительности, SageMaker AI ускоряет переход в рабочую среду и позволяет разработчикам моделей сосредоточиться на создании точных моделей, а не на управлении инфраструктурой.

Клиенты используют собственные модели генеративного искусственного интеллекта, определяют ожидаемые паттерны трафика и устанавливают цель по производительности (оптимизация затрат, минимизация задержек или максимизация пропускной способности). Затем SageMaker AI анализирует архитектуру модели и выполняет оптимизацию для различных типов инстансов в соответствии с поставленной целью, сравнивая каждую конфигурацию с реальной инфраструктурой графического процессора при помощи NVIDIA AIPerf. Оценив несколько типов инстансов, клиенты могут выбрать наиболее экономичный вариант для своей рабочей нагрузки. Результатом являются готовые к развертыванию конфигурации с проверенными метриками, включая время до первого токена, задержку между токенами, процентили задержки запроса, пропускную способность и прогнозы затрат.

 Сегодня эта возможность доступна в семи регионах AWS: Азиатско-Тихоокеанский регион (Сингапур, Токио), Восток США (Огайо, Северная Вирджиния), Запад США (Орегон) и Европа (Ирландия, Франкфурт). Дополнительную информацию см. в документации по SageMaker AI.