SageMaker JumpStart теперь предлагает оптимизированные развертывания для базовых моделей
SageMaker JumpStart теперь предлагает оптимизированные развертывания, позволяющие клиентам развертывать базовые модели с предварительно выполненными настройками, адаптированными к конкретным примерам использования и ограничениям производительности. Оптимизированные развертывания SageMaker JumpStart упрощают развертывание моделей, предлагая конфигурации с учетом задач, оптимизирующие стоимость, пропускную способность или задержку в зависимости от требований к рабочей нагрузке, будь то генерация контента, суммирование данных или вопросы и ответы. Этот запуск включает поддержку более 30 популярных моделей от Meta, Microsoft, Mistral AI, Qwen, Google и TII с отображением ключевых метрик производительности, таких как задержка P50, время до появления первого токена (TTFT) и пропускная способность до развертывания.
Благодаря оптимизированным развертываниям SageMaker JumpStart заказчики могут выбирать конфигурации для конкретных примеров использования (например, генеративное письмо или взаимодействие в чате) и выбирать цели оптимизации, включая оптимизацию затрат, оптимизацию пропускной способности, оптимизацию задержек или сбалансированную производительность. Модели развертываются на адресах SageMaker AI Managed Inference или кластерах SageMaker HyperPod с предварительно заданными конфигурациями, которые позволяют избежать догадок и при этом полностью контролировать детали развертывания. Доступные модели включают варианты Meta Llama 3.1 и 3.2, модели Microsoft Phi-3, модели Mistral AI, включая новые серии Mistral-Small-24B-Instruct-2501, Qwen 2 и 3, включая мультимодальные модели Qwen2-VL, Google Gemma и TII Falcon3. Все развертывания используют возможности SageMaker по развертыванию VPC, обеспечивая контроль над данными и готовую к производству инфраструктуру с безопасностью корпоративного уровня. Эта функция доступна во всех регионах AWS, в которых в настоящее время поддерживается SageMaker JumpStart.
Чтобы приступить к оптимизированному развертыванию, перейдите в раздел «Модели» в SageMaker Studio, выберите нужную базовую модель на вкладке «Модели JumpStart», выберите «Развертывание», а затем выберите пример использования и цель оптимизации производительности. Подробную информацию см. в документации по SageMaker JumpStart. AWS активно расширяет поддержку, добавляя дополнительные модели.