Amazon SageMaker AI запускает многоэтапное обучение с подкреплением для настройки моделей агентов ИИ
Amazon SageMaker AI теперь предлагает многоэтапное обучение с подкреплением (RL) – новый метод бессерверной настройки моделей для точной настройки моделей при выполнении многоэтапных агентных задач. Настройка моделей SageMaker AI позволяет адаптировать базовые модели с помощью таких методов, как точная настройка под наблюдением, обучение с подкреплением и верифицируемыми вознаграждениями (RLVR) и обучение с подкреплением на основе обратной связи от ИИ (RLAIF), без необходимости создавать и эксплуатировать собственную инфраструктуру обучения. Многоэтапное обучение с подкреплением расширяет эти возможности, обучая модели в вашей собственной среде агентов и назначая вознаграждения за всю последовательность решений, принимаемых агентом в ходе выполнения задачи. Это позволяет специализировать небольшие и недорогие модели применительно к целевой рабочей нагрузке так, чтобы по точности они как минимум соответствовали более крупным универсальным моделям.
Обучение моделей, позволяющее агентам надежно выполнять многоэтапные задачи, отнимает много времени и усилий. Для этого часто требуется специализированная инфраструктура, на создание которой уходит несколько недель. Многоэтапное обучение с подкреплением в SageMaker сделает это за вас. Вы можете подключить агент, работающий в Среде выполнения Amazon Bedrock AgentCore, к полностью управляемому хостингу либо к Amazon EKS, Amazon EC2, AWS Fargate или любой другой инфраструктуре с выбранный вами платформой. SageMaker AI управляет всем циклом обучения – от оркестрации развертывания и сбора траекторий до обучения и управления контрольными точками. Встроенное отслеживание MLflow позволяет изучать траектории, награды и трассировки агентов. Задания оценки сообщают метрики вознаграждений, pass@k и траекторий, чтобы вы могли протестировать модель перед ее развертыванием по адресу SageMaker AI или в Amazon Bedrock. Многоэтапное обучение с подкреплением работает как полностью бессерверная функция, поэтому вы платите только за обработанные токены: подготавливать инфраструктуру и управлять ею не нужно.
Многоэтапное обучение с подкреплением доступно сегодня в Студии SageMaker и SageMaker Python SDK в рамках настройки модели Amazon SageMaker AI. Поддерживаемые модели включают Qwen 3.6 27B, Nova Lite 2.0, GPT-OSS-20B и Gemma 31B в us-west-2 и Nova Lite 2.0, GPT-OSS-20B в us-east-1. Чтобы начать многоэтапное обучение с подкреплением в SageMaker AI, ознакомьтесь с документацией по Amazon SageMaker AI.