Amazon SageMaker AI, AI 에이전트 모델 사용자 지정을 위한 멀티턴 강화 학습 출시
Amazon SageMaker AI가 이제 다단계 에이전틱 태스크에서 모델을 미세 조정할 수 있는 새로운 서버리스 모델 사용자 지정 기술인 멀티턴 강화 학습(RL)을 제공합니다. SageMaker AI 모델 사용자 지정을 사용하면 자체 훈련 인프라를 구축하고 운영해야 하는 획일적 작업의 부담 없이 지도 학습을 통한 미세 조정, 검증 가능한 보상을 통한 강화 학습(RLVR), AI 피드백을 통한 강화 학습(RLAIF) 등의 기술을 사용하여 파운데이션 모델을 조정할 수 있습니다. 멀티턴 RL은 이를 확장하여 자체 에이전트 환경에 맞게 모델을 훈련하고 에이전트가 태스크 전반에서 내리는 전체 의사 결정 순서에 대해 보상을 제공합니다. 이제 대상 워크로드에서 대규모 범용 모델의 태스크 정확도 이상의 성능을 갖춘 더 작고 경제적인 모델을 전문화할 수 있습니다.
에이전트가 다단계 태스크를 안정적으로 완료할 수 있도록 지원하는 훈련 모델은 복잡하고 시간이 오래 걸리며, 구축하는 데 몇 주가 소요되는 사용자 지정 인프라가 필요한 경우가 많습니다. SageMaker의 멀티턴 RL 제품은 이러한 문제를 해결합니다. 완전관리형 호스팅을 위해 Amazon Bedrock AgentCore Runtime에서 실행 중인 에이전트를 연결하거나, 원하는 프레임워크를 사용하여 Amazon EKS, Amazon EC2, AWS Fargate 또는 기타 인프라에서 실행 중인 에이전트를 연결할 수 있습니다. SageMaker AI는 롤아웃 오케스트레이션, 궤적 수집부터 훈련과 체크포인트 관리까지 전체 훈련 루프를 관리합니다. 내장된 MLflow 추적 기능을 통해 에이전트 경로, 보상, 추적을 검사할 수 있습니다. 평가 작업은 보상, pass@k, 궤적 지표를 보고하므로 모델을 SageMaker AI 엔드포인트 또는 Amazon Bedrock에 배포하기 전에 벤치마킹할 수 있습니다. 멀티턴 RL은 완전한 서버리스 기능으로 실행되므로 인프라를 프로비저닝하거나 관리할 필요 없이 처리된 토큰 비용만 지불하면 됩니다.
멀티턴 RL은 현재 Amazon SageMaker AI 모델 사용자 지정의 일부로 SageMaker Studio와 SageMaker Python SDK를 통해 사용할 수 있습니다. 지원되는 모델에는 us-west-2의 Qwen 3.6 27B, Nova Lite 2.0, GPT-OSS-20B, Gemma 31B, us-east-1의 Nova Lite 2.0, GPT-OSS-20B 등이 있습니다. SageMaker AI에서 멀티턴 강화 학습을 시작하려면 Amazon SageMaker AI 설명서를 참조하세요.