Amazon SageMaker AI เปิดตัวการเรียนรู้แบบเสริมแรงหลายรอบสำหรับการปรับแต่งโมเดล AI Agent

โพสต์บน: 3 มิ.ย. 2026

ขณะนี้ Amazon SageMaker AI รองรับการเรียนรู้แบบเสริมแรง (RL) หลายรอบ ซึ่งเป็นเทคนิคใหม่สำหรับการปรับแต่งโมเดลแบบไม่ต้องใช้เซิร์ฟเวอร์ เพื่อปรับแต่งโมเดลเพิ่มเติมสำหรับงานแบบหลายขั้นตอนที่มีลักษณะเป็น Agent การปรับแต่งโมเดลของ SageMaker AI ช่วยให้คุณสามารถปรับโมเดลพื้นฐานให้เหมาะกับการใช้งานได้ โดยใช้เทคนิคต่าง ๆ เช่น การปรับแต่งเพิ่มเติมแบบมีผู้สอน, การเรียนรู้แบบเสริมแรงจากรางวัลที่สามารถตรวจสอบได้ (RLVR) และการเรียนรู้แบบเสริมแรงจากข้อเสนอแนะของ AI (RLAIF) โดยไม่ต้องรับภาระงานส่วนที่ไม่สร้างความแตกต่างในการสร้างและดำเนินงานโครงสร้างพื้นฐานสำหรับการฝึกด้วยตนเอง Multi-turn RL ขยายความสามารถนี้เพิ่มเติมโดยการฝึกโมเดลกับสภาพแวดล้อม Agent ของคุณเอง และให้รางวัลตามลำดับการตัดสินใจทั้งหมดที่ Agent ดำเนินการตลอดทั้งงาน ซึ่งช่วยให้คุณสามารถปรับแต่งโมเดลขนาดเล็กที่มีต้นทุนต่ำกว่าให้มีความแม่นยำสำหรับงานเฉพาะทางเทียบเท่าหรือสูงกว่าโมเดลอเนกประสงค์ขนาดใหญ่ในเวิร์กโหลดเป้าหมายของคุณได้

การฝึกโมเดลที่ขับเคลื่อน Agent ให้สามารถดำเนินงานแบบหลายขั้นตอนได้อย่างน่าเชื่อถือมีความซับซ้อนและใช้เวลามาก โดยมักต้องอาศัยโครงสร้างพื้นฐานแบบกำหนดเองซึ่งอาจใช้เวลาหลายสัปดาห์ในการสร้าง ข้อเสนอ Multi-turn RL ของ SageMaker ช่วยจัดการสิ่งเหล่านี้ให้คุณ คุณสามารถเชื่อมต่อ Agent ที่ทำงานบน Amazon Bedrock AgentCore Runtime สำหรับการโฮสต์ที่มีการจัดการเต็มรูปแบบ หรือเชื่อมต่อ Agent ที่ทำงานบน Amazon EKS, Amazon EC2, AWS Fargate หรือโครงสร้างพื้นฐานใด ๆ โดยใช้เฟรมเวิร์กที่คุณเลือกได้ SageMaker AI จัดการวงจรการฝึกทั้งหมด ตั้งแต่การควบคุมการดำเนินการ Rollout, การรวบรวม Trajectory ไปจนถึงการฝึกและการจัดการ Checkpoint การติดตามด้วย MLflow ที่มีมาให้ในตัว ช่วยให้คุณสามารถตรวจสอบ Trajectory ของ Agent, รางวัลที่ได้รับ และ Trace ต่าง ๆ ได้ งานการประเมินจะรายงานค่ารางวัล, pass@k และเมตริกของ Trajectory เพื่อให้คุณสามารถเปรียบเทียบประสิทธิภาพของโมเดลก่อนนำไปปรับใช้กับตำแหน่งข้อมูลของ SageMaker AI หรือ Amazon Bedrock ได้ Multi-turn RL ทำงานในรูปแบบความสามารถแบบไม่ต้องใช้เซิร์ฟเวอร์อย่างเต็มรูปแบบ ดังนั้นคุณจะชำระค่าใช้จ่ายเฉพาะโทเค็นที่มีการประมวลผลเท่านั้น โดยไม่จำเป็นต้องจัดสรรหรือจัดการโครงสร้างพื้นฐานใด ๆ

วันนี้ Multi-turn RL พร้อมใช้งานแล้วผ่าน SageMaker Studio และ SageMaker Python SDK ในฐานะส่วนหนึ่งของการปรับแต่งโมเดลของ Amazon SageMaker AI โมเดลที่รองรับ ได้แก่ Qwen 3.6 27B, Nova Lite 2.0, GPT-OSS-20B และ Gemma 31B ใน us-west-2 และ Nova Lite 2.0, GPT-OSS-20B ใน us-east-1 ในการเริ่มต้นใช้งานการเรียนรู้แบบเสริมแรงหลายรอบใน SageMaker AI โปรดไปที่เอกสารประกอบ Amazon SageMaker AI