Amazon SageMaker AI meluncurkan pembelajaran penguatan multi-putaran untuk kustomisasi model agen AI

Dikirim di: 3 Jun 2026

Amazon SageMaker AI kini menawarkan pembelajaran penguatan (RL) multi-putaran, teknik kustomisasi model nirserver baru untuk penyempurnaan model pada tugas-tugas multi-langkah dan berbasis agen. Kustomisasi model AI SageMaker memungkinkan Anda untuk mengadaptasi model dasar menggunakan teknik seperti penyempurnaan terawasi, pembelajaran penguatan dari imbalan yang dapat diverifikasi (RLVR), dan pembelajaran penguatan dari umpan balik AI (RLAIF), tanpa perlu bersusah payah membangun dan mengoperasikan infrastruktur pelatihan Anda sendiri. RL multi-putaran memperluas hal ini dengan melatih model terhadap lingkungan agen Anda sendiri dan memberi penghargaan pada seluruh rangkaian keputusan yang dibuat agen di seluruh tugas, membantu Anda mengkhususkan model yang lebih kecil dan berbiaya rendah untuk menyamai atau melampaui akurasi tugas model tujuan umum yang lebih besar pada beban kerja target Anda.

Melatih model yang memberdayakan agen untuk menyelesaikan tugas multi-langkah secara andal adalah hal yang kompleks dan memakan waktu, seringkali membutuhkan infrastruktur khusus yang membutuhkan waktu berminggu-minggu untuk dibangun. Penawaran RL Multi-putaran dari SageMaker menangani hal ini untuk Anda. Anda dapat menghubungkan agen Anda yang berjalan di Amazon Bedrock AgentCore Runtime untuk hosting yang terkelola sepenuhnya, atau di Amazon EKS, Amazon EC2, AWS Fargate, atau infrastruktur apa pun menggunakan kerangka kerja pilihan Anda. SageMaker AI mengelola seluruh siklus pelatihan, mulai dari orkestrasi peluncuran dan pengumpulan lintasan hingga pelatihan dan manajemen titik pemeriksaan. Fitur pelacakan MLflow bawaan memungkinkan Anda memeriksa lintasan agen, imbalan, dan jejak. Laporan tugas evaluasi menyajikan metrik penghargaan, pass@k, dan lintasan sehingga Anda dapat melakukan benchmark model sebelum menerapkannya ke titik akhir SageMaker AI atau Amazon Bedrock. RL multi-putaran berjalan sebagai kemampuan nirserver sepenuhnya, sehingga Anda hanya membayar untuk token yang diproses, tanpa infrastruktur yang perlu disediakan atau dikelola.

RL multi-putaran tersedia saat ini melalui SageMaker Studio dan SageMaker Python SDK sebagai bagian dari kustomisasi model Amazon SageMaker AI. Model yang didukung meliputi Qwen 3.6 27B, Nova Lite 2.0, GPT-OSS-20B dan Gemma 31B di us-west-2, dan Nova Lite 2.0, GPT-OSS-20B di us-east-1. Untuk memulai pembelajaran penguatan multi-putaran di SageMaker AI, kunjungi dokumentasi Amazon SageMaker AI