Amazon SageMaker AI ra mắt kỹ thuật học tăng cường nhiều lượt để tùy chỉnh mô hình tác tử AI
Amazon SageMaker AI hiện cung cấp khả năng học tăng cường (RL) nhiều lượt, một kỹ thuật tùy chỉnh mô hình phi máy chủ mới để tinh chỉnh mô hình trên các tác vụ nhiều bước, dựa trên tác tử. Tùy chỉnh mô hình SageMaker AI cho phép bạn điều chỉnh các mô hình nền tảng bằng cách sử dụng các kỹ thuật như tinh chỉnh có giám sát, học tăng cường từ phần thưởng có thể kiểm chứng (RLVR) và học tăng cường từ phản hồi AI (RLAIF) mà không phải xây dựng và vận hành cơ sở hạ tầng đào tạo của riêng bạn, vốn là công việc nặng nhọc và không tạo ra sự khác biệt. RL nhiều lượt mở rộng khả năng này bằng cách đào tạo các mô hình dựa trên môi trường tác tử của riêng bạn, đồng thời thưởng cho toàn bộ trình tự quyết định mà tác tử đã thực hiện trong một tác vụ. Điều này giúp bạn chuyên biệt hóa các mô hình quy mô nhỏ hơn, có chi phí thấp hơn để đạt hoặc vượt độ chính xác của các mô hình đa dụng lớn hơn trên khối lượng công việc mục tiêu của mình.
Các mô hình đào tạo hỗ trợ tác tử hoàn thành các nhiệm vụ nhiều bước một cách đáng tin cậy rất phức tạp và tốn thời gian, thường yêu cầu cơ sở hạ tầng tùy chỉnh mất nhiều tuần để xây dựng. Dịch vụ RL nhiều lượt của SageMaker giúp bạn xử lý việc này. Bạn có thể kết nối tác tử chạy trên Runtime Amazon Bedrock AgentCore để lưu trữ được quản lý đầy đủ hoặc trên Amazon EKS, Amazon EC2, AWS Fargate hoặc bất kỳ cơ sở hạ tầng nào bằng cách sử dụng khung bạn chọn. SageMaker AI quản lý toàn bộ quy trình đào tạo, từ điều phối triển khai và thu thập hành trình đến đào tạo và quản lý điểm kiểm tra. Theo dõi MLflow tích hợp cho phép bạn kiểm tra hành trình, phần thưởng và dấu vết của tác tử. Các công việc đánh giá báo cáo các chỉ số phần thưởng, pass@k và hành trình để bạn có thể định chuẩn mô hình trước khi triển khai mô hình đó lên điểm cuối SageMaker AI hoặc Amazon Bedrock. RL nhiều lượt chạy như một khả năng hoàn toàn phi máy chủ, vì vậy bạn chỉ trả tiền cho các mã thông báo được xử lý, không có cơ sở hạ tầng cần cấp phát hoặc quản lý.
RL nhiều lượt hiện có sẵn thông qua Studio SageMaker và SageMaker Python SDK như một phần của tùy chỉnh mô hình Amazon SageMaker AI. Các mô hình được hỗ trợ bao gồm Qwen 3.6 27B, Nova Lite 2.0, GPT-OSS-20B và Gemma 31B tại us-west-2 và Nova Lite 2.0, GPT-OSS-20B tại us-east-1. Để bắt đầu sử dụng kỹ thuật học tăng cường nhiều lượt trong SageMaker AI, hãy truy cập tài liệu về Amazon SageMaker AI.