Amazon SageMaker AI, 이제 12개 모델에 서버리스 강화 학습 미세 조정 지원

게시된 날짜: 2026년 3월 25일

Amazon SageMaker AI가 이제 12개의 추가 오픈 웨이트 모델에 대해 서버리스 모델 사용자 지정 및 강화 미세 조정을 지원하므로 인프라를 프로비저닝하거나 관리할 필요 없이 모델을 미세 조정하고 평가할 수 있습니다. 새롭게 지원되는 모델은 gpt-oss-120b, Qwen2.5 72B Instruct, DeepSeek-R1-Distill-Llama-70B, Qwen3 14B, DeepSeek-R1-Distill-Qwen-14B, Qwen2.5 14B Instruct, DeepSeek-R1-Distill-Llama-8B, DeepSeek-R1-Distill-Qwen-7B, Qwen3 4B, Meta Llama 3.2 3B Instruct, Qwen3 1.7B, DeepSeek-R1-Distill-Qwen-1.5B입니다. 이번 확장을 통해 지도 미세 조정(SFT), 직접 선호 최적화(DPO), 강화 미세 조정(RFT) 기법(RLVR 및 RLAIF 포함)을 사용하여 이러한 모델을 사용자 지정할 수 있으며, 사용한 만큼만 비용을 지불하면 됩니다.

강화 미세 조정을 사용하면 기존 SFT와 같은 기법만으로는 충분하지 않은 복잡한 도메인별 추론 태스크에 맞게 모델을 조정할 수 있습니다. RLVR을 사용하면 정확성에 기반한 보상 신호를 제공함으로써 코드 생성, 수학 연산, 구조 추출과 같은 검증 가능한 태스크에서 모델 정확도를 향상시킬 수 있습니다. RLAIF는 AI 생성형 피드백을 사용하여 모델 동작을 품질, 안전 기본 설정에 맞게 조정합니다. 이러한 기법은 클러스터 설정, 용량 계획 또는 분산 훈련 전문 지식 없이도 이전에 지원되거나 새로 추가된 모델에서 사용할 수 있습니다.

이러한 모델과 미세 조정 기법은 미국 동부(버지니아주 북부), 미국 서부(오리건), 아시아 태평양(도쿄), 유럽 연합(아일랜드)에 제공됩니다. 시작하려면 Amazon SageMaker AI 모델 사용자 지정 제품 페이지를 참조하고, Amazon SageMaker AI 요금 페이지(모델 사용자 지정 탭)에서 전체 모델, 기법, 요금 목록을 확인하세요.