Amazon Web Services 한국 블로그
Amazon Bedrock, 정확한 AI 모델 구축을 위한 강화 파인튜닝 기능 추가
기업은 특정 비즈니스 요구 사항에 맞춰 AI 모델을 적응시킬 때 평균적인 결과에 그치는 일반 모델을 그대로 사용할 것인지, 고급 모델 사용자 지정에 따른 복잡성과 비용을 감수할 것인지 사이에서 균형을 맞춰야 하는 까다로운 상황에 직면하곤 합니다. 기존 접근 방식의 경우 소규모 모델로 인한 성능 저하 또는 대규모 모델을 배포하고 복잡한 인프라를 관리하면서 발생하는 많은 비용 중 하나를 선택해야 합니다. 강화 미세 조정은 레이블이 지정된 대규모 데이터세트 대신 피드백을 사용하여 모델을 훈련하는 고급 기술이지만, 이를 구현하려면 일반적으로 ML 관련 전문 지식, 복잡한 인프라 및 상당한 투자가 필요하며, 여기에는 특정 사용 사례에 필요한 정확성도 보장되지 않습니다.
오늘은 Amazon Bedrock의 강화 학습 기반 미세 조정(Fine-tuning) 기능을 소개합니다. 피드백을 통해 학습하고 특정 비즈니스 요구에 맞춰 더 높은 품질의 결과를 제공하는 더욱 스마트하고 비용 효율적인 모델을 만들 수 있는 새로운 모델 사용자 지정 기능입니다. 강화 미세 조정은 보상 신호를 기반으로 반복적으로 개선하는 피드백 기반 접근 방식을 사용하여 기본 모델에 비해 평균적으로 정확도가 66% 향상됩니다.
Amazon Bedrock은 강화 미세 조정 워크플로를 자동화하기에 심층적인 기계 학습(ML) 전문 지식이나 레이블이 지정된 대규모 데이터세트 없이도 보통의 개발자가 이 고급 모델 사용자 지정 기술을 사용할 수 있습니다.
강화 미세 조정의 작동 원리
강화 미세 조정은 강화 학습 원칙 토대로, 모델이 비즈니스 요구 사항과 사용자 선호에 부합하는 결과물을 일관되게 생성하도록 만드는 일반적인 과제를 해결하기 위해 구축된 기술입니다.
기존의 미세 조정에는 레이블이 지정된 대규모 데이터세트와 비용이 많이 드는 휴먼 어노테이션(human annotation)이 필요하지만, 강화 미세 조정은 다른 접근 방식을 취합니다. 정형화된 사례를 통해 학습하는 대신 보상 함수를 사용하여 특정 비즈니스 사용 사례에 적합한 응답을 평가하고 판단합니다. 이 방식은 방대한 사전 라벨링 훈련 데이터 없이도 모델이 양질의 응답을 구성하는 요소를 이해하도록 학습하게 되어, Amazon Bedrock의 고급 모델 사용자 지정을 보다 접근하기 쉽고 비용 효율적으로 구현할 수 있습니다.
Amazon Bedrock에서 강화 미세 조정을 사용할 때의 이점:
- 사용 편의성 – Amazon Bedrock은 대부분의 복잡한 과정을 자동화하여 AI 애플리케이션을 구축하는 개발자가 더욱 쉽게 강화 미세 조정을 이용할 수 있습니다. Amazon Bedrock의 기존 API 로그를 사용하거나 데이터세트를 훈련 데이터로 업로드하여 모델을 훈련할 수 있으므로 레이블이 지정된 데이터세트나 인프라 설정이 필요하지 않습니다.
- 모델 성능 향상 – 강화 미세 조정은 기본 모델에 비해 모델 정확도가 평균 66% 개선되므로, 더 작고 빠르며 효율적인 모델 변형을 훈련하여 비용과 성능을 최적화할 수 있습니다. Amazon Nova 2 Lite 모델을 사용하므로 특정 비즈니스 요구에 맞춰 품질 및 가격 대비 성능이 개선되고, 곧 추가 모델도 지원할 예정입니다.
- 보안 – 전체 사용자 지정 프로세스 동안 데이터가 안전한 AWS 환경 내에 유지되므로 보안 및 규정 준수 문제가 완화됩니다.
본 기능은 유연하게 모델을 최적화하기 위해 2가지 보완적인 방식을 지원합니다.
- 검증 가능한 보상 기반 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)은 코드 생성 또는 수학 추론과 같은 객관적인 작업에 규칙 기반 평가자를 사용합니다.
- AI 피드백 기반 강화 학습(Reinforcement Learning from AI Feedback, RLAIF)은 지침 준수 또는 콘텐츠 조정과 같은 주관적인 작업에 AI 기반 평가자를 활용합니다.
Amazon Bedrock에서 강화 미세 조정 시작하기
강화 미세 조정 작업을 만드는 과정을 살펴보겠습니다.
먼저 Amazon Bedrock 콘솔에 액세스합니다. 그런 다음 Custom models(사용자 지정 모델) 페이지로 이동합니다. Create(생성)를 선택하고, Reinforcement fine-tuning job(강화 미세 조정 작업)을 선택합니다.

이 사용자 지정 작업의 이름을 입력한 다음 기본 모델을 선택합니다. 출시 시점에서 강화 미세 조정은 Amazon Nova 2 Lite를 지원하며, 추가 모델도 곧 지원할 예정입니다.

다음으로 훈련 데이터를 제공해야 합니다. 저장된 간접 호출 로그를 직접 사용할 수 있기에 별도의 데이터세트를 업로드할 필요가 없습니다. 새 JSONL 파일을 업로드하거나 Amazon Simple Storage Service(Amazon S3)에서 기존 데이터세트를 선택할 수도 있습니다. 강화 미세 조정은 훈련 데이터세트를 자동으로 검증하고 OpenAI Chat Completions 데이터 형식을 지원합니다. Amazon Bedrock Invoke 또는 Converse 형식으로 간접 호출 로그를 제공하면 Amazon Bedrock에서 자동으로 이를 Chat Completions 형식으로 변환합니다.

보상 함수 설정에서는 좋은 응답을 구성하는 요소를 정의합니다. 여기에는 2가지 옵션이 있습니다. 객관적 작업의 경우 Custom code(사용자 지정 코드)를 선택하고 AWS Lambda 함수를 통해 실행되는 사용자 지정 Python 코드를 작성할 수 있습니다. 좀 더 주관적인 평가의 경우 Model as judge(평가자 모델)를 선택하여 평가 지침을 제공하고 파운데이션 모델(FM)을 평가자로 사용할 수 있습니다.
여기서는 Custom code(사용자 지정 코드)를 선택하고 새 Lambda 함수를 생성하거나 기존 함수를 보상 함수로 사용합니다. 제공된 템플릿 중 하나로 시작한 다음 특정 요구 사항에 맞춰 사용자 지정할 수 있습니다.

필요한 경우 학습 속도, 배치 크기 및 에포크와 같은 기본 하이퍼파라미터를 수정할 수 있습니다.

보안 강화를 위해 조직의 규정 준수 요구 사항을 충족하도록 가상 프라이빗 클라우드(VPC) 설정과 AWS Key Management Service(AWS KMS) 암호화를 구성할 수 있습니다. 그런 다음 Create(생성)를 선택하여 모델 사용자 지정 작업을 시작합니다.

훈련 도중 실시간 지표를 모니터링하여 모델이 어떻게 학습하는지 이해할 수 있습니다. 훈련 지표 대시보드에는 보상 점수, 손실 곡선, 시간 경과에 따른 정확도 개선을 비롯한 주요 성과 지표가 표시됩니다. 이 지표들은 모델이 제대로 수렴하고 있는지, 그리고 보상 함수가 학습 과정을 효과적으로 이끌고 있는지를 파악하는 데 도움이 됩니다.

강화 미세 조정 작업이 완료되면 Model details(모델 세부 정보) 페이지에서 최종 작업 상태를 볼 수 있습니다.

작업이 완료되면 클릭 한 번으로 모델을 배포할 수 있습니다. Set up inference(추론 설정)를 선택한 다음 Deploy for on-demand(온디맨드 배포)를 선택합니다.

여기서 모델에 대한 몇 가지 세부 정보를 입력합니다.

배포 후에는 Amazon Bedrock 플레이그라운드를 사용하여 모델의 성능을 빠르게 평가할 수 있습니다. 이를 통해 샘플 프롬프트를 사용하여 미세 조정된 모델을 테스트하고 응답과 기본 모델을 비교하여 개선 여부를 검증할 수 있습니다. Test in playground(플레이그라운드에서 테스트)를 선택합니다.

플레이그라운드는 빠른 테스트와 반복이 가능하도록 직관적인 인터페이스를 제공하므로 모델을 프로덕션 애플리케이션에 통합하기 전에 모델이 품질 요구 사항을 충족하는지 확인하는 데 도움이 됩니다.

대화형 데모
Amazon Bedrock 강화 미세 조정이 실제로 작동하는 대화형 데모를 살펴보면서 자세히 알아보세요.

추가 정보
알아두어야 할 요점은 다음과 같습니다.
- 템플릿 – 객관적 및 주관적 작업 모두에 대한 일반적인 사용 사례와 관련하여 즉시 사용 가능한 7개의 보상 함수 템플릿이 있습니다.
- 요금 – 요금에 대해 자세히 알아보려면 Amazon Bedrock 요금 페이지를 참조하세요.
- 보안 – 훈련 데이터 및 사용자 지정 모델은 비공개로 유지되며 공공의 사용을 위해 FM을 개선하는 데 사용되지 않습니다. 보안 강화를 위해 VPC 및 AWS KMS 암호화가 지원됩니다.
강화 미세 조정 설명서를 참조하고 Amazon Bedrock 콘솔에 액세스하여 강화 미세 조정을 시작하세요.
즐겁게 빌드해 보세요!
– Donnie