RLHF란 무엇인가요?
인간 피드백을 통한 강화 학습(RLHF)은 인간의 피드백을 사용하여 ML 모델을 최적화함으로써 자가 학습을 보다 효율적으로 수행하는 기계 학습(ML) 기법입니다. 강화형 기계 학습(RL) 기법은 보상이 극대화되는 결정을 내리고, 보다 정확한 결과를 얻을 수 있는 결정을 내리도록 소프트웨어를 훈련합니다. RLHF는 보상 기능에 인간의 피드백을 통합하므로, ML 모델이 인간의 목표, 욕구 및 니즈에 보다 부합하는 작업을 수행할 수 있습니다. RLHF는 대규모 언어 모델(LLM)을 비롯한 생성형 인공 지능(생성형 AI) 애플리케이션 전반에 사용됩니다.
RLHF가 중요한 이유는 무엇인가요?
인공 지능(AI)의 응용 분야는 자율 주행 자동차부터 자연어 처리(NLP), 주식 시장 예측 및 소매 개인화 서비스에 이르기까지 광범위합니다. 어떤 응용 분야에서든 AI의 목표는 궁극적으로 인간의 응답, 행동 및 의사 결정을 모방하는 것입니다. ML 모델은 복잡한 작업을 수행할 때 AI가 인간을 더 정확하게 모방할 수 있도록 사람의 입력을 훈련 데이터로 인코딩해야 합니다.
RLHF는 AI 시스템이 더 인간적으로 보이도록 훈련하는 데 지도 학습, 비지도 학습 등의 다른 기법과 함께 사용되는 특정 기법입니다. 먼저, 모델의 응답을 인간의 응답과 비교합니다. 그런 다음 사람이 기계에서 도출되는 다양한 응답의 품질을 평가하여 어떤 응답이 더 인간적으로 들리는지 점수를 매깁니다. 점수는 친근감, 적절한 맥락화 정도, 분위기와 같은 타고난 인간적 특성을 기반으로 할 수 있습니다.
RLHF는 자연어 이해에 탁월하지만, 다른 생성형 AI 애플리케이션에서도 사용됩니다.
AI 성능 향상
RLHF는 ML 모델의 정확성을 높입니다. 모델은 사전 생성된 인간 데이터를 기반으로 훈련할 수 있지만, 추가적인 인간 피드백 루프가 있으면 초기 상태에 비해 모델 성능이 크게 향상됩니다.
예를 들어 텍스트를 특정 언어에서 다른 언어로 번역할 때, 모델은 의미는 맞지만 독자에게 부자연스럽게 들리는 텍스트를 생성할 수 있습니다. 전문 번역가가 먼저 번역 작업을 수행하고 그 번역을 기준으로 기계로 생성한 번역에 점수를 매긴 다음, 기계로 생성한 일련의 번역에 대해 품질 점수를 매길 수 있습니다. 모델에 훈련을 더 추가하면 자연스럽게 들리는 번역을 더 잘 생성할 수 있게 됩니다.
복잡한 훈련 파라미터 도입
생성형 AI의 경우 특정 파라미터에 대해 모델을 정확하게 훈련하기가 어려울 수 있습니다. 예를 들어 음악의 분위기는 어떻게 정의해야 할까요? 특정 분위기를 나타내는 키 및 템포와 같은 기술적 파라미터가 있을 수 있지만, 음악 작품 분위기는 일련의 기술적인 요소보다 더 주관적이고 덜 명확한 요소로 결정됩니다. 대신 작곡가가 분위기 있는 곡을 만들 수 있도록 사람이 직접 안내한 다음, 분위기 수준에 따라 기계가 만든 곡에 레이블링할 수 있습니다. 이를 통해 기계는 이러한 파라미터를 훨씬 더 빠르게 학습할 수 있습니다.
사용자 만족도 제고
ML 모델은 정확할 수 있지만 부자연스럽게 보일 수 있습니다. RL은 인간 사용자에게 가장 매력적인 최상의 응답을 제공하도록 모델을 안내하는 데 필요합니다.
예를 들어 챗봇에게 바깥 날씨를 물으면 “섭씨 30도이고 구름이 많고 습도가 높습니다”라고 대답하거나 “현재 기온은 30도 정도예요. 날씨가 흐리고 습하기 때문에 공기가 더 무겁게 느껴질 수 있어요!라고 대답할 수 있습니다. 두 응답 모두 같은 내용이긴 하지만, 두 번째 응답은 더 자연스럽고 더 많은 컨텍스트를 제공합니다.
실제 사용자가 선호하는 모델 응답을 평가하면, RLHF를 사용하여 인적 피드백을 수집하고 실제 사용자에게 가장 적합한 서비스를 제공하도록 모델을 개선할 수 있습니다.
RLHF는 어떻게 작동하나요?
모델이 준비되려면 4단계로 RLHF를 수행해야 합니다. 여기서는 개선을 위해 RLHF를 사용하는 언어 모델(회사 내부 지식 기반 챗봇)의 예를 사용합니다.
여기서는 학습 프로세스에 대한 개요만 제공합니다. RLHF의 모델 훈련 및 정책 개선에는 상당한 수학적 복잡성이 존재합니다. 하지만 복잡한 프로세스는 RLHF에 잘 정의되어 있으며, 고유한 입력만 필요한 사전 구축된 알고리즘이 있는 경우가 많습니다.
데이터 수집
언어 모델을 사용하여 ML 작업을 수행하기 전에 훈련 데이터에 대해 사람이 생성하는 프롬프트 및 응답 세트가 생성됩니다. 이 세트는 모델의 훈련 프로세스 후반부에 사용됩니다.
예를 들어 다음과 같은 프롬프트가 사용될 수 있습니다.
- “보스턴의 HR 부서 위치는 어디인가요?”
- “소셜 미디어 게시물의 승인 절차는 어떻게 되나요?”
- “이전 분기 보고서와 비교하여 1분기 보고서의 수익은 어떻게 나타나나요?”
그러면 회사의 지식 근로자가 정확하고 자연스러운 답변으로 이러한 질문에 답합니다.
언어 모델의 지도 미세 조정
사전 훈련된 상용 모델을 RLHF의 기본 모델로 사용할 수 있습니다. 검색 증강 생성(RAG)과 같은 기법을 사용하여 회사 내부 지식 기반에 맞게 모델을 미세 조정할 수 있습니다. 모델을 미세 조정할 때는 미리 정해진 프롬프트에 대한 모델의 응답을 이전 단계에서 수집한 사람의 응답과 비교합니다. 수학적 기법으로 둘 사이의 유사성 정도를 계산할 수 있습니다.
예를 들어 기계가 생성한 응답에는 0에서 1 사이의 점수를 할당할 수 있습니다. 가장 높은 정확도는 1이고 가장 낮은 정확도는 0입니다. 이제 모델은 이 점수를 바탕으로, 사람의 응답에 더 가까운 점수를 받는 응답을 생성하도록 설계된 정책을 갖게 되었습니다. 이 정책은 모델에 대한 모든 향후 의사 결정의 기반이 됩니다.
별도의 보상 모델 구축
RLHF의 핵심은 인간의 피드백을 기반으로 별도의 AI 보상 모델을 훈련한 후 이 모델을 보상 함수로 사용하여 RL을 통해 정책을 최적화하는 것입니다. 동일한 프롬프트에 응답하는 모델의 여러 응답 세트가 주어지면 인간은 각 응답의 품질에 대한 선호도를 표시할 수 있습니다. 이러한 응답 평가 선호도를 사용하여 사람이 주어진 프롬프트 응답에서 얼마나 높은 점수를 받을지 자동으로 추정하는 보상 모델을 구축할 수 있습니다.
보상 기반 모델을 사용하여 언어 모델을 최적화
그러면 언어 모델이 프롬프트에 응답하기 전에 보상 모델을 사용하여 정책을 자동으로 수정합니다. 언어 모델은 보상 모델을 사용하여 일련의 응답을 내부적으로 평가한 다음, 가장 큰 보상을 유발할 가능성이 가장 높은 응답을 선택합니다. 이는 보다 최적화된 방식으로 인간의 선호도를 충족한다는 것을 의미합니다.
다음 이미지는 RLHF 학습 프로세스의 개요를 보여줍니다.
RLHF는 생성형 AI 분야에서 어떻게 사용되나요?
RLHF는 LLM이 정확하고 무해하며 유용한 콘텐츠를 생성할 수 있도록 하는 업계 표준 기법으로 인정받고 있습니다. 하지만 인간의 의사소통은 주관적이고 창의적인 과정이며, LLM 결과물의 유용성은 인간의 가치와 기호에 크게 영향을 받습니다. 각 모델은 서로 조금씩 다르게 훈련되고 각기 다른 인간 응답자를 사용하므로 경쟁 LLM 간에도 출력이 다릅니다. 각 모델이 인간의 가치를 어느 정도 포함하는지는 전적으로 제작자에게 달려 있습니다.
RLHF의 응용 분야는 LLM의 범위를 넘어 다른 유형의 생성형 AI까지 확장됩니다. 다음은 몇 가지 예입니다.
- RLHF는 AI 이미지 생성에 사용할 수 있습니다. 예를 들어 아트워크의 사실성 정도, 세부성 또는 분위기를 측정할 수 있습니다.
- 음악 생성 시 RLHF는 특정 분위기와 활동에 맞는 사운드트랙을 만드는 데 도움을 줄 수 있습니다.
- RLHF는 음성 어시스턴트로 사용되어 더 친근하고 탐구적이며 신뢰할 수 있는 음성으로 들리도록 유도할 수 있습니다.
AWS는 RLHF 요구 사항을 어떻게 지원하나요?
Amazon SageMaker Ground Truth는 ML 수명 주기 전반에 걸쳐 인적 피드백을 통합하여 모델 정확도와 연관성을 개선할 수 있는 가장 다양한 HITL(Human-in-the-Loop) 기능 세트를 제공합니다. 셀프 서비스 또는 AWS 관리형 제품을 통해, 데이터 생성 및 주석부터 보상 모델 생성, 모델 검토 및 사용자 지정에 이르기까지, 다양한 HITL 작업을 완료할 수 있습니다.
SageMaker Ground Truth에는 RLHF 기능을 위한 데이터 주석기가 포함되어 있습니다. RL 결과에 대한 응답의 순위를 매기거나 분류하거나 두 가지를 모두 수행하여, 모델이 생성한 결과에 대한 직접적인 피드백과 지침을 제공할 수 있습니다. 비교 및 순위 데이터라고 하는 데이터는 사실상 보상 모델 또는 보상 함수이며, 모델을 훈련하는 데 사용됩니다. 비교 및 순위 데이터를 사용하여 사용 사례에 맞게 기존 모델을 맞춤화하거나 새로 구축한 모델을 미세 조정할 수 있습니다.
지금 계정을 만들어 AWS에서 RLHF 기법을 시작하세요.