Amazon Web Services 한국 블로그
Guardrails for Amazon Bedrock 정식 출시 – 새로운 안전 필터와 개인정보 보호 기능 추가
오늘, 지난 AWS re:Invent 2023에서 미리보기로로 출시된 Guardrails for Amazon Bedrock 기능을 정식 출시합니다. Guardrails for Amazon Bedrock을 사용하면 여러분의 사용 사례와 책임 있는 AI 정책에 맞게 사용자 지정된 생성형 AI 애플리케이션에 보호 기능을 구현할 수 있습니다.
다양한 사용 사례에 맞는 여러 개의 가드레일을 만들어서 여러 개의 파운데이션 모델(FM)에 적용하여 최종 사용자 경험을 개선하고 생성형 AI 애플리케이션 전반에 걸쳐 안전 제어를 표준화할 수 있습니다. 미세 조정된 모델을 포함하여 Amazon Bedrock의 모든 대규모 언어 모델(LLM)에 Guardrails for Amazon Bedrock을 사용할 수 있습니다.
Guardrails for Bedrock은 FM의 기본 기능 외에도 업계 최고의 안전 보호 기능을 제공함으로써, 고객이 현재 Amazon Bedrock의 몇몇 파운데이션 모델에서 기본적으로 제공하고 있는 보호 기능보다 85% 더 많은 유해 콘텐츠를 차단할 수 있도록 지원합니다. Guardrails for Amazon Bedrock은 최고의 클라우드 공급업체들이 제공하는 유일한 책임 있는 AI 기능으로, 고객이 하나의 솔루션으로 생성형 AI 애플리케이션에 안전 및 개인정보 보호 기능을 구축하고 사용자 지정할 수 있게 해주며, 미세 조정된 모델들은 물론이고 Amazon Bedrock의 모든 대규모 언어 모델(LLM)에서 작동합니다.
Aha!는 100만 명이 넘는 사람들이 제품 전략을 실현하도록 돕고 있는 소프트웨어 회사입니다. “우리 고객들은 목표를 설정하고 고객 피드백을 수집하고 시각적인 로드맵을 만들 때 항상 우리의 서비스를 이용합니다.”라고 Aha!의 공동 설립자이자 최고 기술 책임자인 Chris Waters는 말했습니다.
“우리가 Amazon Bedrock을 사용하여 수많은 생성형 AI 기능을 지원하는 이유가 바로 이것입니다. Amazon Bedrock은 책임 있는 AI 기능을 제공하고 있는데, 이를 통해 우리는 데이터 보호 및 개인정보보호 정책을 통해 우리의 정보를 완벽하게 제어하고 Guardrails for Bedrock을 통해 유해한 콘텐츠를 차단할 수 있습니다.
우리는 제품 관리자가 고객이 제시한 피드백을 분석하여 통찰을 할 수 있도록 이것을 좀더 발전시켰을 뿐입니다. 이것은 그저 시작에 불과합니다. 우리는 고급 AWS 기술을 기반으로 하여 계속 발전시켜 나가서 전 세계의 제품 개발 팀이 다음에 무엇을 만들지에 대해 확신을 갖고 우선순위를 정할 수 있도록 도울 것입니다.”
Antje는 미리보기 출시 글에서 가드레일을 사용하여 유해 범주에 속하는 콘텐츠를 필터링하는 임계값을 구성하고 사용자의 애플리케이션 컨텍스트에서 피해야 하는 주제들을 정의하는 방법을 보여주었습니다. 이제 콘텐츠 필터 기능에 범죄 행위 감지를 위한 불법 행위, 그리고 프롬프트 인젝션과 탈옥(jailbreak) 시도 감지를 위한 프롬프트 공격이라는 두 가지 안전 범주가 추가되었습니다. 또, 개인 식별 정보(PII)를 감지하여 삭제하는 민감한 정보 필터와 욕설과 고유명사(예: 감정을 상하게 하는 말, 경쟁사의 이름, 제품)가 포함된 입력 정보를 차단하는 단어 필터 등 중요한 기능들을 새로 추가했습니다.
Guardrails for Amazon Bedrock은 애플리케이션과 모델의 중간 형태입니다. 가드레일은 애플리케이션에서 모델로 들어오고 모델에서 애플리케이션으로 나가는 모든 것을 자동으로 평가하여 제한된 범주에 속하는 콘텐츠를 탐지하고 차단하는 데 도움을 줍니다.
평가판 출시 블로그에서 설명한 단계들을 다시 확인하여 거부되는 주제와 콘텐츠 필터를 구성하는 방법을 배울 수 있습니다. 이 새로운 기능들이 어떻게 작동하는지 보여드리겠습니다.
새로운 기능 소개
Guardrails for Amazon Bedrock을 사용하기 위해 Amazon Bedrock용 AWS Management Console로 이동합니다. 여기서 가드레일을 생성하고 새로운 기능들을 구성할 수 있습니다. Amazon Bedrock 콘솔의 탐색 창에서, Guardrails(가드레일)를 선택한 후에 Create guardrail(가드레일 생성)을 선택합니다.
가드레일의 Name(이름)과 Description(설명)을 입력합니다. Next(다음)를 선택하여 Add sensitive information filters(민감한 정보 필터 추가) 단계로 이동합니다.
사용자 입력과 FM 출력 내용에서 민감한 개인 정보를 감지하기 위해 Sensitive information filters(민감한 정보 필터)를 사용합니다. 사용 사례에 따라, 입력 내용(예: 사용자별 정보가 필요하지 않은 FAQ 기반 챗봇)에서 차단하거나 출력 내용(예: 채팅 내용을 기반으로 한 대화 요약)에서 삭제할 엔터티들의 집합을 선택할 수 있습니다. 민감한 정보 필터는 사전 정의된 PII 유형들의 세트를 지원합니다. 또, 사용자 지정 정규식 기반 엔터티를 사용 사례와 요구 사항에 맞게 정의할 수도 있습니다.
저는 목록에서 두 가지 PII types(PII 유형)(Name(이름), Email(이메일))를 추가하고 Booking ID(예약 ID)
를 Name(이름)으로, [0-9a-fA-F]{8}
를 Regex pattern(정규식 패턴)으로 사용해서 정규식을 추가하겠습니다.
Next(다음)을 선택하고 Define blocked messaging(차단되는 메시지 정의) 단계에서 가드레일이 입력 내용이나 모델 응답을 차단할 경우에 표시될 사용자 지정 메시지를 입력합니다. 마지막 단계에서 구성을 검토한 후 Create guardrail(가드레일 생성)을 선택합니다.
Guardrails Overview page(가드레일 개요 페이지)로 이동해서 Test(테스트) 섹션을 이용하여 Anthropic Claude Instant 1.2 모델을 선택합니다. Prompt(프롬프트) 필드에 아래의 콜센터 대본을 입력하고 Run(실행)을 선택합니다.
아래의 콜센터 대본을 요약하세요. 이름과 이메일, 예약 ID를 맨 위에 입력하세요.
직원: 안녕하세요, ABC사입니다. 무엇을 도와드릴까요?
고객: 호텔 예약을 취소하고 싶어요.
직원: 네, 취소를 도와드리겠습니다. 예약 ID를 알려주시겠습니까?
고객: 네, 제 예약 ID는 550e8408입니다.
직원: 감사합니다. 확인을 위해 고객님의 이름과 이메일을 알려주시겠습니까?
고객: 제 이름은 Jane Doe이고 이메일은 jane.doe@gmail.com입니다.
직원: 확인해 주셔서 감사합니다. 지금 고객님의 예약을 취소하겠습니다.
Guardrail action(가드레일 작업)은 가드레일이 작업을 실행한 사례가 세 건 있었음을 보여줍니다. View trace(추적 보기)를 사용하여 세부 정보를 확인합니다. 가드레일이 이름, 이메일, 그리고 예약 ID를 감지하여 최종 응답에서 이것들을 마스킹한 것을 확인합니다.
욕설과 고유명사(예: 경쟁자 이름 또는 불쾌감을 주는 단어)가 포함된 입력 내용을 차단하기 위해 Word filters(단어 필터)를 사용합니다. Filter profanity(욕설 필터) 상자에 체크합니다. 욕설 단어 목록은 욕설에 대한 글로벌 정의를 기반으로 합니다. 그리고, 가드레일에서 차단할 구문을 최대 10,000개까지 지정할 수 있습니다(한 구문당 최대 3단어). 차단된 메시지는 나의 입력 내용이나 모델 응답에 이러한 단어나 구문이 포함되어 있는지를 보여줍니다.
이제 Word filters(단어 필터)에서 Custom words and phrases(고유명사와 구문)을 선택한 후 Edit(편집)를 선택합니다. Add words and phrases manually(단어와 구문 직접 추가)를 사용하여 고유명사 CompetitorY
를 추가합니다. 아니면 구문들의 목록을 업로드해야 할 경우에는 Upload from a local file(로컬 파일에서 업로드) 또는 Upload from S3 object(S3 객체에서 업로드)를 사용해도 됩니다. Save and exit(저장 후 종료)를 선택하여 내 가드레일 페이지로 돌아갑니다.
가상의 회사와 그 경쟁사에 대한 정보가 포함된 프롬프트를 입력한 후 CompetitorY에서 제공하는 추가 기능에는 무엇이 있습니까?
라는 질문을 추가합니다. Run(실행)을 선택합니다.
View trace(추적 보기)를 사용하여 세부 정보를 확인합니다. 내가 구성한 정책에 따라 가드레일이 개입하였음을 확인할 수 있습니다.
정식 출시
이제 Guardrails for Amazon Bedrock을 미국 동부(버지니아 북부)와 미국 서부(오레곤) 지역에서 사용할 수 있습니다.
요금 정보는 Amazon Bedrock 요금 페이지를 참조하세요. 이 기능을 시작하려면 Guardrails for Amazon Bedrock 웹 페이지를 방문하세요.
심층적인 기술 콘텐츠를 찾아보고 빌더 커뮤니티에서는 각자의 솔루션에서 Amazon Bedrock을 어떻게 사용하고 있는지 알아보려면 당사의 community.aws웹 사이트를 방문하세요.