Amazon Bedrock용 가드레인

애플리케이션 요구 사항 및 책임 있는 AI 정책에 맞게 사용자 지정된 보호 장치를 구현

Amazon Bedrock용 가드레일을 사용하여 책임감 있는 AI 애플리케이션을 구축하세요

Amazon Bedrock용 가드레일은 FM의 기본 보호 기능 외에도 사용자 지정 가능한 추가 보호 기능을 제공하여 다음과 같이 업계 최고의 안전성을 보장합니다.

  • 유해 콘텐츠 최대 85% 차단
  • RAG 및 요약 워크로드에 대한 할루시네이션 응답 75% 이상 필터링
  • 고객이 단일 솔루션 내에서 안전성, 개인정보 보호 및 진실성 보장을 사용자 정의하고 적용할 수 있도록 지원

모든 애플리케이션에 일관된 수준의 AI 안전 제공

Guardrails for Amazon Bedrock은 사용 사례별 정책을 기반으로 사용자 입력 및 FM 응답을 평가하고, 기본 FM과 관계없이 추가 계층의 보호를 제공합니다. Guardrails for Amazon Bedrock은 주요 클라우드 공급자가 제공하는 유일한 책임 있는 AI 기능으로, 고객이 단일 솔루션에서 생성형 AI 애플리케이션에 대한 안전성, 개인정보 보호 및 진실성 보장을 구축하고 사용자 지정할 수 있도록 지원하며, Amazon Bedrock의 모든 대규모 언어 모델(LLM) 및 미세 조정된 모델과 함께 작동합니다. 고객은 각각 다른 제어 조합으로 구성된 여러 가드레일을 생성하고, 이 가드레일을 여러 애플리케이션과 사용 사례에 사용할 수 있습니다. 또한 가드레일을 Amazon Bedrock용 에이전트 및 지식 자료와 통합하여 책임 있는 AI 정책에 부합하는 생성형 AI 애플리케이션을 구축할 수 있습니다. 또한 가드레일은 ApplyGuardrail API를 제공하여 Bedrock 외부의 사용자 지정 또는 타사 FM에서 생성된 사용자 입력 및 모델 응답을 평가합니다.

UI 스크린샷

생성형 AI 애플리케이션에서 바람직하지 않은 주제 차단

적절하고 안전한 사용자 경험을 보장하려면 생성형 AI 애플리케이션 내의 상호 작용을 관리해야 합니다. 그러려면 비즈니스 관련 주제에 초점을 맞추고 회사 정책에 부합하도록 상호 작용을 추가로 맞춤화하는 것이 좋습니다. Guardrails for Amazon Bedrock에서는 짧은 자연어 설명을 사용하여 애플리케이션 컨텍스트 내에서 방지할 주제 세트를 정의할 수 있습니다. Guardrails는 제한된 주제에 해당하는 사용자 입력 및 FM 응답을 감지하고 차단합니다. 예를 들어 뱅킹 도우미를 설계할 때는 투자 조언과 관련된 주제를 피하도록 설계할 수 있습니다.

Guardrails for Amazon Bedrock 콘텐츠 필터

책임 있는 AI 정책에 따라 유해 콘텐츠 필터링

Guardrails for Amazon Bedrock은 혐오, 모욕, 성적인 내용, 폭력, 위법 행위(범죄 행위 포함)와 같은 유해한 콘텐츠를 필터링하고 프롬프트 공격(프롬프트 주입, 탈옥)으로부터 보호하기 위한 임계값을 구성할 수 있는 콘텐츠 필터를 제공합니다. 대부분의 FM에는 유해한 응답의 생성을 차단하는 보호 기능이 기본적으로 포함되어 있습니다. Guardrails를 사용하면 이러한 보호 기능 외에도 여러 콘텐츠 카테고리에 대한 임계값을 구성하여 유해한 상호 작용을 필터링할 수 있습니다. 필터의 강도를 높이면 필터링될 가능성이 높아집니다. Guardrails는 사용자 입력 및 모델 응답을 자동으로 평가하여 제한된 카테고리에 속하는 콘텐츠를 감지하고 차단하는 데 도움을 줍니다. 예를 들어 전자 상거래 사이트의 온라인 도우미를 설계할 때 증오 발언이나 욕설과 같은 부적절한 언어를 사용하지 않도록 설계할 수 있습니다.

Guardrails for Amazon Bedrock 거부된 주제

민감한 정보(PII)를 삭제하여 개인 정보 보호

Guardrails for Amazon Bedrock을 사용하면 사용자 입력 및 FM 응답에서 개인 식별 정보(PII)와 같은 민감한 내용을 감지할 수 있습니다. 사전 정의된 PII 목록에서 선택하거나 정규 표현식(RegEx)을 사용하여 사용자 지정 민감 정보 유형을 정의할 수 있습니다. 사용 사례에 따라 민감한 정보가 포함된 입력을 선택적으로 거부하거나 FM 응답에서 삭제할 수 있습니다. 예를 들어 고객 센터 고객과 에이전트의 대화 내용을 요약할 때 사용자의 개인 정보를 수정할 수 있습니다.

가명화 및 GDPR 아이콘

사용자 지정 단어 필터로 부적절한 콘텐츠 차단

Guardrails for Amazon Bedrock을 사용하면 사용자와 생성형 AI 애플리케이션 간의 상호 작용에서 감지하고 차단하려는 사용자 지정 단어 또는 문구 세트를 구성할 수 있습니다. 욕설뿐만 아니라 경쟁사 이름 또는 기타 불쾌한 단어와 같은 특정 사용자 지정 단어를 감지하고 차단할 수도 있습니다.

콘텐츠 필터 스크린샷

문맥적 근거 확인을 사용해 모델 응답에서 할루시네이션 감지

조직은 사용자의 신뢰를 유지하고 강화하기 위해 진실되고 신뢰할 수 있는 생성형 AI 애플리케이션을 배포해야 합니다. 그러나 FM을 사용하여 구축한 애플리케이션은 할루시네이션으로 인해 잘못된 정보를 생성할 수 있습니다. 예를 들어, FM이 소스 정보에서 벗어난 응답을 생성하거나, 여러 정보를 통합하거나, 새로운 정보를 만들어 낼 수 있습니다. Guardrails for Amazon Bedrock은 응답이 소스 정보에 근거하지 않고(예: 사실적으로 부정확하거나 새로운 정보) 사용자의 쿼리 또는 명령과 관련이 없는 경우 할루시네이션을 감지하고 필터링하는 문맥적 근거 확인을 지원합니다. 문맥적 근거 확인을 사용하여 RAG, 요약 및 대화형 애플리케이션에서 할루시네이션을 감지할 수 있으며, 소스 정보를 참조로 사용하여 모델 응답을 검증할 수 있습니다.

문맥적 근거 확인을 사용해 모델 응답에서 할루시네이션 감지