在 Amazon Bedrock 中配置拒绝主题和内容过滤器

发布时间:2024 年 5 月 6 日
机器学习
生成式 AI
视频
教程
亚马逊云科技
Olawale Olaleye
亚马逊云科技使用经验
100 - 初级
完成所需时间
10 分钟
上次更新时间
2024 年 5 月 6 日
相关产品

借助 Amazon Bedrock 防护机制,您可以在生成式人工智能(生成式 AI)应用程序中实施根据您的用例和负责任的 AI 策略定制的防护措施。您可以创建针对不同用例量身定制的多个防护机制,并将其应用于多个基础模型 (FM),从而改善最终用户体验并规范生成式人工智能应用程序的安全控制。您可以将 Amazon Bedrock 防护机制与 Amazon Bedrock 中的所有大型语言模型 (LLM)(包括经过微调的模型)配合使用。

除了 FM 的原生功能外,Bedrock 防护机制还提供业界领先的安全防护,与目前 Amazon Bedrock 上某些基础模型原生提供的防护相比,可帮助客户屏蔽高出多达 85% 的有害内容。Amazon Bedrock 防护机制是顶级云提供商提供的唯一一款负责任的人工智能功能,使客户能够在单一解决方案中为其生成式人工智能应用程序构建和自定义安全和隐私保护,它适用于 Amazon Bedrock 中的所有大型语言模型(LLM)以及经过微调的模型。

文章中展示如何使用防护机制配置阈值以过滤有害类别的内容,并定义一组需要在应用程序环境中避免的主题。内容过滤器功能现在有两个额外的安全类别:用于检测犯罪活动的不当行为和用于检测提示注入和越狱尝试的提示攻击。而且添加了重要的新功能,包括用于检测和编辑个人身份信息 (PII) 的敏感信息过滤器和用于阻止包含亵渎和自定义单词(例如有害字词、竞争对手名称和产品)的输入的字词过滤器。

Amazon Bedrock 防护机制位于应用程序和模型之间。防护机制会自动评估从应用程序进入模型以及从模型传出到应用程序的所有内容,以检测和帮助防止属于受限类别的内容。

视频教程

文档教程

新功能

为了开始使用 Amazon Bedrock 防护机制,转到 Amazon Bedrock 的 AWS 管理控制台,可以在其中创建防护机制并配置新功能。在 Amazon Bedrock 控制台的导航窗格中,选择防护机制,然后选择创建防护机制

输入防护机制的名称描述。选择下一步移至添加敏感信息过滤器步骤。

使用敏感信息过滤器来检测用户输入和调频输出中的敏感和私密信息。根据用例,可以选择一组在输入中屏蔽的实体(例如,不需要用户特定信息的基于常见问题解答的聊天机器人),或者在输出中进行编辑(例如,基于聊天记录的对话摘要)。敏感信息过滤器支持一组预定义的 PII 类型。还可以根据用例和需求定义基于正则表达式的自定义实体。

从列表中添加了两种 PII 类型(姓名、电子邮件),并使用预订 ID 作为姓名、[0-9a-fA-F]{8} 作为正则表达式模式添加正则表达式模式。

选择下一步,然后输入自定义消息,如果防护机制在定义屏蔽消息步骤中屏蔽了输入或模型响应,则会显示这些消息。在最后一步查看配置,然后选择创建防护机制

导航到“防护机制概述”页,并使用测试部分选择 Anthropic Claude Instant 1.2 模型。在提示字段中输入以下呼叫中心记录,然后选择运行

Please summarize the below call center transcript.Put the name, email and the booking ID to the top:
Agent: Welcome to ABC company.How can I help you today?
Customer: I want to cancel my hotel booking.
Agent: Sure, I can help you with the cancellation.Can you please provide your booking ID?
Customer: Yes, my booking ID is 550e8408.
Agent: Thank you.Can I have your name and email for confirmation?
Customer: My name is Jane Doe and my email is jane.doe@gmail.com
Agent: Thank you for confirming.I will go ahead and cancel your reservation.

防护机制操作表明,防护机制在三个实例中生效。使用查看跟踪来检查详细信息。注意到防护机制检测到了姓名、电子邮件预订 ID,并在最终响应中屏蔽了它们。

使用字词筛选器来屏蔽包含亵渎和自定义词语(例如,竞争对手姓名或攻击性词语)的输入。勾选过滤脏话复选框。脏话词汇列表基于脏话的全球定义。此外,可以指定最多 1 万个将由防护机制屏蔽的短语(每个短语最多三个字词)。屏蔽的消息将显示输入或模型回复中是否包含这些字词或短语。

现在,在字词过滤器下选择自定义字词短语,然后选择编辑。使用手动添加字词和短语来添加自定义单词 CompetitorY。如果需要上传短语列表,也可以使用从本地文件上传或从 S3 对象上传。选择保存并退出以返回防护机制页面。

输入包含有关虚构公司及其竞争对手的信息的提示,并添加问题 What are the extra features offered by CompetitorY?。选择运行

使用查看跟踪来检查详细信息。注意到防护机制是根据配置的策略进行干预的。

注意事项

Amazon Bedrock 防护机制在美国东部(弗吉尼亚州北部)和美国西部(俄勒冈州)区域可用。

有关定价信息,请访问 Amazon Bedrock 定价页面

要开始使用此功能,请访问 Amazon Bedrock 防护机制 网页。