亚马逊AWS官方博客

Amazon Bedrock 防护机制现已推出,并提供新的安全过滤器和隐私控件



今天,我很高兴地宣布 Amazon Bedrock 防护机制正式发布,该产品最初曾以预览版的形式在 re:Invent 2023 上发布。借助 Amazon Bedrock 防护机制,您可以在生成式人工智能(生成式 AI)应用程序中实施根据您的用例和负责任的 AI 策略定制的防护措施。您可以创建针对不同用例量身定制的多个防护机制,并将其应用于多个基础模型(FM),从而改善最终用户体验并规范生成式人工智能应用程序的安全控制。您可以将 Amazon Bedrock 防护机制与 Amazon Bedrock 中的所有大型语言模型(LLM)(包括经过微调的模型)配合使用。

除了 FM 的原生功能外,Bedrock 防护机制还提供业界领先的安全防护,与目前 Amazon Bedrock 上某些基础模型原生提供的防护相比,可帮助客户屏蔽高出多达 85% 的有害内容。Amazon Bedrock 防护机制是顶级云提供商提供的唯一一款负责任的人工智能功能,使客户能够在单一解决方案中为其生成式人工智能应用程序构建和自定义安全和隐私保护,它适用于 Amazon Bedrock 中的所有大型语言模型(LLM)以及经过微调的模型。

Aha! 是一家软件公司,帮助超过 100 万人将他们的产品策略变为现实。“我们的客户每天都依赖我们来设定目标、收集客户反馈并制定可视化路线图,”Aha! 联合创始人兼首席技术官 Chris Waters 博士说。“这就是我们使用 Amazon Bedrock 为我们的许多生成式人工智能功能提供支持的原因。Amazon Bedrock 提供负责任的人工智能功能,使我们能够通过其数据保护和隐私策略全面掌控自己的信息,并通过 Bedrock 防护机制屏蔽有害内容。在此基础上,我们通过分析客户提交的反馈来帮助产品经理发现见解。这只是开始。我们将继续以先进的 AWS 技术为基础,帮助世界各地的产品开发团队充满信心地确定下一步要构建的内容。”

在预览文章中,Antje 向您展示了如何使用防护机制配置阈值以过滤有害类别的内容,并定义一组需要在应用程序环境中避免的主题。内容过滤器功能现在有两个额外的安全类别:用于检测犯罪活动的不当行为和用于检测提示注入和越狱尝试的提示攻击。我们还添加了重要的新功能,包括用于检测和编辑个人身份信息(PII)的敏感信息过滤器和用于阻止包含亵渎和自定义单词(例如有害字词、竞争对手名称和产品)的输入的字词过滤器。

Amazon Bedrock 防护机制位于应用程序和模型之间。防护机制会自动评估从应用程序进入模型以及从模型传出到应用程序的所有内容,以检测和帮助防止属于受限类别的内容。

您可以在预览版博客中回顾这些步骤,了解如何配置拒绝主题内容过滤器。下面我来展示一下这些新功能是如何运作的。

新功能
为了开始使用 Amazon Bedrock 防护机制,我转到 Amazon Bedrock 的 AWS 管理控制台,我可以在其中创建防护机制并配置新功能。在 Amazon Bedrock 控制台的导航窗格中,我选择防护机制,然后选择创建防护机制

我输入防护机制的名称描述。我选择下一步移至添加敏感信息过滤器步骤。

我使用敏感信息过滤器来检测用户输入和调频输出中的敏感和私密信息。根据用例,我可以选择一组在输入中屏蔽的实体(例如,不需要用户特定信息的基于常见问题解答的聊天机器人),或者在输出中进行编辑(例如,基于聊天记录的对话摘要)。敏感信息过滤器支持一组预定义的 PII 类型。我还可以根据我的用例和需求定义基于正则表达式的自定义实体。

我从列表中添加了两种 PII 类型(姓名、电子邮件),并使用预订 ID 作为姓名[0-9a-fA-F]{8} 作为正则表达式模式添加正则表达式模式。

我选择下一步,然后输入自定义消息,如果我的防护机制在定义屏蔽消息步骤中屏蔽了输入或模型响应,则会显示这些消息。我在最后一步查看配置,然后选择创建防护机制

我导航到“防护机制概述”页,并使用测试部分选择 Anthropic Claude Instant 1.2 模型。我在提示字段中输入以下呼叫中心记录,然后选择运行

Please summarize the below call center transcript.Put the name, email and the booking ID to the top:
Agent: Welcome to ABC company.How can I help you today?
Customer: I want to cancel my hotel booking.
Agent: Sure, I can help you with the cancellation.Can you please provide your booking ID?
Customer: Yes, my booking ID is 550e8408.
Agent: Thank you.Can I have your name and email for confirmation?
Customer: My name is Jane Doe and my email is jane.doe@gmail.com
Agent: Thank you for confirming.I will go ahead and cancel your reservation.

防护机制操作表明,防护机制在三个实例中生效。我使用查看跟踪来检查详细信息。我注意到防护机制检测到了姓名、电子邮件预订 ID,并在最终响应中屏蔽了它们。

我使用字词筛选器来屏蔽包含亵渎和自定义词语(例如,竞争对手姓名或攻击性词语)的输入。我勾选了过滤脏话复选框。脏话词汇列表基于脏话的全球定义。此外,我可以指定最多 1 万个将由防护机制屏蔽的短语(每个短语最多三个字词)。屏蔽的消息将显示我的输入或模型回复中是否包含这些字词或短语。

现在,我在字词过滤器下选择自定义字词和短语,然后选择编辑。我使用手动添加字词和短语来添加自定义单词 CompetitorY。如果我需要上传短语列表,也可以使用从本地文件上传从 S3 对象上传。我选择保存并退出以返回我的防护机制页面。

我输入包含有关虚构公司及其竞争对手的信息的提示,并添加问题 What are the extra features offered by CompetitorY?。我选择运行

我使用查看跟踪来检查详细信息。我注意到防护机制是根据我配置的策略进行干预的。

现已推出
Amazon Bedrock 防护机制现已在美国东部(弗吉尼亚州北部)和美国西部(俄勒冈州)区域推出。

有关定价信息,请访问 Amazon Bedrock 定价页面

要开始使用此功能,请访问 Amazon Bedrock 防护机制网页。

如需深入的技术内容并了解我们的构建者社区如何在其解决方案中使用 Amazon Bedrock,请访问我们的 community.aws 网站。

– Esra