亚马逊AWS官方博客

在 Amazon Bedrock(预览版)中评估、比较和选择适合您的使用案例的最佳基础模型



我很高兴地告诉大家,现在可以在 Amazon Bedrock 中评估、比较和选择适合您的使用案例的最佳基础模型(FM)。Amazon Bedrock 中的模型评估现已推出预览版。

Amazon Bedrock 提供自动评估和人工评估两种选择。您可以使用包含准确性、稳定性和恶意内容等预定义指标的自动评估。对于友好度、风格和与品牌声音的一致性等主观或自定义指标,您只需点击几下即可设置人工评估工作流程。

模型评估在开发的各个阶段都至关重要。 作为开发人员,您现在拥有可用于构建生成式人工智能(AI)应用程序的评估工具。您可以先在平台环境中尝试不同的模型。为了更快地进行迭代,请添加模型的自动评估。然后,当您准备首次发布或限制性发布时,您可以纳入人工审核以帮助确保质量。

下面,我简要介绍一下 Amazon Bedrock 上的模型评估。

自动模型评估
在自动模型评估中,您可以自带数据,也可以使用内置的精选数据集和预定义指标来完成特定任务,例如内容摘要、问答、文本分类和文本生成。这省去了设计和运行您自己的模型评估基准的繁重工作。

要开始使用,请导航到 Amazon Bedrock 控制台,然后在左侧菜单的评估与部署下选择模型评估。创建新的模型评估并选择自动

Amazon Bedrock 模型评估

接下来,按照设置对话框选择要评估的 FM 和任务类型,例如文本摘要。选择评估指标并指定一个数据集,可以是内置数据集,也可以是您自己的数据集。

如果您自带数据集,请确保其采用 JSON Lines 格式,并且每行都包含您想要评估的模型维度的所有键值对。例如,如果要评估有关问答任务的模型,则应将数据格式化为如下格式(其中 category 是可选的):

{"referenceResponse":"Cantal","category":"Capitals","prompt":"Aurillac is the capital of"}
{"referenceResponse":"Bamiyan Province","category":"Capitals","prompt":"Bamiyan city is the capital of"}
{"referenceResponse":"Abkhazia","category":"Capitals","prompt":"Sokhumi is the capital of"}
...

然后,创建并运行评估作业以了解模型的任务特定性能。评估作业完成后,您可以在模型评估报告中查看结果。

Amazon Bedrock 模型评估

人工模型评估
在人工评估中,您只需点击几下即可让 Amazon Bedrock 设置人工审核工作流程。您可以自带数据集并定义自定义评估指标,例如相关性、风格或与品牌声音的一致性。您还可以选择利用自己的内部团队作为审核者,也可以聘用 AWS 托管团队。这省去了构建和操作人工评估工作流程的繁琐工作。

首先,创建新的模型评估并选择人工:自带团队人工:AWS 托管团队

如果您选择 AWS 托管团队进行人工评估,请描述您的模型评估需求,包括任务类型、工作团队的专业知识、提示的大概次数以及您的联系信息。接下来,AWS 专家将与您联系,更详细地讨论您的模型评估项目要求。审核后,团队将共享自定义报价和项目时间表。

如果您选择自带团队,请按照设置对话框选择要评估的 FM 和任务类型,例如文本摘要。然后,选择评估指标、上传您的测试数据集并组建工作团队。

要进行人工评估,您可以将之前显示的示例数据再次格式化为如下所示的 JSON Lines 格式(其中 categoryreferenceResponse 是可选的):

{"prompt":"Aurillac is the capital of","referenceResponse":"Cantal","category":"Capitals"}
{"prompt":"Bamiyan city is the capital of","referenceResponse":"Bamiyan Province","category":"Capitals"}
{"prompt":"Senftenberg is the capital of","referenceResponse":"Oberspreewald-Lausitz","category":"Capitals"}

人工评估完成后,Amazon Bedrock 会生成一份评估报告,其中包含模型相对于您所选指标的性能。

Amazon Bedrock 模型评估

注意事项
这里需要牢记以下几点:

模型支持 – 在预览版期间,您可以评估和比较 Amazon Bedrock 上可用的基于文本的大型语言模型(LLM)。在预览版期间,您可以使用自己的团队为每个自动评估作业选择一个模型,为每个人工评估作业选择最多两个模型。对于使用 AWS 托管团队进行的人工评估,您可以指定自定义项目要求。

定价 – 在预览版期间,AWS 仅对执行评估所需的模型推理收费(处理后的输入和输出令牌采用按需定价模式)。人工评估或自动评估不会单独收费。Amazon Bedrock 定价页面提供了所有详细信息。

申请试用预览版
自动评估和使用您自己的工作团队的人工评估现已在 AWS 区域美国东部(弗吉尼亚州北部)和美国西部(俄勒冈州)提供公开预览版。使用 AWS 托管团队的人工评估在 AWS 区域美国东部(弗吉尼亚州北部)提供公开预览版。要了解更多信息,请访问 Amazon Bedrock 开发人员体验网页并查看用户指南

开始使用
登录 AWS 管理控制台,立即开始探索 Amazon Bedrock 中的模型评估功能!

– Antje