在 Amazon Bedrock（预览版）中评估、比较和选择适合您的使用案例的最佳基础模型

我很高兴地告诉大家，现在可以在 Amazon Bedrock 中评估、比较和选择适合您的使用案例的最佳基础模型（FM）。Amazon Bedrock 中的模型评估现已推出预览版。

Amazon Bedrock 提供自动评估和人工评估两种选择。您可以使用包含准确性、稳定性和恶意内容等预定义指标的自动评估。对于友好度、风格和与品牌声音的一致性等主观或自定义指标，您只需点击几下即可设置人工评估工作流程。

模型评估在开发的各个阶段都至关重要。作为开发人员，您现在拥有可用于构建生成式人工智能（AI）应用程序的评估工具。您可以先在平台环境中尝试不同的模型。为了更快地进行迭代，请添加模型的自动评估。然后，当您准备首次发布或限制性发布时，您可以纳入人工审核以帮助确保质量。

下面，我简要介绍一下 Amazon Bedrock 上的模型评估。

自动模型评估
在自动模型评估中，您可以自带数据，也可以使用内置的精选数据集和预定义指标来完成特定任务，例如内容摘要、问答、文本分类和文本生成。这省去了设计和运行您自己的模型评估基准的繁重工作。

要开始使用，请导航到 Amazon Bedrock 控制台，然后在左侧菜单的评估与部署下选择模型评估。创建新的模型评估并选择自动。

接下来，按照设置对话框选择要评估的 FM 和任务类型，例如文本摘要。选择评估指标并指定一个数据集，可以是内置数据集，也可以是您自己的数据集。

如果您自带数据集，请确保其采用 JSON Lines 格式，并且每行都包含您想要评估的模型维度的所有键值对。例如，如果要评估有关问答任务的模型，则应将数据格式化为如下格式（其中 category 是可选的）：

{"referenceResponse":"Cantal","category":"Capitals","prompt":"Aurillac is the capital of"}
{"referenceResponse":"Bamiyan Province","category":"Capitals","prompt":"Bamiyan city is the capital of"}
{"referenceResponse":"Abkhazia","category":"Capitals","prompt":"Sokhumi is the capital of"}
...

然后，创建并运行评估作业以了解模型的任务特定性能。评估作业完成后，您可以在模型评估报告中查看结果。

人工模型评估
在人工评估中，您只需点击几下即可让 Amazon Bedrock 设置人工审核工作流程。您可以自带数据集并定义自定义评估指标，例如相关性、风格或与品牌声音的一致性。您还可以选择利用自己的内部团队作为审核者，也可以聘用 AWS 托管团队。这省去了构建和操作人工评估工作流程的繁琐工作。

首先，创建新的模型评估并选择人工：自带团队或人工：AWS 托管团队。

如果您选择 AWS 托管团队进行人工评估，请描述您的模型评估需求，包括任务类型、工作团队的专业知识、提示的大概次数以及您的联系信息。接下来，AWS 专家将与您联系，更详细地讨论您的模型评估项目要求。审核后，团队将共享自定义报价和项目时间表。

如果您选择自带团队，请按照设置对话框选择要评估的 FM 和任务类型，例如文本摘要。然后，选择评估指标、上传您的测试数据集并组建工作团队。

要进行人工评估，您可以将之前显示的示例数据再次格式化为如下所示的 JSON Lines 格式（其中 category 和 referenceResponse 是可选的）：

{"prompt":"Aurillac is the capital of","referenceResponse":"Cantal","category":"Capitals"}
{"prompt":"Bamiyan city is the capital of","referenceResponse":"Bamiyan Province","category":"Capitals"}
{"prompt":"Senftenberg is the capital of","referenceResponse":"Oberspreewald-Lausitz","category":"Capitals"}

人工评估完成后，Amazon Bedrock 会生成一份评估报告，其中包含模型相对于您所选指标的性能。

注意事项
这里需要牢记以下几点：

模型支持 – 在预览版期间，您可以评估和比较 Amazon Bedrock 上可用的基于文本的大型语言模型（LLM）。在预览版期间，您可以使用自己的团队为每个自动评估作业选择一个模型，为每个人工评估作业选择最多两个模型。对于使用 AWS 托管团队进行的人工评估，您可以指定自定义项目要求。

定价 – 在预览版期间，AWS 仅对执行评估所需的模型推理收费（处理后的输入和输出令牌采用按需定价模式）。人工评估或自动评估不会单独收费。Amazon Bedrock 定价页面提供了所有详细信息。

申请试用预览版
自动评估和使用您自己的工作团队的人工评估现已在 AWS 区域美国东部（弗吉尼亚州北部）和美国西部（俄勒冈州）提供公开预览版。使用 AWS 托管团队的人工评估在 AWS 区域美国东部（弗吉尼亚州北部）提供公开预览版。要了解更多信息，请访问 Amazon Bedrock 开发人员体验网页并查看用户指南。

开始使用
登录 AWS 管理控制台，立即开始探索 Amazon Bedrock 中的模型评估功能！

– Antje

*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用，亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。

亚马逊AWS官方博客

在 Amazon Bedrock（预览版）中评估、比较和选择适合您的使用案例的最佳基础模型

了解

资源

开发人员

帮助