亚马逊AWS官方博客

Amazon Bedrock 模型评估现已正式发布



我们在 2023 年 AWS re:Invent 上预览的 Amazon Bedrock 默认评估功能现已正式发布。这项新功能使您能够选择基础模型,为您的特定用例提供最佳结果,从而帮助您将生成式人工智能整合到应用程序中。正如我的同事 Antje 在她的文章(评估、比较和选择最适合您在 Amazon Bedrock 中的用例的基础模型)中所解释的那样:

模型评估在开发的各个阶段都至关重要。作为开发人员,您现在拥有可用于构建生成式人工智能(AI)应用程序的评估工具。您可以先在平台环境中尝试不同的模型。为了更快地进行迭代,请添加模型的自动评估。然后,当您准备首次发布或限制性发布时,您可以纳入人工审核以帮助确保质量。

在预览期间,我们收到了很多精彩且有用的反馈,并利用这些反馈完善了这项新功能的特性,为今天的发布做准备,我稍后会讨论这些内容。简要回顾一下,以下是基本步骤(有关完整演练,请参阅 Antje 的文章):

创建模型评估作业 — 选择评估方法(自动或人工),选择一个可用的基础模型,选择任务类型,然后选择评估指标。您可以为自动评估选择准确性、稳健性和毒舌性,也可以为人工评估选择任何所需的指标(例如友好度、风格和对品牌声音的遵守情况)。如果您选择人工评估,则可以使用自己的工作团队,也可以选择 AWS 管理的团队。有四种内置任务类型和一种自定义类型(未显示):

选择任务类型后,您可以选择要用于评估模型性能的指标和数据集。例如,如果您选择文本分类,则可以评估您自己的数据集或内置数据集的准确性和/或稳健性:

如上所示,您可以使用内置数据集,也可以准备一个 JSON 行(JSONL)格式的新数据集。每个条目都必须包含提示,并且可以包含一个类别。对于所有人工评估配置以及自动评估的任务类型和指标的某些组合,参考响应是可选的:

{
  "prompt" : "Bobigny is the capitol of",
  "referenceResponse" : "Seine-Saint-Denis",
  "category" : "Capitols"
}

您(或您的当地主题专家)可以使用针对您的组织和用例的客户支持问题、产品描述或销售宣传材料来创建数据集。内置数据集包括 Real ToxicityBOLDTREXWikiText-2GigawordBoolQNatural QuestionsTrivia QAWomen’s Ecommerce Clothing Reviews。这些数据集旨在测试特定类型的任务和指标,可以根据需要进行选择。

运行模型评估作业 — 启动作业并等待其完成。您可以从控制台查看每个模型评估任务的状态,也可以使用新的 GetEvaluationJob API 函数访问状态:

检索和查看评估报告 — 获取报告并根据您之前选择的指标查看模型的性能。同样,请参阅 Antje 的文章,详细了解示例报告。

GA 的新功能
解决这些问题后,我们来看看为今天的发布准备的新增功能:

改进的任务管理 — 您现在可以使用控制台或新的模型评估 API 停止正在运行的作业。

模型评估 API — 您现在可以通过编程方式创建和管理模型评估作业。以下函数可用:

  • CreateEvaluationJob — 使用 API 请求中指定的参数(包括 evaluationConfiginferenceConfig)创建并运行模型评估作业。
  • ListEvaluationJobs — 列出模型评估作业,可选择按创建时间、评估作业名称和状态进行筛选和排序。
  • GetEvaluationJob — 检索模型评估作业的属性,包括状态(InProgressCompletedFailedStoppingStopped)。作业完成后,评估结果将存储在提供给 CreateEvaluationJoboutputDataConfig 属性中指定的 S3 URI 中。
  • StopEvaluationJob — 停止正在进行的作业。作业一旦停止,就无法恢复,如果要重新运行它,则必须重新创建。

该模型评估 API 是预览期间最受欢迎的功能之一。您可以使用它来大规模执行评估,也许可以作为应用程序开发或测试方案的一部分。

增强安全性 — 您现在可以使用客户管理的 KMS 密钥来加密您的评估作业数据(如果您不使用此选项,则会使用 AWS 拥有的密钥对数据进行加密):

访问更多模型 — 除了 AI21 LabsAmazonAnthropicCohereMeta 现有的基于文本的模型之外,您现在还可以访问 Claude 2.1:

选择模型后,您可以设置用于模型评估任务的推理配置:

注意事项
关于这个很棒的全新 Amazon Bedrock 功能,需要了解以下几点:

定价 — 您为模型评估过程中进行的推断付费,无需为算法生成的分数支付额外费用。如果您与自己的团队一起使用基于人工的评估,则需要为每个完成的任务(即人工工作人员在人工评估用户界面中提交对单个提示及其相关推理响应的评估)支付 0.21 美元的推理费用。AWS 托管工作团队执行的评估的定价基于对您的评估很重要的数据集、任务类型和指标。有关更多信息,请查阅 Amazon Bedrock 定价页面。

区域 — 模型评估适用于 AWS 区域美国东部(弗吉尼亚州北部)和美国西部(俄勒冈州)。

更多生成式人工智能 — 访问我们全新的生成式人工智能空间,详细了解此公告以及我们今天发布的其他公告!

Jeff