Amazon Personalize 现已正式发布

今天，我们很高兴地宣布，所有 AWS 客户都可以使用 Amazon Personalize。Amazon Personalize 的预览版在 AWS re:Invent 2018 中宣布推出，它是一项完全托管的服务，允许您为应用程序创建私有、自定义的个性化建议，几乎不需要机器学习经验。

无论是在应用程序内部及时提供视频推荐，还是适时提供个性化通知电子邮件，基于您的数据的个性化体验都可以为客户提供更相关的体验，而这通常会带来更高的业务回报。

开发高效推荐系统的任务非常具有挑战性：构建、优化和部署实时个性化需要分析、应用机器学习、软件工程和系统操作方面的专业知识。很少有组织拥有克服这些挑战的知识、技能和经验，随着新产品和促销活动的引入或客户行为的变化，基于规则的简单系统变得脆弱且维护成本高昂。

20 多年来，Amazon.com 完善了机器学习模型，提供从产品发现到结账的个性化购买体验。借助 Amazon Personalize，我们为开发人员提供相同功能来构建自定义模型，而无需处理通常伴随此类解决方案的基础架构和机器学习的复杂性。

借助 Amazon Personalize，您可以在活动数据（页面查看次数、注册、购买等）中提供唯一信号以及可选的客户特征信息（年龄、位置等）。然后，您可以提供要推荐项目的清单，例如文章、产品、视频或音乐。然后，完全在幕后，Amazon Personalize 将处理和检查数据，识别有意义的内容，选择正确的算法，培训和优化为您的数据定制的个性化模型，并通过 API 访问。Amazon Personalize 分析的所有数据均保持私密和安全，仅用于您的自定义建议。由此产生的模型是您的专属模型。

通过单个 API 调用，您可以为用户提供建议并个性化客户体验，从而提高营销活动的参与度、转化率和性能。例如，Domino’s Pizza 正在使用Amazon Personalize 通过其数字资产提供自定义通信，例如促销优惠。Sony Interactive Entertainment 将Personalize 与 Amazon SageMaker 配合使用，以自动化和加快其机器学习开发，并大规模推动更有效的个性化。

Personalize 就像拥有自己的Amazon.com 机器学习个性化团队一样，每天 24 小时随时待命。

隆重推出 Amazon Personalize

Amazon Personalize 可根据您在 Amazon S3 中存储的历史数据或您的应用程序实时发送的流数据（或两者）来提供建议。

这为客户提供了构建推荐解决方案的灵活性。例如，您可以根据历史数据构建初始推荐程序，并在您累积足够的直播事件时定期重新训练。或者，如果您没有可以开始的历史数据，您可以暂时提取事件，然后构建您的推荐程序。

我在之前的博文中介绍了历史数据，这次将重点关注直播事件。

简要流程如下所示：

创建数据集组以存储您的应用程序发送的事件。
创建交互数据集并定义其架构（此时不需要任何数据）。
创建事件跟踪器以将事件发送到 Amazon Personalize。
开始向 Amazon Personalize 发送事件。
选择推荐配方，或者借助 AutoML，让 Amazon Personalize 为您选择一个配方。
创建解决方案，即在数据集上训练配方。
创建一个活动并开始推荐项目。

创建数据集组

假设我们想要捕获电影推荐的点击流。我们使用首次设置向导，创建一个数据集组来存储这些事件。在这里，我们假设开始时没有任何历史数据：所有事件都是由点击流生成的，并使用事件提取开发工具包进行提取。

创建数据集组只需要一个名称。

然后，我们必须创建交互数据集，该数据集显示用户如何与项目交互（喜欢、点击等）。当然，我们需要定义描述数据的架构：在这里，我们只需使用 Amazon Personalize 提供的默认模式。

或者，我们现在可以定义一个导入作业，以便将历史数据添加到数据集中：如上所述，我们将跳过此步骤，因为所有数据都来自此流。

配置事件跟踪器

下一步是创建事件跟踪器，以使我们可以将流事件发送到数据集组。

大约一分钟后，我们的跟踪器准备就绪。请注意跟踪 ID：我们需要它来发送事件。

创建数据集组

当 Amazon Personalize 创建事件跟踪器时，它会自动在与事件跟踪器关联的数据集组中创建一个新数据集。此数据集具有良好定义的架构，存储以下信息：

user_id 和 session_id：这些值由您的应用程序定义。
tracking_id：事件跟踪器 ID。
timestamp、item_id、event_type、event_value：这些值描述了事件本身，必须由您的应用程序传送。

可通过两种不同的方式将实时事件发送到此数据集：

服务器端，通过 AWS 开发工具包：请注意，可以从任何来源提取，无论您的代码是在 AWS 内部（例如在 Amazon EC2 或 AWS Lambda 中）还是外部托管。
使用 AWS Amplify JavaScript 库。

我们来了解一下两个选项。

使用 AWS 开发工具包发送实时事件

此过程非常简单：我们只需使用 PutEvents API 发送单个事件，或最多 10 个事件的列表。当然，我们可以使用任何 AWS 开发工具包：由于我最喜欢的语言是 Python，因此我们可以使用 boto3 开发工具包发送事件。

import boto3
personalize_events = boto3.client('personalize-events')
personalize_events.put_events(
    trackingId = <TRACKING_ID>,
    userId = <USER_ID>,
    sessionId = <SESSION_ID>,
    eventList = [
      {
          "eventId": "event1",
          "sentAt": 1549959198,
          "eventType": "rating",
          "properties": """{\"itemId\": \"123\", \"eventValue\": \"4\"}"""
      },
      {
          "eventId": "event2",
          "sentAt": 1549959205,
          "eventType": "rating",
          "properties": """{\"itemId\": \"456\", \"eventValue\": \"2\"}"""
      }
    ]
)

在我们的应用程序中，我们给电影123评分 4 分，给电影 456 评分 2 分。我们使用适当的跟踪标识符，向事件跟踪器发送两个事件：

eventId：一种应用程序特定标识符。
sentAt：一种时间戳，匹配架构中定义的 timestamp 属性。该值自 Unix 纪元（1970 年 1 月 1 日00:00:00.000 UTC）开始走秒，并且独立于任何特定时区。
eventType：事件类型，匹配架构中定义的 event_type 属性，
properties：项目 ID 和事件值，匹配架构中定义 item_id 和 event_value 属性。

以下使 Java 中的类似代码片段。

List<Event> eventList = new ArrayList<>();
eventList.add(new Event().withProperties(properties).withType(eventType));
PutEventsRequest request = new PutEventsRequest()
  .withTrackingId(<TRACKING_ID>)
  .withUserId(<USER_ID>)
  .withSessionId(<SESSION_ID>)
  .withEventList(eventList);
client.putEvents(request)

现在你明白了！

使用 AWS Amplify 发送实时事件

AWS Amplify 是一个 JavaScript 库，可以轻松创建、配置和实施由 AWS 提供支持的可扩展移动和 Web 应用程序。它与 Amazon Personalize 中的事件跟踪服务集成。

在我们发送事件之前，需要几个设置步骤。为简洁起见，请参阅 Amazon Personalize 文档中的这些详细说明：

在 Amazon Cognito 中创建身份池，以便对用户进行身份验证。
使用池 ID 和跟踪器 ID 配置 Amazon Personalize 插件。

完成此操作后，即可将事件发送到 Amazon Personalize。我们仍然可以使用任何文本字符串作为事件类型，但请注意，有几种特殊类型可用：

Identify 允许您将特定用户的 userId 发送到 Amazon Personalize。userId 随后成为后续调用中的可选参数。
MediaAutoTrack 自动计算媒体事件的播放、暂停和恢复位置，而 Amazon Personalize 将位置用作事件值。

使用 AWS Amplify 发送一些示例事件的方法如下：

Analytics.record({
    eventType: "Identify",
    properties: {
      "userId": "<USER_ID>"
    }
}, "AmazonPersonalize");
Analytics.record({
    eventType: "<EVENT_TYPE>",
    properties: {
      "itemId": "<ITEM_ID>",
      "eventValue": "<EVENT_VALUE>"
    }
}, "AmazonPersonalize");
Analytics.record({
    eventType: "MediaAutoTrack",
    properties: {
      "itemId": "<ITEM_ID>",
      "domElementId": "MEDIA DOM ELEMENT ID"
    }
}, "AmazonPersonalize");

如您所见，这也非常简单。

创建推荐解决方案

现在我们已了解如何摄取事件，接下来让我们定义如何训练我们的推荐解决方案。

首先我们需要选择一个配方，配方不仅是一种算法：它还包括预定义的功能转换、算法的初始参数以及自动模型调整。因此，有了配方，就无需掌握个性化方面的专业知识。Amazon Personalize 提供几种适用于不同用例的配方。

如果您初次接触机器学习，可能会想知道这些配方中哪一个最适合您的用例。无需担心：如前所述，Amazon Personalize 支持 AutoML，这是一种自动搜索最佳配方的新技术，所以让我们启用它。虽然我们正在使用它，但我们也要求 Amazon Personalize 自动调整配方参数。

所有这一切在 AWS 控制台中都非常简单：因为您可能希望从现在开始实现自动化，所以让我们改用 AWS CLI。

$ aws personalize create-solution \
  --name jsimon-movieclick-solution \ 
  --perform-auto-ml --perform-hpo \
  --dataset-group-arn $DATASET_GROUP_ARN

现在我们已准备好培训解决方案。无需担心服务器，培训将在完全托管的基础设施上进行。

$ aws personalize create-solution-version \
  --solution-arn $SOLUTION_ARN

培训完成后，我们可以使用解决方案版本来创建推荐活动。

部署推荐活动

仍然无需担心服务器！实际上，活动规模会根据入站流量自动扩展：我们只需定义想要支持的每秒最小事务数 (TPS)。

此编号用于调整托管模型的初始队列的大小。它还会影响推荐收费（每 TPS 小时 0.20 美元）。在这里，我将该参数设置为 10，这意味着最初的收费为每小时 2 美元。如果流量超过 10 TPS，Personalize 将向上扩展，根据新的 TPS 设置增加计费。一旦流量下降，Personalize 将向下收缩，但不会低于我的最低 TPS 设置。

$ aws personalize create-campaign \
  --name jsimon-movieclick-campaign \
  --min-provisioned-tps 10 \
  --solution-version-arn $SOLUTION_VERSION_ARN

如果您以后需要使用新的解决方案版本更新活动，只需使用 UpdateCampaign API 并传送新解决方案版本的 ARN 即可。

部署活动后，我们可以快速测试它是否能够推荐新电影。

实时推荐新项目

我认为没有比这更简单的了：只需传送用户的 ID 并接收推荐即可。

$ aws personalize-rec get-recommendations \
--campaign-arn $CAMPAIGN_ARN \
--user-id 123 --query "itemList[*].itemId"
["1210", "260", "2571", "110", "296", "1193", ...]

现在，我们已准备好将您的推荐模型集成到您的应用程序中。例如，Web 应用程序必须执行以下步骤才能显示推荐电影列表：

以我们最喜欢的语言使用 GetRecommendations API，来调用活动并接收针对给定用户的电影推荐，
从后端读取电影元数据（例如，图像URL、标题、流派、发布日期等），
生成要在用户的浏览器中呈现的 HTML 代码。

Amazon Personalize 实际操作

实际上，我的同事 Jake Wells 已经建立了一个推荐书籍的 Web 应用程序。利用包含超过 1900 万条书评的开放数据集，Jake 首先使用托管在 Amazon SageMaker 上的笔记本来清理和准备数据。然后，他使用 Amazon Personalize 训练了一个推荐模型，并编写了一个演示推荐过程的简单 Web 应用程序。这是一个非常酷的项目，绝对值得专门写一篇博文来介绍！

现已推出！

无论您是使用历史数据还是事件流，都可以通过一些简单的 API 调用来训练和部署推荐模型。无需任何机器学习经验，所以请访问 aws.amazon.com/personalize，尝试一下，并让我们知道您的想法。

Amazon Personalize 向以下区域提供：美国东部（俄亥俄州）、美国东部（弗吉尼亚北部）、美国西部（俄勒冈州）、亚太地区（东京）、亚太地区（新加坡）和欧盟（爱尔兰）

该服务也是 AWS 免费套餐的一部分。注册后的前两个月，您将获得：
1.数据处理和存储：每月高达 20 GB
2.训练：每月训练小时数多达 100 小时
3.预测：每月多达 50 TPS 小时的实时推荐

我们期待您的反馈！

亚马逊AWS官方博客

Amazon Personalize 现已正式发布

本篇作者

了解

资源

开发人员

帮助