亚马逊AWS官方博客

AWS Data Exchange — 查找、订阅和使用数据产品

我们生活在一个数据驱动的数据密集世界! 不论什么组织都会收集、存储、处理、分析数据,并在决策过程中利用数据来改善决策。AWS Cloud 非常适合所有这些活动。它提供海量的存储空间,可以使用任何可能规模的计算能力,以及许多不同类型的分析工具

除了在内部生成和使用数据之外,许多组织在生成数据后,还会与公众或同行共享数据集。早在 2008 年,我们就在这上面迈出了脚步,推出了 AWS 公开数据集(呼唤研究人员、分析师和开发人员)。这个项目后来发展成为 Registry of Open Data on AWS新内容 – Registry of Open Data on AWS (RODA)),目前包含 118 个有趣的数据集,并且数量在不断增加。

全新的 AWS Data Exchange
现在,我们又前进了一步,推出 AWS Data ExchangeAWS Marketplace 新增的这项服务包含来自 80 多个数据提供商的一千多种可许可数据产品。其中包括各类免费和付费产品,如金融服务、医疗保健/生命科学、地理空间、天气和绘图等类别的产品。

如果您是数据订阅者,则可以在这里快速找到、购买并开始使用这些产品。如果您是数据提供商,则可以轻松打包、许可和交付自己的产品。让我们分别从这两者的角度来看一下 Data Exchange,然后回顾一些重要的细节。

在探讨之前,我们先定义一些重要的术语:

数据提供商 — 拥有一个或多个要共享的数据产品的组织。

数据订阅者 — 想要使用数据提供商提供的数据产品的 AWS 客户。

数据产品 — 数据集的集合。

数据集 — 存储按修订版本分组的相关联数据资产的容器。

修订版本 — 某个时间点用于一个或多个数据资产的容器。

数据资产 — 以任何所需格式存在的实际数据。

面向数据订阅者的 AWS Data Exchange
作为数据订阅者,我单击查看产品目录,然后从 AWS Data Exchange 控制台发现数据部分开始:

可以从众多供应商处获得产品:

我可以输入搜索关键字,单击搜索,然后缩小搜索范围,以仅显示定价为免费的产品:

我还可以搜索来自特定供应商、匹配某个搜索关键字且定价为免费的产品:

第二个看起来不错且相关,所以我单击 5 Digit Zip Code Boundaries US (TRIAL) 以了解更多信息:

我想可以在我的应用程序中使用它,并想尝试一下,所以我单击继续以订阅。我查看了详细信息,阅读了数据订阅协议,然后单击订阅

订阅在几分钟内激活,我可以在我的订阅列表中看到它:

然后,我可以将其下载到我的 S3 存储桶中,并进行查看。我单击进入数据集,然后找到修订版本

单击修订版本,然后可以看到要查找的资产(包含实际数据):

我选择了所需的资产,然后单击导出到 Amazon S3。然后,我选择一个存储桶,然后单击导出以继续:

这将创建一个将数据复制到我的存储桶的作业(此处需要额外的 IAM 权限;有关更多信息,请阅读访问控制文档):

作业会异步运行,并将数据从 Data Exchange 复制到存储桶。正如我刚刚向您展示的那样,可以以交互方式创建作业,也可以以编程方式创建。数据放入存储桶后,我可以以任何想要的方式进行访问和处理。例如,我可以使用 AWS Lambda 函数来解析 ZIP 文件,并使用结果来更新 Amazon DynamoDB 表。或者,我可以运行 AWS Glue 爬网程序,以将数据放入我的 Glue 目录中,运行 Amazon Athena 查询,并在 Amazon QuickSight 控制面板中可视化结果。

订阅期限为 1-36 个月,并且可以使用自动续订选项;订阅费用会每月向我的 AWS 账户收取。

面向数据提供商的 AWS Data Exchange
现在,我变成了数据提供商,并将向您展示发布过程的基础知识(用户指南包含更详细的分步讲解)。为了能够许可数据,我需要同意条款和条件,并且我的应用程序必须经过 AWS 的批准。

申请并获得批准后,我就可以创建第一个数据集了。在导航中单击数据集,然后创建数据集

我描述了我的数据集,并可以选择对其进行标记,然后单击创建

接下来,我单击创建修订版本,以创建数据集的第一个修订版本:

我添加了评论,并且在单击创建之前可以选择标记修订版本:

我可以从现有的 S3 位置复制数据,也可以从桌面上传数据:

我选择第二个选项,然后选择我的文件,导入作业完成后,它会在导入的资产中显示。我检查了所有内容,然后单击完成

我的数据集马上就准备好了,现在我可以使用它来创建一个或多个产品:

控制台概述了主要步骤:

我可以为我的产品设置公开定价信息:

AWS Data Exchange 让我为单个客户创建私人定价计划,它还允许我的现有客户通过创建“使用自己的许可证”订阅,将他们现有(AWS Data Exchange 之前)的许可证与我的产品一起使用。

我可以使用 AWS Data Exchange 提供的数据订阅协议 (DSA),将其用作模板,或者可以上传现有的协议:

我可以使用 AWS Data Exchange API 创建、更新、列出和管理数据集及其修订版本。函数包括 CreateDataSetUpdataSetListDataSetsCreateRevisionUpdateAssetCreateJob

注意事项
关于 Data Exchange,您应该了解下面这些信息:

订阅验证 — 为验证我的订阅,数据提供商可能会要求我提供额外信息。如果是这种情况,控制台将要求我提供信息,提供商将在 45 天内审核并批准或拒绝:

这是提供商看到的内容:

修订版本和通知 — 数据提供商可以随时修改其数据集。每次订阅的产品更新时,数据消费者都会收到 CloudWatch 事件。这可用于启动检索资产最新修订版本的作业。如果您正在实施这种类型的系统并且需要一些测试事件,请查找并订阅 Heartbeat 产品:

数据类别和类型AWS Data Exchange 上不允许使用某些类别的数据。例如,您的数据产品不能包含可用于识别任何人的信息,除非该信息已经合法地向公众公开。有关允许使用哪些类别的数据的详细指南,请参阅发布指南

数据提供商位置 — 数据提供商必须是位于美国或欧盟成员国的有效法律实体。

现已推出
AWS Data Exchange 现已推出,您现在就可以开始使用。如果您拥有一些有趣的数据并想要发布,请从这里开始。如果您是开发人员,请浏览产品目录并查找可为您的产品增加价值的数据。

本篇作者

Jeff Barr

AWS 首席布道师; 2004年开始发布博客,此后便笔耕不辍。