亚马逊AWS官方博客

适用于 Amazon Redshift 的 AWS Data Exchange

早在 2019 年,我就介绍过有关 AWS Data Exchange 的信息,并展示了如何查找、订阅和使用数据产品。如今,您可以从十个类别的 3600 多种数据产品中进行选择:

在我的介绍文章中,我介绍过如何订阅数据产品,然后将数据集下载到 Amazon Simple Storage Service(Amazon S3)存储桶中。后来,我又为进一步处理提出了各种选项,包括 AWS Lambda 函数、AWS Glue 爬网程序或 Amazon Athena 查询。

目前,随着适用于 Amazon Redshift 的 AWS Data Exchange 的推出,您能够更轻松地查找、订阅和使用第三方数据。作为订阅者,您可以直接使用来自提供商的数据,而无需进行任何进一步处理,也无需执行提取转换加载(ETL)流程。由于您不必进行任何处理,因此数据始终是最新的,可以直接在 Amazon Redshift 查询中使用。适用于 Amazon Redshift 的 AWS Data Exchange 负责管理您的所有权利和付款,所有费用都记入您的 AWS 账户。

作为提供商,您现在有了一种新的方式来许可数据并将其提供给客户。

在我写这篇文章的时候,我很酷地意识到 Redshift 和 Data Exchange 在多少方面发挥了令人兴奋的核心角色。由于 Redshift 将存储和计算完全分离,并具有内置的数据共享功能,因此数据提供商负责分配存储并支付存储费用,而数据订阅者则对计算执行相同的操作。提供商无需按照订户群的规模按比例扩展集群,因而可以专注于获取和提供数据。

让我们从两个角度来看一下此功能:订阅数据产品和发布数据产品。

适用于 Amazon Redshift 的 AWS Data Exchange – 订阅数据产品
作为数据订阅者,我可以浏览 AWS Data Exchange 目录,查找与我的业务相关的数据产品,然后进行订阅。

数据提供商还可以创建专项优惠并提供给我,以便我通过 AWS Data Exchange 控制台进行访问。我点击 My product offers (我的商品优惠),然后查看向我提供的优惠。我点击 Continue to subscribe (继续订阅) 以继续:

然后,我通过查看优惠和订阅条款,记下我将获得的数据集,再单击 Subscribe (订阅) 来完成订阅:

订阅完成后,我会收到通知并可以继续:

在 Redshift 控制台中,我单击 Datashares (数据共享),选择 From other accounts (从其他账户),就可以看到订阅的数据集:

接下来,我通过创建一个指向已订阅数据共享的数据库,将其与我的一个或多个 Redshift 集群关联起来,然后使用表、视图和存储过程为我的 Redshift 查询和应用程序提供支持。

适用于 Amazon Redshift 的 AWS Data Exchange – 发布数据产品
作为数据提供商,我可以在我的 AWS Data Exchange 产品中包含 Redshift 表、视图、架构和用户定义的函数。为了简单起见,我将创建一个只包含一个 Redshift 表的产品。

我使用漂亮的新 Redshift 查询编辑器 V2 来创建一个将美国区号映射到城市和州的表格:

然后,我检查我的 Redshift 集群的现有数据共享列表,再单击 Create datashare (创建数据共享) 来创建一个新数据共享:

接下来,我将完成创建数据共享的常规过程。我选择 AWS Data Exchange datashare (AWS Data Exchange 数据共享),指定名称 (area_code_reference),在集群中选择数据库,然后将数据共享设置为可供公开访问的集群访问:

然后我向下滚动,并单击 Add(添加)以继续:

我选择我的架构(public(公有)),选择在我的数据共享中只包含表和视图,然后添加 area_codes 表:

此时,我可以单击 Add(添加)进行总结,或者单击 Add and repeat(添加并重复)以制作包含其他对象的更复杂产品。

我确认数据共享包含该表,然后单击 Create datashare(创建数据共享)以继续:

现在,我已经准备好开始发布我的数据了! 我访问 AWS Data Exchange 控制台,展开左侧的导航,然后单击 Owned data sets(拥有的数据集):

我查看 Data set creation steps(数据集创建步骤),然后单击 Create data set(创建数据集)以继续:

我选择 Amazon Redshift datashare(Amazon Redshift 数据共享),为我的数据集命名(United States Area Codes),输入描述,然后单击 Create data set(创建数据集)以继续:

我创建一个名为 v1 的修订版本:

我选择我的数据共享,然后单击 Add datashare(s)(添加数据共享):

然后,我最终确定修订版本:

我向您展示了如何创建数据共享和数据集,以及如何使用控制台发布产品。如果您要发布多个产品和/或进行定期修订,可以使用 AWS 命令行界面(CLI)和 Amazon Data Exchange API 自动执行所有这些步骤。

初始数据产品
多家数据提供商正在努力通过适用于 Amazon Redshift 的 AWS Data Exchange 向您提供他们的数据产品。以下是一些初步产品和正式说明:

  • FactSet Supply Chain Relationships – FactSet Revere Supply Chain Relationships 数据旨在揭示全球公司之间的业务关系。通过此馈送,您可以访问公司的主要客户、供应商、竞争对手和战略合作伙伴的复杂网络,这些信息来自年度报告文件、投资者演示文稿和新闻稿。
  • Foursquare Places 2021: New York City Sample – 此试用版数据集包含 Foursquare 针对纽约市的集成地点(POI)数据库,可作为 Redshift 数据共享进行访问。立即将 Foursquare 的地点数据加载到 Redshift 表中以进行进一步处理和分析。Foursquare 的数据符合隐私规定,来源独特,受到 Uber、Samsung 和 Apple 等顶级企业的信任。
  • Mathematica Medicare Pilot Dataset – 汇总自 2017 年至 2019 年按州、县、付款人以及糖尿病人群汇总的医疗保险 HCC 总数和患病率。
  • COVID-19 Vaccination in Canada – 此列表包含加拿大新冠肺炎(COVID-19)疫苗接种数据的样本数据集。
  • Revelio Labs Workforce Composition and Trends Data (Trial data) – 了解任何公司的员工构成和趋势。
  • Facteus – US Card Consumer Payment – CPG Backtest – 来自 SKU 级别交易详细信息面板的历史样本,来自美国各地 9000 多家城市便利店和酒吧集团销售的数百种包装消费品的现金和信用卡交易。
  • Decadata Argo Supply Chain Trial Data – 向美国杂货零售商交付产品的 CPG 公司的供应链数据。

Jeff