亚马逊AWS官方博客
使用 Amazon Redshift Serverless 和 Toucan 构建数据故事应用程序
这篇文章是与 Toucan 的解决方案工程师 Django Bouchez 共同撰写的。
带有控制面板、报告和分析的商业智能(BI,Business Intelligence)仍是最受欢迎的数据和分析使用场景之一。它为业务分析师和经理提供企业的过去状态和当前状态的可视化,帮助领导者制定将影响企业未来发展的战略决策。但是,客户仍想通过更好的方式用他们的数据讲故事,从而提高其 BI 工具的采用率。
市场上的大多数 BI 工具都提供了一组详尽的自定义选项来构建数据可视化。这可能看起来是个好主意,但最终会给业务分析师带来负担,因为他们在撰写报告之前需要探索无限的可能性。分析师不是图形设计师,设计不当的数据可视化可能会隐藏它想传达的见解,甚至误导观看者。要从数据中获得更多价值,您应专注于构建用于讲述故事且受众易于理解的数据可视化。这正是引导式分析的作用所在。它不提供无限的自定义选项,而是通过强制实施设计最佳实践来有意地限制选择。引导式体验非常简单,这使业务分析师能够花更多的时间来生成实际见解,而无需担心如何呈现这些见解。
这篇文章阐明了引导式分析的概念,并向您说明了如何使用 Amazon Redshift Serverless 和 AWS 合作伙伴 Toucan 来构建数据讲故事应用程序。Toucan 与 Redshift Serverless 原生集成,这使您能够在几分钟内部署可扩展的数据堆栈,而无需管理任何基础设施组件。
Amazon Redshift 是一项完全托管式云数据仓库服务,可让您分析大量结构化和半结构化数据。Amazon Redshift 可以从几 GB 大小的数据仓库扩展到 PB 级数据仓库,AWS 最近已宣布在全球范围内推出 Redshift Serverless,这使其成为以可扩展且经济高效的方式存储数据和运行临时分析的最佳选择之一。
利用 Redshift Serverless,您可以通过运行独立的 SQL 查询或使用数据可视化工具(例如 Amazon QuickSight、Toucan 或其他第三方选项)来获得数据见解,而无需管理数据仓库基础设施。
Toucan 是一个基于云的引导式分析平台,专门用于降低向业务用户提供数据见解的复杂性。为此,Toucan 在数据讲故事应用程序的每个阶段(包括数据连接、构建可视化以及在任意设备上分发)提供无代码的、全面的用户体验。
如果您很着急,想看看可以用此集成做什么,请查看 AWS 和 Toucan 的诈骗者攻击可视化,其中 Redshift Serverless 和 Toucan 可以帮助您了解全球诈骗者攻击的演变。
解决方案概览
市场上推出了多种 BI 工具,每种工具都提供了一组日益增加的功能和自定义选项,以便能够在竞争中脱颖而出。自相矛盾的是,这似乎并没有提高企业内的 BI 工具采用率。利用更复杂的工具,数据拥有者会花时间构建精美的视觉效果,并倾向于在控制面板中添加尽可能多的信息,而不是向业务用户提供简单易懂的信息。
在这篇文章中,我们将从一名数据工程师的角度说明引导式分析的概念,该工程师需要通过数据可视化向业务用户传达故事。这名虚构的数据工程师必须创建控制面板来了解诈骗者攻击在过去 120 年中的演变情况。在 Redshift Serverless 中加载诈骗者攻击数据集后,我们将指导您使用 Toucan 撰写故事,以便更好地说明诈骗者攻击随着时间的推移的演变情况。借助 Toucan,您可以与 Redshift Serverless 中的数据集进行原生连接,使用无代码界面转换数据,构建讲故事视觉效果,然后发布它们以供业务用户使用。诈骗者攻击可视化示例说明了按照这篇文章中的说明操作可实现的目标。
此外,我们还录制了一个视频教程,说明如何将 Toucan 与 Redshift Serverless 连接并开始构建图表。
解决方案架构
下图描绘了我们的解决方案架构。
我们使用 AWS CloudFormation 堆栈在您的 AWS 账户中部署所需的所有资源:
- 联网组件 – 这包括一个 VPC、三个公共子网、一个互联网网关和一个用于托管 Redshift Serverless 端点的安全组。在这篇文章中,我们使用公共子网来促进来自外部来源(例如 Toucan 实例)的数据访问。在这种情况下,Redshift Serverless 中的数据仍由可限制传入流量的安全组和数据库凭证提供保护。对于生产工作负载,建议将流量保留在 Amazon 网络中。为此,您可以在私有子网中设置 Redshift Serverless 端点,并通过 AWS Marketplace 在您的 AWS 账户中部署 Toucan。
- Redshift Serverless 组件 – 这包括 Redshift Serverless 命名空间和工作组。Redshift Serverless 工作区可供公开访问,以便于从 Toucan 实例进行连接。数据库名称和管理员用户名在部署 CloudFormation 堆栈时被定义为参数,而管理员密码是在 AWS Secrets Manager 中创建的。在这篇文章中,我们使用数据库凭证连接到 Redshift Serverless,但 Toucan 还支持与 AWS 凭证和 AWS Identity and Access Management(IAM)配置文件连接。
- 自定义资源 – CloudFormation 堆栈包含一个自定义资源,此资源是一个 AWS Lambda 函数,在创建 CloudFormation 堆栈时,该函数自动将诈骗者攻击数据加载到 Redshift Serverless 数据库中。
- IAM 角色和权限 – 最后,CloudFormation 堆栈包括与前面提到的服务相关的所有 IAM 角色,以便与您账户中的其他 AWS 资源进行交互。
在以下部分中,我们将提供在 Redshift Serverless 中将 Toucan 与数据连接的所有说明,并指导您构建数据讲故事应用程序。
示例数据集
在这篇文章中,我们使用一个自定义数据集,其中列出了从 1900 年开始的所有全球已知的诈骗者攻击事件。您无需自行导入数据;在部署 CloudFormation 堆栈时,我们使用 Amazon Redshift COPY 命令加载数据。COPY 命令是用于将数据加载到 Amazon Redshift 的最快、最可扩展的方法之一。有关更多信息,请参阅使用 COPY 命令加载数据。
该数据集包含 4900 条记录与下面的列:
- 日期
- 年
- 十年
- 世纪
- 类型
- Zone_Type
- 区域
- 国家/地区
- 活动
- 性别
- 年龄
- 重大
- 时间
- 种类
- href(包含上下文描述的 PDF 链接)
- Case_Number
先决条件
对于此解决方案,您应该具备以下先决条件:
- 一个 AWS 账户。如果您还没有账户,请参阅注册 AWS 中的说明。
- 对此解决方案中使用的 AWS 资源具有权限的 IAM 用户或角色。
- Toucan 免费试用版,用于构建数据讲故事应用程序。
设置 AWS 资源
您可以在已提供 Redshift Serverless 的任何区域启动 CloudFormation 堆栈。
- 选择 Launch Stack(启动堆栈)以开始为这篇文章创建所需的 AWS 资源:
- 在 Redshift Serverless 中指定数据库名称(默认为
dev
)。 - 指定管理员用户名(默认为
admin
)。
您无需指定数据库管理员密码,因为它是由 CloudFormation 堆栈在 Secrets Manager 中创建的。此密钥的名称是 AWS-Toucan-Redshift-Password
。我们在后续步骤中将使用密钥值。
测试部署
部署 CloudFormation 堆栈需要花费几分钟的时间。完成部署后,您可以确认已创建资源。要访问您的数据,您需要获取 Redshift Serverless 数据库凭证。
- 在 CloudFormation 堆栈的 Outputs(输出)选项卡上,记下 Secrets Manager 密钥的名称。
- 在 Secrets Manager 控制台上,导航到 Amazon Redshift 数据库密钥,并选择 Retrieve secret value(检索密钥值)以获取数据库管理员的用户名和密码。
- 要确保您的 Redshift Serverless 数据库可用且包含诈骗者攻击数据集,请在 Amazon Redshift 控制台上打开 Redshift Serverless 工作组,然后选择 Query data(查询数据)来访问查询编辑器。
- 另请注意 Redshift Serverless 端点,您需要将该端点连接到 Toucan。
- 在 Amazon Redshift 查询编辑器中,运行以下 SQL 查询来查看诈骗者攻击数据:
请注意,如果您在启动 CloudFormation 堆栈时更改默认值,则需要在 SQL 查询中更改数据库的名称。
您已在自己的 AWS 账户中配置 Redshift Serverless,并且已上传诈骗者攻击数据集。现在是时候通过构建讲故事应用程序来使用这些数据了。
启动 Toucan 免费试用版
第一步是通过 Toucan 免费试用版访问 Toucan 平台。
填写表单并完成注册步骤。之后,您将在暂存模式下进入 Storytelling Studio。随意浏览已创建的内容。
将 Redshift Serverless 连接到 Toucan
要连接 Redshift Serverless 与 Toucan,请完成以下步骤:
- 在 Toucan Storytelling Studio 的底部选择 Datastore(数据存储)。
- 选择 Connectors(连接器)。
Toucan 通过 AnyConnect 与 Redshift Serverless 原生集成。
- 搜索 Amazon Redshift 连接器,并用以下信息填写表单:
- 名称 – Toucan 中的连接器的名称。
- 主机 – 您的 Redshift Serverless 端点。
- 端口 – 您的 Amazon Redshift 数据库的侦听端口(5439)。
- 默认数据库 – 要连接到的数据库的名称(默认为 dev,除非在 CloudFormation 堆栈参数中进行了编辑)。
- 身份验证方法 – 用于连接到 Redshift Serverless 的身份验证机制。在这种情况下,我们使用数据库凭证。
- 用户 – 用于对 Redshift Serverless 进行身份验证的用户名(默认为 admin,除非在 CloudFormation 堆栈参数中进行了编辑)。
- 密码 – 用于对 Redshift Serverless 进行身份验证的密码(您应从 Secrets Manager 中检索它;密钥的名称是
AWS-Toucan-Redshift-Password
)。
创建实时查询
您现已连接到 Redshift Serverless。完成以下步骤以创建查询:
- 在主页上,选择 Add tile(添加磁贴)以创建新的可视化。
- 选择 Live Connections(实时连接)选项卡,然后选择您在上一步中创建的 Amazon Redshift 连接器。
Toucan 试用版将指导您构建第一个实时查询,在该查询中,您可以使用 Toucan YouPrep 模块转换数据,而无需编写代码。
例如,如以下屏幕截图所示,您可以使用此无代码接口按活动计算重大诈骗者攻击次数的和,获取前五名,然后计算总计的百分比。
构建您的第一个图表
在数据准备就绪后,选择 Tile(磁贴)选项卡,并填写可帮助您构建图表的表单。
例如,您可以配置五项最危险活动的排行榜,并为超过 100 次攻击的活动添加突出显示效果。
选择 Save Changes(保存更改)以保存您的作品并返回主页。
发布和分享您的作品
在此阶段之前,您一直在 Staging
模式下工作。要让所有人都能看到您的作品,您需要将它发布到 Production
。
在主页的右下角,选择眼睛图标,从未来最终用户的角度预览您的作品。然后,您可以选择 Publish(发布)以使您的作品可供所有人查看。
Toucan 还提供多个嵌入选项,使最终用户能够更轻松地访问您的图表(例如,使用手机和平板电脑)。
通过执行这些步骤,您已连接到 Redshift Serverless,使用 Toucan 无代码接口转换数据,并为业务最终用户构建了数据可视化。Toucan 试用版将在此过程的每个阶段为您提供指导,以帮助您入门。
Redshift Serverless 和 Toucan 引导式分析通过减少数据工程师的基础设施工作以及让业务最终用户更易于理解控制面板,为提高 BI 工具的采用率提供了一种有效的方法。这篇文章仅涵盖了 Redshift Serverless 和 Toucan 提供的功能的一小部分,因此,请随时探究 Amazon Redshift Serverless 文档和 Toucan 文档中的其他功能。
清理
这篇文章中通过 CloudFormation 模板部署的某些资源在使用时会产生费用。请务必在完成后移除这些资源并清理作品,以避免产生不必要的费用。
在 CloudFormation 控制台上,选择 Delete stack(删除堆栈)以删除所有资源。
总结
这篇文章向您说明了如何使用 Redshift Serverless 和 Toucan 设置端到端架构以实施引导式分析。
该解决方案受益于 Redshift Serverless 的可扩展性,使您能够以经济高效的方式存储、转换和公开数据,而无需管理任何基础设施。Redshift Serverless 与 Toucan 原生集成,后者是一款引导式分析工具,可供所有人在任意设备上使用。
引导式分析侧重于通过数据报告传达故事。通过对自定义选项设置有意图的约束,Toucan 使数据拥有者能够轻松构建有意义的控制面板,向最终用户传达清晰简洁的信息。它适用于您的内部和外部客户,以及无限数量的使用场景。
立即使用我们的 CloudFormation 模板和免费的 Toucan 试用版开始试用!
Original URL: https://aws.amazon.com/blogs/big-data/build-a-data-storytelling-application-with-amazon-redshift-serverless-and-toucan/
关于作者
Louis Hourcade 是 AWS Professional Services 团队的数据科学家。他与各个行业的 AWS 客户合作,通过创新性技术帮助他们加快获得业务成果。业余时间,他喜欢跑步、攀爬巨石和冲浪(不太大的浪)。
Benjamin Menuet 是 AWS Professional Services 的数据架构师。他帮助客户开发大数据和分析解决方案,以加快实现业务成果。工作之余,Benjamin 是一名越野跑运动员,并且完成了一些很著名的比赛,例如 UTMB。
Xavier Naunay 是 AWS Professional Services 的数据架构师。他是 AWS ProServe 团队的成员,帮助企业客户使用 AWS 服务解决复杂的问题。闲暇时,他不是在旅行,就是在了解技术和其他文化。
Django Bouchez 是 Toucan 的解决方案工程师。他与销售团队合作,提供有关技术和功能验证和证明方面的支持,还帮助研发部与 AWS 等云合作伙伴一起演示新功能。工作之余,Django 是一名家庭酿酒师,还练习水肺潜水和运动攀岩。