许多 Amazon Web Services(AWS)客户需要能够提供比传统数据管理系统更高的敏捷性和灵活性的数据存储和分析解决方案。数据湖是存储和分析数据的一种新方法,越来越受欢迎,因为它可使公司管理来自各种不同来源的多种数据类型,并将结构化和非结构化的此数据存储在集中存储库中。
AWS 云提供帮助客户实施安全、灵活且经济高效的数据湖所需的许多构建块。这其中包括帮助摄取、存储、查找、处理和分析结构化和非结构化数据的 AWS Managed Services。为支持我们的客户构建自己的数据湖,AWS 提供了 Data Lake on AWS,它可在 AWS 云上部署高度可用且经济高效的数据湖架构,同时提供一个用于数据集搜索和请求的用户友好型控制台。
概览
Data Lake on AWS 可以自动配置所需的核心 AWS 服务,以便轻松标记、搜索、共享、转换、分析和管理公司内部或其他外部用户的特定数据子集。该指南部署了一个控制台,用户可以通过访问该控制台搜索和浏览满足其业务需求的可用数据集。它还包含一个联合模板,让您能够启动可与 Microsoft Active Directory 集成的解决方案版本。
下图展示了您可以使用 GitHub 上的示例代码构建的数据湖架构。

AWS 上的数据湖架构
该代码配置了一系列 AWS Lambda 微服务(函数)、用于可靠的搜索功能的 Amazon OpenSearch Service、用于用户身份验证的 Amazon Cognito、用于数据转型的 AWS Glue 和用于分析的 Amazon Athena。
AWS 上的数据湖利用 Amazon S3 的安全性、持久性和可扩展性来管理组织数据集的持久性目录,并利用 Amazon DynamoDB 来管理相应的元数据。编制好数据集的目录后,其属性和描述性标签将可供搜索。用户可以搜索并浏览控制台中的可用数据集,并且可以创建他们需要访问的数据列表。它将跟踪用户选择的数据集,并在用户签出时生成一个其中包含至所需内容的安全访问链接的清单文件。