AWS Lake Formation

在数天内构建安全的数据湖

AWS Lake Formation 是一项服务,可以在几天内轻松建立安全的数据湖。数据湖是一个安全的集中式辅助存储库,它以数据原始形式和可用于分析的形式存储所有数据。利用数据湖,您可以分解数据孤岛并组合不同类型的分析,从而获得见解并指导作出更好的业务决策。

但是如今,设置和管理数据湖涉及大量极为耗时的复杂手动任务。这项工作包括加载来自不同来源的数据、监控这些数据流、设置分区、打开加密和管理密钥、定义转换作业并监控其操作、将数据重新组织成列格式、配置访问控制设置、删除冗余数据重复数据、匹配链接记录、授予对数据集的访问权限以及随时间推移审核访问权限。

使用 Lake Formation 创建数据湖很简单,只需定义数据存储位置,制定要应用的数据访问和安全策略就行。然后,Lake Formation 会从数据库和对象存储中收集并按目录分类数据,将数据移动到新的 Amazon S3 数据湖,使用机器学习算法清理和分类数据,并保护对敏感数据的访问权限。接下来,您的用户可以访问那些描述了可用数据集及其适当用法的集中数据目录。然后,用户可以通过所选的分析和机器学习服务,利用这些数据集,例如 Amazon EMR for Apache Spark、Amazon Redshift、Amazon Athena、Amazon Sagemaker 和 Amazon QuickSight。

AWS re:Invent 2018 – 宣布推出 AWS Lake Formation

优势

快速构建数据湖

借助 Lake Formation,您可以更快地移动、存储、编目和清理数据。您只需将 Lake Formation 指向您的数据源,Lake Formation 就会抓取这些数据源并将数据移动到新的 Amazon S3 数据湖中。Lake Formation 根据常用的查询术语将 S3 中的数据组织成大小合适的数据块,以提高效率。Lake Formation 还可以将数据更改为 Apache Parquet 和 ORC 等格式,以加快分析速度。此外,Lake Formation 还具有内置的机器学习功能,可以进行重复数据删除和查找匹配记录(两个引用相同内容的条目),以提高数据质量。

简化安全管理

您可以使用 Lake Formation 在一个位置集中定义安全性、监管和审计策略,而不是按服务执行这些任务,然后跨其分析应用程序为您的用户实施这些策略。您的策略将以一致的方式实施,不需要跨安全服务(AWS Identity and Access Management 和 AWS Key Management Service)、存储服务 (S3) 以及分析和机器学习服务(Redshift、Athena 和 EMR for Apache Spark)手动配置它们。 这样可以减少跨服务配置策略的工作量,并提供一致的实施和合规性。

轻松安全地自助访问数据

借助 Lake Formation,您可以构建一个数据目录,该目录描述可用的不同数据集以及哪些用户组可以访问每个数据集。这可以帮助用户找到要分析的正确数据集,从而提高用户的工作效率。通过提供具有一致安全性实施的数据目录,Lake Formation 让分析师和数据科学家可以更轻松地使用他们的首选分析服务。
他们可以在目前位于单个数据湖中的各种数据集上使用 EMR for Apache Spark、Redshift、Athena、Sagemaker 或 QuickSight。用户还可以结合使用这些服务,而无需在孤岛之间移动数据。

工作原理

AWS Lake Formation 工作原理

Lake Formation 有助于构建、保护和管理您的数据湖。首先,识别 S3 或关系数据库和 NoSQL 数据库中存储的现有数据,并将数据移动到数据湖中。接下来,对数据进行抓取、编目和准备,以进行分析。然后,让您的用户通过其选择的分析服务安全地自助访问数据。其他 AWS 服务和第三方应用程序也可以通过显示的服务访问数据。Lake Formation 管理橙色框中的所有任务,并与蓝色框中显示的数据存储和服务集成。

使用案例

阅读有关“什么是数据湖”和使用案例的更多内容。

客户

change-healthcare-red-blue-logo

Change Healthcare 是一家领先的独立医疗保健技术公司,提供数据和分析驱动型解决方案,覆盖约 2100 个政府和商业支付机构、5500 家医院、900000 名医生和 33000 家药房。

“我们每天处理数百万笔交易的数据,同时确保遵守医疗行业的法规要求,包括 HIPAA”,Change Healthcare 首席技术官 Aaron Symanski 说。“我们对 AWS Lake Formation 的推出感到欣喜,它提供了一个集中控制点,可以轻松地将数千个客户端的数据加载、清理、保护和编目到基于 AWS 的数据湖中,从而显著降低了我们的运营负担。借助 Lake Formation 中的数据访问控制,我们可以轻松地一次定义多个策略,并在我们使用的所有分析和机器学习服务中实施这些策略,并使用审计日志来显示合规性。此外,Lake Formation 将从第一天开始遵守 HIPAA 要求,满足我们的安全要求,并为我们建立和管理数据湖提供一种令人信服的方式。”

Fender_digital

Fender Digital 是标志性吉他品牌 Fender 的一部分,负责开发应用程序、网站、平台和工具,以作为 Fender 所生产吉他、功放和音频设备的补充。

“我们正在从我们的数字应用和设备中生成大量用户和使用数据。我们计划在 AWS 上建立一个数据湖,与我们基于 Amazon Redshift 的数据仓库一起运营”,Fender Digital 的工程副总裁 Joshua Couch 说。“我迫不及待地想让我的团队开始使用 AWS Lake Formation。借助 Lake Formation,我们将能够轻松地加载、转换和编目数据,并使其在我们的组织内安全地在各种 AWS 服务组合中可用。借助像 Lake Formation 这样的企业级服务,我们将能够花更多的时间从我们的数据中获取价值,而不是在手动设置和管理数据湖时执行繁重的工作。”

Product-Page_Standard-Icons_01_Product-Features_SqInk
详细了解 AWS Lake Formation 功能
了解更多 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
注册账户
注册 
Product-Page_Standard-Icons_03_Start-Building_SqInk
开始在控制台中构建
登录