AWS Lake Formation

在数天内构建安全的数据湖

AWS Lake Formation 是一项服务,可以在几天内轻松建立安全的数据湖。数据湖是一个安全的集中式辅助存储库,它以数据原始形式和可用于分析的形式存储所有数据。利用数据湖,您可以分解数据孤岛并组合不同类型的分析,从而获得见解并指导作出更好的业务决策。

但是如今,设置和管理数据湖涉及大量极为耗时的复杂手动任务。这项工作包括加载来自不同来源的数据、监控这些数据流、设置分区、打开加密和管理密钥、定义转换作业并监控其操作、将数据重新组织成列格式、配置访问控制设置、删除冗余数据重复数据、匹配链接记录、授予对数据集的访问权限以及随时间推移审核访问权限。

使用 Lake Formation 创建数据湖很简单,只需定义数据源,制定要应用的数据访问和安全策略就行。然后,Lake Formation 会帮助您从数据库和对象存储中收集并按目录分类数据,将数据移动到新的 Amazon S3 数据湖,使用机器学习算法清理和分类数据,并保护对敏感数据的访问权限。您的用户可以访问那些描述了可用数据集及其适当用法的集中数据目录。然后,用户可以通过所选的分析和机器学习服务,利用这些数据集,例如 Amazon RedshiftAmazon AthenaAmazon EMR for Apache Spark(测试版)。Lake Formation 建立在 AWS Glue 中可用的功能之上。

AWS re:Invent 2018 – 宣布推出 AWS Lake Formation

优势

快速构建数据湖

借助 Lake Formation,您可以更快地移动、存储、编目和清理数据。您只需将 Lake Formation 指向您的数据源,Lake Formation 就会抓取这些数据源并将数据移动到新的 Amazon S3 数据湖中。Lake Formation 根据常用的查询术语将 S3 中的数据组织成大小合适的数据块,以提高效率。Lake Formation 还可以将数据更改为 Apache Parquet 和 ORC 等格式,以加快分析速度。此外,Lake Formation 还具有内置的机器学习功能,可以进行重复数据删除和查找匹配记录(两个引用相同内容的条目),以提高数据质量。

简化安全管理

您可以使用 Lake Formation 在一个位置集中定义安全性、监管和审计策略,而不是按服务执行这些任务,然后跨其分析应用程序为您的用户实施这些策略。您的策略将以一致的方式实施,不需要跨安全服务(如 AWS Identity and Access Management 和 AWS Key Management Service)、存储服务(如S3)以及分析和机器学习服务(如 Redshift、Athena 和 EMR for Apache Spark(测试版))手动配置它们。这样可以减少跨服务配置策略的工作量,并提供一致的实施和合规性。

提供对数据的自助访问

借助 Lake Formation,您可以构建一个数据目录,该目录描述可用的不同数据集以及哪些用户组可以访问每个数据集。这可以帮助用户找到要分析的正确数据集,从而提高用户的工作效率。通过提供具有一致安全性实施的数据目录,Lake Formation 让分析师和数据科学家可以更轻松地使用他们的首选分析服务。
他们可以在目前位于单个数据湖中的各种数据集上使用 EMR for Apache Spark(测试版)、Redshift 或 Athena。用户还可以结合使用这些服务,而无需在孤岛之间移动数据。

工作原理

AWS Lake Formation 工作原理

Lake Formation 有助于构建、保护和管理您的数据湖。首先,识别 S3 或关系数据库和 NoSQL 数据库中存储的现有数据,并将数据移动到数据湖中。接下来,对数据进行抓取、编目和准备,以进行分析。然后,让您的用户通过其选择的分析服务安全地自助访问数据。其他 AWS 服务和第三方应用程序也可以通过显示的服务访问数据。Lake Formation 管理橙色框中的所有任务,并与蓝色框中显示的数据存储和服务集成。

使用案例

阅读有关“什么是数据湖”和使用案例的更多内容。

客户

Nuskin logo

Nu Skin Enterprises 是一家全球直销公司,经销 200 多种优质抗衰老产品,包括个人护理和营养补充剂。

“我们在扩展现有分析系统的能力和扩展吞吐量方面面临着挑战。我们的数据分布在各个断开连接的数据库和 SaaS 解决方案间,从而加大了大规模分析数据的难度,同时也限制了对敏感数据的访问。为了克服这一困难,我们在 AWS 上构建了数据湖解决方案。通过该解决方案,我们可以把各个数据孤岛中的数据集合到 Amazon S3 中,然后使用 AWS Lake Formation 在其中对所有数据进行编目和保护。如果没有 AWS Lake Formation,将不可能为 Amazon S3 上的所有数据构建一个可扩展、易用的安全层。基于用户角色设置和应用精细访问控制很容易”,Nu Skin Enterprises 的全球技术企业架构副总裁 Joe Sueper 说

panasonic_logo

Panasonic Avionics Corporation 是全球领先的机上娱乐和通信系统供应商。

“我们希望创建一个能够管理环境中所有不同应用程序的安全设置的数据平台。借助 AWS Lake Formation,我们现在可以定义一次策略,并以相同的方式在我们使用的多种服务中实施它们,包括 AWS Glue 和 Amazon Athena,”Panasonic Avionics 云和数据服务总监 Anand Desikan 说到。“增强的控制级别使我们能够安全地访问列和表的数据和元数据,而不仅仅是批量对象,这是我们数据安全和治理标准的重要组成部分。”

Accenture_Logo_Black_Purple_RGB

Accenture 是一家领先的全球专业服务公司,可提供战略、咨询、数字化、技术和运营领域的多种服务和解决方案。

“我专注于帮助客户完成“云数据”之旅。具体而言,我们看到组织在需要对来自多个来源的数据进行分析时,面临着缺乏可信数据的问题,”Accenture 数据业务部高级架构师 Namrata Maheshwary 表示。“数据清理是数据分析中的关键步骤,可以极大地影响业务成果和决策。AWS Lake Formation 的新功能在解决数据准确性和确保数据湖访问安全的挑战方面有很大助益。我们发现在进行数据准备,以查找来自不同数据源的匹配记录,清理和删除重复数据时,利用先进的机器学习技术非常有效。这将有助于减少花费的时间、精力和成本,同时提高客户数据湖中数据的质量和准确性。”

Zalando

Zalando 是欧洲领先的时尚和生活方式在线平台。

“作为欧洲最时尚的科技公司,我们努力为时尚之旅的各个方面寻找数字解决方案,”Zalando SE 工程主管 Alberto Miorin 说到。“AWS Lake Formation 为我们通过 Amazon Redshift 进行数据访问提供了可扩展的中央控制点,不仅简化了流程,还可通过对数据使用方式的精细控制来改进流程。现在,我们可以使用我们喜欢的工具在数据湖中发现、访问和分析数据,并将其用于商业智能和数据科学。这种简化的工作流程可帮助我们的管理人员按时做出正确的决策,并通过机器学习促进创新。”

Logo_for_Life360_App

Life360 是世界领先的家庭安心服务。Life360 应用程序通过智能功能保护您最重要的人并让你们随时保持联系,让您与家人建立更亲密的关系。

“我们希望使用 AWS Lake Formation 构建我们的数据湖,以支持基于位置的时间序列数据,并使加载数据变得更加容易。预制蓝图让我们可以将数据放入到数据湖中,我们的数据工程团队不必从头开始编写代码,因此他们可以专注于操作摄取,而不是做重复工作,”Life360, Inc. 云和数据服务主管 Richard Chennault 说到。“借助 AWS Lake Formation,我们能够快速解锁 Amazon S3 中可用的数据,并使其可用于广泛的 AWS 数据服务分析。数据在 Amazon S3 中保持不变,我们可以通过多种方式对其进行分析,并且我们可以完全控制它。”

change-healthcare-red-blue-logo

Change Healthcare 是一家领先的独立医疗保健技术公司,提供数据和分析驱动型解决方案,覆盖约 2100 个政府和商业支付机构、5500 家医院、900000 名医生和 33000 家药房。

“我们每天处理数百万笔交易的数据,同时确保遵守医疗行业的法规要求,包括 HIPAA”,Change Healthcare 首席技术官 Aaron Symanski 说。“我们对 AWS Lake Formation 的推出感到欣喜,它提供了一个集中控制点,可以轻松地将数千个客户端的数据加载、清理、保护和编目到基于 AWS 的数据湖中,从而显著降低了我们的运营负担。借助 Lake Formation 中的数据访问控制,我们可以轻松地一次定义多个策略,并在我们使用的所有分析和机器学习服务中实施这些策略,并使用审计日志来显示合规性。

Fender_digital

Fender Digital 是标志性吉他品牌 Fender 的一部分,负责开发应用程序、网站、平台和工具,以作为 Fender 所生产吉他、功放和音频设备的补充。

“我们正在从我们的数字应用和设备中生成大量用户和使用数据。我们计划在 AWS 上建立一个数据湖,与我们基于 Amazon Redshift 的数据仓库一起运营”,Fender Digital 的工程副总裁 Joshua Couch 说。“我迫不及待地想让我的团队开始使用 AWS Lake Formation。借助 Lake Formation,我们将能够轻松地加载、转换和编目数据,并使其在我们的组织内安全地在各种 AWS 服务组合中可用。借助像 Lake Formation 这样的企业级服务,我们将能够花更多的时间从我们的数据中获取价值,而不是在手动设置和管理数据湖时执行繁重的工作。”

cloudreach-logo

通过迁移和管理软件平台 Cloudamize,Cloudreach 简化了数据驱动决策,并为客户带来绝对信心。

“AWS Lake Formation 正在让数据湖普及化,并加速企业数据战略的实施,”Cloudreach 的 AWS Practice 首席技术官 Kevin Davis 表示。“AWS Lake Formation 集中管理服务的安全性并集中进行治理,简化了管理并降低了运营开销。通过加速消除企业数据孤岛及其他数据计划(如机器学习),商业价值开始增值。”

Amgen-logo

Amgen 是世界上最大的独立生物技术公司。

“在三年多的时间里,Amgen 大量使用 Amazon Redshift 和 Amazon EMR 集群。以所需的细致程度为每个 AWS 账户、服务、用户和数据集设置安全性和访问控制很繁琐,”Amgen 企业数据湖产品负责人 Kerby Johnson 表示。“AWS Lake Formation 通过集中控制点简化了该流程,同时使我们能够更精细地管理使用者及使用方式。AWS Lake Formation 让我们可以像管理对数据库中的数据的权限一样。管理对 Amazon S3 中的对象的权限。我们的用户将能够使用他们喜欢的工具查找、访问和分析他们需要的数据。这个新的工作流程可以让每个人在使用 Amgen 的数据时更有效率。”

Alcon-logo

Alcon 在视力和眼睛护理产品的创新和开发方面领先业界,其产品改变了许多用户的人生。

“像许多公司一样,我们开始实施数据湖计划,以摆脱数据孤岛的桎梏,”Alcon 的 IT 分析主管 Srinivas Ravilisetty 表示。 “通过 AWS Lake Formation,我们可以快速添加对现有 Amazon S3 存储桶的访问权限,并定义其中的内容以及如何使用它们。数据保留在 S3 中,但我们可以完全控制它,可将其用于其他用途。”

quantiphi-logo

Quantiphi 是一款人工智能和大数据软件,面向寻求解决复杂业务问题的公司。Quantiphi 专门为客户构建数据湖泊和 AI 解决方案,以提供可量化的价值。

“AWS Lake Formation 使我们能够在几天内提供可访问相关数据的安全数据湖,”Quantiphi 的 AWS Practice 主管 Arnav Gupta 说到。“我们现在能够为我们的客户提供两全其美的产品,在提供全面安全性的同时,让他们可以更容易访问相关数据,以便轻松做出决策。我们的客户可以通过利用功能强大的集中数据源,专注于制定更明智、分析驱动的业务决策。”

curvolabs_logo

Curvo 是一家专注于医疗供应链的软件即服务公司。利用深入的领域专业知识和敏捷的开发实践,他们构建分析、工作流和自动化来加快和简化医疗支出管理。

“数据标准化是提供更好的患者结果的关键一步,它为临床和医疗产品的基准定价数据带来透明化。使用 AWS Lake Formation 中的 ML 转换,我们现在处理数据集的时间从一周减少到四个小时,而准确度提高到近 100%”,首席技术官 Nic Sagez 说。“这个速度和准确度使我们的医疗客户能够快速响应市场变化,最终在不牺牲患者治疗效果的情况下提供更负担得起的治疗。我们一天内便可以为他们提供此服务,而我们的竞争对手则需要 4-6 周。”

Product-Page_Standard-Icons_01_Product-Features_SqInk
详细了解 AWS Lake Formation 功能
了解更多 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
注册账户
注册 
Product-Page_Standard-Icons_03_Start-Building_SqInk
开始在控制台中构建
登录