发布于: Aug 9, 2019
AWS Lake Formation 是一项服务,可让您在几天内轻松建立安全的数据湖。数据湖是一种安全的集中式辅助存储库,它以数据原始形式和可用于分析的形式存储所有数据。利用数据湖,您可以分解数据孤岛并组合不同类型的分析,从而获得见解并指导作出更好的业务决策。
但是如今,建立和管理数据湖涉及大量极为耗时的复杂手动任务。这项工作包括加载来自不同来源的数据、监控这些数据流、设置分区、打开加密和管理密钥、定义转换作业并监控其操作、将数据重新组织成列格式、配置访问控制设置、使用机器学习识别近似重复数据、匹配数据集记录、授予对数据集的访问权限以及随时间推移审核访问权限。
使用 AWS Lake Formation 创建数据湖很简单,只需定义数据存储位置,以及要应用的数据访问和安全策略即可。然后,AWS Lake Formation 会从数据库和对象存储中收集数据并按目录分类,将数据移动到新的 Amazon S3 数据湖,使用机器学习算法清理和分类数据,并保护对敏感数据的访问权限。接着,用户可以访问那些描述了可用数据集及其适当用法的集中数据目录。然后,用户可以通过所选的分析和机器学习服务(例如 Amazon EMR for Apache Spark、Amazon Redshift Spectrum 和 Amazon Athena)利用这些数据集。
AWS Lake Formation 现已在以下 AWS 区域推出:美国东部(弗吉尼亚北部)、美国东部(俄亥俄)、美国西部(俄勒冈)、欧洲(爱尔兰)和亚太地区(东京)。要查看提供 AWS Lake Formation 的所有区域,请访问 AWS 区域页面。请访问 AWS Lake Formation 控制台,开始使用 AWS Lake Formation。