AWS 上的数据湖可帮助您打破数据孤岛,以最大限度地增加端到端数据洞察。 通过将 Amazon Simple Storage Service(S3)作为您的数据湖基础,您可以利用 AWS 分析服务来支持您需要的数据,从数据摄取、移动和存储再到大数据分析、流式分析、商业智能、机器学习(ML)等,所有这些都具有最佳的性价比。在 AWS 上运行了成千上万个数据湖。
Amazon S3 是构建数据湖的最佳场所,因为它具有无与伦比的持久性、可用性、可扩展性、安全性、合规性和审计功能。通过 AWS Lake Formation,您可以在几天而不是几个月内轻松构建安全数据湖。然后,AWS Glue 允许您在数据湖与专用数据和分析服务之间进行无缝数据移动。
优势
存储您的所有数据
由于 Amazon S3 可以经济高效地进行扩展,几乎没有限制,因此您可以存储来自任何来源的所有数据,并发挥其价值。
加大创新力度
借助可用于分析的所有数据,组织可以加速创新,例如发现节省成本或个性化的新机会。机器学习和预测分析可以使用更广泛的数据流程。
在作业中使用最佳的工具
通过专用的 AWS 分析服务,您可以快速地提取数据洞察,使用最适合任务的工具,经过优化后针对您的需求实现最佳性能、规模和成本。
消除服务器管理工作
AWS 分析服务具有最适合云端数据分析的无服务器选项,易于使用和管理。
AWS 上的数据湖的基本支柱
数据湖基础:Amazon S3、AWS Lake Formation、Amazon Athena、Amazon EMR 和 AWS Glue
使用在 Amazon S3 上构建的数据湖,您可以使用原生 AWS 服务运行大数据分析、人工智能(AI)、机器学习、高性能计算(HPC)和媒体数据处理应用程序,以便从非结构化数据集中获得洞察信息。与 AWS Lake Formation 和 AWS Glue 结合使用时,可以通过端到端数据集成和集中的、类似数据库的权限和治理来轻松简化数据湖的创建和管理。Glue、Amazon EMR 和 Amazon Athena 等 AWS 分析解决方案可让您轻松直接查询数据湖。
无缝集成和移动数据
您可以通过 AWS Glue 实时或批量导入任意数量的数据。数据可以从多个来源收集并以其原始格式移动到数据湖,AWS 分析服务也可用于直接查询您的数据湖。借助 AWS Glue 等数据集成、发现、准备和转换工具,您可以进行扩展,同时节省定义数据结构、架构和转换的时间。
探索数据、为其编制目录并保护其安全
由于数据湖中有一系列数据源和格式,因此能够抓取、编目、索引和保护数据对于确保用户可以访问至关重要。AWS Glue 提供了简化的集中式数据目录,因此您可以更好地了解数据湖中的数据。AWS Lake Formation 让您可以将数据治理和安全性集中起来,以便您可以放心地部署数据。
轻松实现专用分析
组织中的各种角色(如数据科学家、数据开发人员和业务分析师)能够轻松通过各自选择的专用 AWS 分析工具和框架来访问数据。您可以轻松快速地运行分析,而无需将数据移至单独的分析系统。
快速部署机器学习
AWS 上的数据湖能让您使用最全面的 AI 和机器学习服务集更快地创新。通过在数据湖上启用机器学习,您可以进行准确预测,从数据中获得更深入的洞察,降低运营开销并改善客户体验。