AWS 上的数据湖存储

用于构建数据湖的安全性、持久性和可扩展性最高的存储

Amazon Simple Storage Service (S3) 是最大的高性能对象存储服务,适用于结构化和非结构化数据,也是构建数据湖的首选存储服务。使用 Amazon S3,您可以在安全的环境(数据受到 99.999999999% 的持久性保护((11 个 9))中经济高效地构建和扩展任何规模的数据湖。

使用在 Amazon S3 上构建的数据湖,您可以使用原生 AWS 服务运行大数据分析、人工智能 (AI)、机器学习 (ML)、高性能计算 (HPC) 和媒体数据处理应用程序,以便从非结构化数据集中获得洞察信息。使用 Amazon FSx for Lustre,您可以启动 HPC 和 ML 应用程序的文件系统,并直接从您的数据湖处理大型媒体工作负载。您还可以从 Amazon 合作伙伴网络 (APN) 中灵活地使用您的首选分析、AI、ML 和 HPC 应用程序。由于 Amazon S3 支持的功能很广泛,IT 经理、存储管理员和数据科学家被授权执行访问策略、大规模管理对象和审计跨 S3 数据湖的活动。

Amazon S3 为 Netflix、Airbnb、Sysco、Expedia、GE 和 FINRA 等家居品牌托管数万个数据湖,这些品牌正利用这些数据湖按自己的需求安全地进行扩展,并随时发现业务洞察信息。

使用 S3 数据湖存储和分析非结构化数据 (1:43)

为什么在 Amazon S3 上构建数据湖?

Amazon S3 设计可提供 99.999999999%(11 个 9)的数据持久性。有了这样的持久性,如果您在 Amazon S3 中存储 1000 万个对象,那么每 10000 年预计应该只会丢失一个对象! 该服务可以跨多个系统创建并存储所有已上传 S3 对象的副本。这意味着您的数据在需要时可用,并可抵御故障、错误和威胁。

数据湖存储基础设施
专门设计的安全性
使用专为数据敏感性最高的企业设计的基础设施保护数据

按需可扩展性
立即纵向扩展存储容量,无需长资源采购周期

可持久抵抗整个 AWS 可用区的故障
最少可跨三个可用区 (AZ) 自动存储数据副本。 为了提供容错能力,可用区之间相隔几英里——但不超过 100 英里,以确保低延迟。

适用于分析、HPC、AI、ML 和媒体数据处理的 AWS 服务
使用 AWS 原生服务在您的数据湖上运行应用程序

与第三方服务提供商的集成
APN 为您的 S3 数据湖带来首选分析平台。

范围广泛的数据管理功能
全面的灵活性,可以在进行大规模管理的同时在对象级别上操作,配置访问权限,提高成本效率和跨 S3 数据湖审计数据。

通过数据湖解决大数据挑战

各行各业各种规模的企业都在使用数据湖将数据从必须管理的成本转换为有价值的业务资产。数据湖是在企业层次上理解数据的基础。数据湖消除了数据孤岛,使分析不同的数据集变得更容易,同时还保持数据安全性,并结合机器学习。

AWS 首席技术官 Werner Vogels 博士在他的文章“Amazon 如何通过数据湖解决大数据挑战”中解释道,“公司选择创建数据湖的一个主要原因是打破数据孤岛。将数据放在不同的地方、由不同的小组控制,其本质上掩盖了数据。”

使用 Amazon S3,您可以以无限的规模迁移、存储、管理和保护所有结构化和非结构化数据的安全,从而打破数据孤岛。

阅读全文 »

数据湖的主要组成部分

将数据迁移至云

AWS 提供数据传输服务组合,从而为任何数据迁移项目提供适当解决方案。连接水平是数据迁移的重大影响因素,AWS 提供可解决您的混合云存储、在线数据传输和离线数据传输需求的产品。

混合云存储

AWS Storage Gateway 是一种混合存储服务,让您可以将本地应用程序无缝连接并扩展到 AWS 存储。客户使用 Storage Gateway 将磁带库无缝替代为云存储,提供云存储支持的文件共享,或创建低延迟缓存来访问 AWS 中本地应用程序的数据。借助 AWS Direct Connect,您可以在 AWS 与您的数据中心、办公室或主机托管环境之间建立一个专用连接。这种做法可以降低网络成本、提高吞吐量并提供一个比公共互联网连接更为一致的网络体验。

在线数据传输

AWS DataSync 可以轻松高效地将数百 TB 大小的数百万份文件传输到 Amazon S3、Amazon EFS 或 Amazon FSx for Windows File Server 中,速度最高比开源工具快 10 倍。DataSync 可自动处理或消除很多手动任务,包括脚本复制任务、计划和监控传输、验证数据和优化网络利用率。Amazon S3 Transfer Acceleration 可在客户与您的 Amazon S3 存储桶之间实现快速的远距离文件传输。Amazon KinesisAWS IoT Core 可以轻松安全地捕获流数据并将流数据从 IoT 设备加载到 Amazon S3 中。

离线数据传输

AWS Snow 系列是专为网络容量受限或不存在的边缘站点构建的服务,可在恶劣的环境中提供存储和计算功能。AWS Snowball 服务使用坚固的便携式存储和边缘计算设备来进行数据收集、处理和迁移。客户可以运送物理 Snowball 设备来进行至 AWS 的离线数据迁移。AWS Snowmobile 是一个 EB 级的数据传输服务,可用于将海量数据移动到云中,包括视频库、图片存储库甚至整个数据中心的迁移。

详细了解 AWS 云数据迁移服务 »

跨数据湖使用 AWS 服务

S3 数据湖客户可以访问大量的 AWS 分析应用程序、AI/ML 服务和高性能文件系统。这意味着您可以在数据湖上运行大量的工作负载,而无需进行额外的数据处理或将数据传输到其他存储。您还可以将您的首选第三方分析和机器学习工具带到 S3 数据湖中。 

使用 AWS Lake Formation 可以在几天而不是几个月内构建数据湖

AWS Lake Formation 让您可以在几天而不是几个月的时间内创建一个安全的数据湖,并且非常简单,只需定义数据驻留的位置以及要应用的数据访问和安全策略。然后,Lake Formation 从不同的源中收集数据并将数据迁移到 Amazon S3 中的新数据湖。该服务使用机器学习算法清理数据并对数据进行编目和分类,使您可以定义访问控制策略。接下来,用户可以访问那些列出了可用数据集及其使用条款的集中数据目录。

详细了解 AWS Lake Formation 并注册 »

宣布推出 AWS Lake Formation (2:44)

在不移动数据的情况下运行 AWS 分析应用程序

一旦数据驻留在 S3 数据湖中,您就可以为一系列使用案例使用以下任何一种专门构建的分析服务,从分析 PB 级的数据集到查询单个对象的元数据不等。使用 S3 数据湖,无需耗费大量资源和时间的提取、转换和加载 (ETL) 任务即可完成这些操作。您还可以将您的首选分析平台带到 S3 数据湖中。

技术趋势:数据湖和分析 (9:00)
product-icon_Amazon_Athena_icon_squid_ink
Amazon Athena

使用简单的 SQL 表达式在 S3 数据湖中快速查询数据集并在几秒钟内获取结果。Athena 非常适合用于进行即时查询且不需要集群管理,但它还可以处理复杂的分析,包括大型连接、窗口函数和阵列。

product-icon_Amazon_EMR_icon_squid_ink
Amazon EMR

使用您选择的开源分布式框架(如 Spark 和 Hadoop)分析 S3 数据。在几分钟内启动和扩展一个 EMR 集群(无需节点预置、集群设置和调优以及 Hadoop 设置),并在同一数据集中并行运行多个集群。

product-icon_AWS_Glue_icon_squid_ink
AWS Glue

跨 S3 数据湖简化 ETL 任务,使您的数据可搜索且可查询。只需在 AWS 控制台中单击几下,即可注册您的数据源,然后 AWS Glue 将使用元数据(用于表定义和架构)对它们进行爬取,以构造一个数据目录。

REDSHIFT SPECTRUM
Amazon Redshift Spectrum

使用 SQL 表达式跨数 EB 的 S3 数据运行快速、复杂的查询,无需迁移到 Redshift。您可以在相同的数据集上并行运行多个集群。现有的 Redshift 客户可以使用此功能将分析扩展到其在 Amazon S3 中的非结构化数据。


使用存储在 S3 中的数据启动 AI 和机器学习任务

您可以快速启动 Amazon Comprehend、Amazon Forecast、Amazon Personalize 和 Amazon Rekognition 等 AWS AI 服务,以从您的非结构化数据集中发现洞察信息,获得准确的预测,创建推荐机器,并分析存储在 S3 中的图像和视频。您还可以部署 Amazon Sagemaker 以使用存储在 S3 中的数据集构建、训练和部署 ML 模型。


使用 S3 Select 快速就地查询数据

借助 S3 Select,应用程序可以将筛选和访问对象内部数据的繁重工作卸载到 S3。使用 S3 Select,无需将对象迁移到另一个数据存储,您即可查询对象元数据。通过减少必须由应用程序加载和处理的数据量,S3 Select 可以提高大多数经常从 S3 访问数据的应用程序的性能,最高可提高 400%,并且可将查询成本降低 80%。

您可以在 Amazon EMR、Amazon Athena、Amazon Redshift 以及 APN 合作伙伴中将 S3 Select 与 Spark、Hive 和 Presto 结合使用。

详细了解 S3 Select »

使用 S3 Select 就地查询数据 (3:51)

将数据连接到文件系统,以实现高性能工作负载

Amazon FSx for Lustre 提供了一种与 S3 数据湖本地结合使用且经过优化的高性能文件系统,能够快速处理机器学习、高性能计算 (HPC)、视频处理、财务建模和电子设计自动化 (EDA) 等工作负载。 您在几分钟内即可启动这样一个文件系统:提供对您的 S3 数据的亚毫秒级访问延迟,并允许您以每秒高达数百 GB (GBps) 的吞吐量和每秒数百万 IO (IOPS) 的速度读取和写入数据。 当连接到 S3 存储桶时,FSx for Lustre 文件系统会以透明方式将 S3 对象呈现为文件,并允许您将结果写回 S3。

详细了解 Amazon FSx for Lustre »

Amazon FSx for Lustre 的介绍 (45:48)

使用 S3 功能经济高效地管理您的数据湖

由于具有广泛的功能,Amazon S3 非常适合构建(或更换平台)和管理各种规模和用途的数据湖。它是唯一可让您实现以下操作的云存储服务:管理对象、存储桶和账户级别的数据;只需单击几下鼠标即可对数百亿的对象进行更改;配置细粒度数据访问策略;通过跨多个存储类存储对象来节省成本;以及并审计跨 S3 资源的所有活动。

在数据湖的每个层级管理数据

使用 Amazon S3 时,您能以对象级粒度以及在账户级和存储桶级管理数据。您可以将元数据标签附加到对象中,并使用它们以对您的业务有效的方式来组织数据。您还可以按前缀和存储桶组织对象。使用这些功能,快速指向一个对象或一组对象,以执行跨区域复制、限制访问权限、传输到更便宜的存储类等任务。

只需单击几下鼠标即可对数十亿对象进行操作

使用 S3 分批操作,您通过单个 API 请求或在 S3 管理控制台中单击几下即可对数十亿对象进行操作,并审计请求的进度。修改对象属性和元数据,在存储桶之间复制对象,替换标签集,配置访问控制,从 S3 Glacier 恢复归档以及调用 AWS Lambda 函数——只需几分钟而不是几个月。

为敏感数据配置精细调整过的访问策略

使用存储桶策略、对象标签和访问控制列表 (ACL) 限制对特定存储桶和对象的访问权。您还可以使用 AWS Identity and Access Management 定义 AWS 账户内的用户访问权限。需要阻止对其数据的所有访问请求的企业可以配置 S3 阻止公有访问,以强制对特定的对象存储桶或整个 AWS 账户执行“无公有访问”策略。

跨 S3 存储类经济高效地存储对象

所有的 S3 客户可以跨 6 个不同的存储类存储数据,这些存储类旨在以相应的成本满足不同的访问要求。使用 S3 存储类分析了解对您的数据的访问模式。然后,配置生命周期策略以将不太频繁访问的对象传输到更便宜的类,或者将它们归档到 S3 Glacier 或 S3 Glacier Deep Archive 中,以节省最大的开销。

审计对 S3 资源和其他活动的所有访问请求

使用 S3 报告工具,可以快速发现谁在请求访问哪些数据以及从哪里访问数据,审计对象元数据(如存储类、保留日期、业务单位和加密状态),监控使用情况和成本,了解访问模式,以及与 S3 资源相关的其他活动。使用这些洞察信息,进行更改,以优化您的数据湖和依赖它的应用程序,并降低成本。

基于 AWS 构建的数据湖远超过基于其他平台构建的数量

准备好开始使用了吗?

了解有关 Amazon S3 的详情
开始使用 Amazon S3
注册 AWS 账户
注册 AWS 账户
立即享受 AWS 免费套餐 »
阅读数据湖部署指南
在 AWS 上部署数据湖

开始在 Amazon S3 上构建您的数据湖

构建数据湖
还有更多问题?
联系我们