跳至主要内容

Amazon S3

Amazon S3 表类数据存储服务

随着数据湖的扩展,优化查询性能和成本

在 S3 中大规模存储表格数据

Amazon S3 表类数据存储服务提供首款内置 Apache Iceberg 支持的云对象存储,并且简化了大规模存储表格数据的流程。持续表优化功能可在后台自动扫描并重写表数据,以实现最佳查询性能,该性能还将随时间的推移持续提升。S3 表类数据存储服务包含针对 Iceberg 工作负载的特定优化,与存储在通用 S3 存储桶中的 Iceberg 表相比,每秒事务处理能力可提升高达 10 倍。 此外,借助 Intelligent-Tiering 存储类别,S3 表类数据存储服务可在不影响性能或增加运营开销的情况下,根据访问模式自动优化成本。

S3 表类数据存储服务支持 Apache Iceberg 标准,可以通过常用的 AWS 和第三方查询引擎轻松查询您的表格数据。使用 S3 表类数据存储服务,可以将每日购买交易、流式传感器数据或广告曝光量等表格数据在 S3 中存储为 Iceberg 表格,并使用自动表格维护随着数据的变化优化性能和成本。阅读博客文章,以了解更多信息。

优势

可轻松扩展您的数据湖(从创建您的第一张表到实现企业级存储),管理数千张 Iceberg 表,而无需担心底层基础设施或维护开销问题。

相较于未托管的 Iceberg 表,借助持续表优化(含高级排序和 Z 序压缩功能)可实现更快的查询性能。与存储在通用型 S3 存储桶中的 Iceberg 表相比,其每秒事务处理能力可提升高达 10 倍。使用 S3 表类数据存储服务复制功能可为地理位置分散的团队缩短查询延迟。

自动执行压缩、快照管理、未引用文件移除等表维护任务,以持续优化性能并降低成本。使用 Intelligent-Tiering 存储类别可进一步优化高频查询数据的成本。借助 CloudWatch 中的细粒度指标以及 CloudTrail 中关于存储、请求和维护操作的日志,可获得全面的运维可见性。

可以通过 S3 表类数据存储服务与 Amazon SageMaker 智能湖仓架构的集成来访问高级 Iceberg 分析功能,并使用常用的 AWS 服务(如 Amazon Athena、Redshift 和 EMR)查询数据。此外,您可以使用与 Iceberg REST 兼容的第三方应用程序(如 Apache Spark、Apache Flink、Trino、DuckDB 和 PyIceberg)对 S3 表类数据存储服务进行数据读取和写入。

可通过 IAM 资源策略实现表级别的访问控制,将数据表作为一级 AWS 资源进行管理。使用标签实现基于属性的访问权限控制(ABAC),以高效简化大规模权限管理流程。通过 AWS KMS 加密保护数据,使用客户自主管理型密钥来保持对加密策略的控制。

工作原理

S3 表类数据存储服务提供专门构建的 S3 存储,用于以 Apache Iceberg 格式存储结构化数据。在表存储桶中,您可以直接在 S3 中将表创建为一级资源。这些表可以使用在基于身份或资源的策略中定义的表级权限进行保护,并且可由支持 Apache Iceberg 标准的应用程序或工具进行访问。当您在表存储桶中创建表时,S3 会维护必要的元数据,使您的应用程序能够查询这些数据。表存储桶内置了 Iceberg REST 目录端点,任何与 Iceberg 兼容的查询引擎均可通过该端点发现、访问和更新表存储桶中表的 Iceberg 元数据。这就使多个客户端能够安全地对表执行数据读写操作。随着时间的推移,S3 会通过重写或“压缩”对象来自动优化基础数据。压缩可以优化 S3 上的数据,以提高查询性能。此外,快照过期和未引用文件移除功能可在表中的数据老化时优化存储成本。请参阅用户指南,以了解更多信息。

客户

Genesys

Genesys 是人工智能驱动体验编排领域的全球云领导者。通过先进的人工智能、数字和劳动力参与度管理功能,Genesys 帮助全球 100 多个国家/地区的 8000 多个组织提供个性化且富有同理心的客户和员工体验,同时受益于业务灵活性和成果的提高。

“Amazon S3 表类数据存储服务是我们数据架构的变革性补充,尤其是其托管 Iceberg 支持,可为不同的数据分析需求有效创建实体化视图层。S3 可自动处理压缩、快照管理和未引用文件清理等关键维护任务,从而使这款产品能够消除额外的表管理层,帮助 Genesys 简化复杂的数据工作流。直接从 S3 对 Iceberg 表执行读取和写入的功能将帮助我们提高性能,并为在整个分析生态系统中无缝集成数据创造新的可能性。这种互操作性与性能增强相结合,使 S3 表类数据存储服务成为我们未来战略的重要组成部分,为我们提供快速、灵活和可靠的数据见解。”

Genesys 首席技术官 Glenn Nethercutt

Missing alt text value

Indeed

在 Indeed 上找到工作的人比其他任何平台上都多。Indeed 是全球排名前列的招聘网站(Comscore,总访问量,2025 年 3 月)。该平台拥有 6.35 亿份求职者档案,覆盖全球 60 多个国家/地区、支持 28 种语言,求职者可在此搜索职位、投递简历和调研公司。有超 330 万家雇主通过 Indeed 来寻觅和招募新员工。Indeed 是 Recruit Holdings 的子公司,后者是人力资源技术和商业解决方案领域的全球领导者,致力于简化招聘流程、改变职场生态。

“在 Indeed,我们利用大量数据来了解就业市场,并为用户匹配合适的工作机会。通过将 85 PB 的数据湖迁移至 S3 表类数据存储服务,我们将精简数据基础设施、降低成本,并把节省的资源重新投入到最重要的事情,即专注于‘帮助人们找到工作’这一使命。”

Indeed 软件工程总监 Chris Voss

Missing alt text value

Zeta Global

Zeta Global 是一款人工智能营销云,利用先进的人工智能技术和数万亿个消费者信号,帮助营销人员更轻松、更高效地获取、发展和留住客户。通过 Zeta 营销平台,Zeta 将身份识别、情报和全渠道激活能力整合到一个平台(由业内规模领先的专有数据库和人工智能提供支持),从而简化复杂的营销流程。

“Zeta Global 的人工智能营销平台依赖规模庞大、不断变化且可立即操作的数据。我们以 Amazon S3 表类数据存储服务为基础构建 10 PB 湖仓(涵盖 1 万多张 Apache Iceberg 表),将数据新鲜度延迟降低了近 80%,使生成见解所需的时间从 15 分钟以上缩短至几分钟。这种响应速度强化了 Zeta 实现实时受众优化、出价和消息收发的能力,并且巩固了我们在人工智能支持的营销领域的领先地位。”

Zeta Global 执行副总裁兼工程主管 Bharat Goyal

Missing alt text value

Pendulum

Pendulum 是一个品牌情报平台,拥有极为全面的视频、音频和文本内容覆盖,可以主动识别风险和机会,从而更好地做出决策并提供全企业范围的监控分析。

AWS 存储博客:Pendulum 如何利用 Amazon S3 表类数据存储服务将处理速度提高 6 倍、成本降低 40%

“在 Pendulum Intelligence,我们需要分析来自数亿个社交渠道和来源的数据。我们的数据湖要处理数千小时的分析视频和音频内容,同时使用我们的专有机器学习工具近乎实时地从图像和其他媒体中提取上下文,Amazon S3 表类数据存储服务改变了我们管理数据湖的方式。通过消除表格管理的负担,包括压缩、快照和文件清理,我们的团队可以专注于最重要的事情:从海量数据集中获得切实可行的见解。与我们的分析堆栈(Amazon Athena、AWS Glue 和 Amazon EMR)的无缝集成显著增强了我们大规模处理复杂数据的能力。”

Pendulum 云大数据架构师 Abdurrahman Elbuni

Missing alt text value

SnapLogic

SnapLogic 是以人工智能为主导的集成领域的先驱。适用于生成式集成的 SnapLogic 平台可加速整个企业的数字化转型,以设计、部署和管理人工智能代理和集成,从而实现任务自动化、实时决策并轻松集成到现有工作流程中。

“Amazon S3 表类数据存储服务内置 Apache Iceberg 支持和 AWS 分析服务集成,可帮助企业优化数据分析成本,同时改变企业将业务数据用于分析、合规性和人工智能计划的方式。通过自动执行复杂的数据管理任务并提供完整的数据变更审计跟踪记录,团队可以即时分析历史数据,保持合规性,加速业务见解的取得,同时显著降低技术成本。”

SnapLogic 企业架构师 Dominic Wellington

Missing alt text value

Zus Health

Zus 是共享健康数据平台,旨在通过 API、嵌入式组件和直接 EHR 集成提供易于使用的患者数据,从而加快医疗保健数据的互操作性。

“作为一家处理大量频繁变化的患者数据的医疗保健公司,我们决定投资 Apache Iceberg,因为它解决了 Apache Hive 在分区和自动化方面的许多痛点,并具有更广泛的互操作性。我们使用 Iceberg 所面临的最大挑战之一是理解和管理表优化。这就是 S3 表类数据存储服务和托管优化功能让我们兴奋不已的原因。减轻开发人员在表维护方面的开销,使我们能够更加专注于为客户提供高质量的数据和有价值的见解。”

Zus Health 咨询软件工程师 Sonya Huang

Missing alt text value

合作伙伴和集成

Daft

Daft 是用于数据工程、分析和机器学习/人工智能的统一引擎,它以 Rust 编写,提供 SQL 和 Python DataFrame 接口。Daft 可提供快速、愉悦的本地交互体验,同时还可以无缝扩展到 PB 级的分布式工作负载。

“Amazon S3 表类数据存储服务是 Daft 对 Apache Iceberg 支持的完美补充。通过利用其与 AWS Lake Formation 和 AWS Glue 的集成,我们能够毫不费力地将我们现有的 Iceberg 读写功能扩展到 S3 表类数据存储服务,同时利用其优化的性能。我们期待这项新服务的发展,我们很高兴能为 Python 数据工程和机器学习/人工智能生态系统提供一流的 S3 表类数据存储服务支持。”

Daft 首席执行官兼联合创始人 Sammy Sidhu

Missing alt text value

Dremio

Dremio 是一个智能湖仓平台,通过提供市场领先的 SQL 引擎、开放且可互操作的数据目录以及安全、可扩展且易于使用的平台来加速人工智能和分析。我们在 Apache Iceberg、Apache Polaris(孵化中)和 Apache Arrow 社区中的领导地位使组织能够构建完全开放的高性能湖仓架构,同时保持灵活性和管控权,消除供应商锁定。

“Dremio 很高兴为 Amazon S3 表类数据存储服务的正式发布提供支持。通过支持 Apache Iceberg REST Catalog(IRC)规范,S3 表类数据存储服务可确保与 Dremio 的无缝互操作性,使用户能够通过一个高性能的 SQL 引擎,查询在优化的 S3 表类数据存储服务存储桶中管理的 Apache Iceberg 表。这种合作凸显了开放标准在湖仓生态系统中的重要性,消除了集成的复杂性并加快了客户的采用。借助 Amazon S3 表类数据存储服务和 IRC 支持,组织获得了在人工智能时代构建统一湖仓架构所需的灵活性和选择权。”

Dremio 产品副总裁 James Rowland-Jones

Missing alt text value

DuckDB Labs

DuckDB Labs 是由 DuckDB 的创建者创立的公司,DuckDB 是一种广受欢迎的通用数据整理工具。该公司雇用了 DuckDB 系统的核心贡献者。DuckDB 是一款采用 MIT 许可证的免费开源软件,由独立的非营利组织 DuckDB 基金会治理。DuckDB 项目通过其易用性和可移植性为广大受众提供了快速的分析处理。

AWS 存储博客:使用 DuckDB 简化对存储在 Amazon S3 表类数据存储服务中的表格数据集的访问

“Amazon S3 表类数据存储服务与 DuckDB 使用开放文件格式实现数据分析普及化的愿景完全契合。AWS 和 DuckDB Labs 之间的合作使我们能够进一步扩展 DuckDB 对 Iceberg 的支持并开发与 S3 表类数据存储服务无缝集成功能。我们相信,共同秉承“开箱即用”理念的 DuckDB 和 S3 表类数据存储服务,结合成为一个强大的分析堆栈,可以处理各种工作负载,同时保持极低的准入门槛。”

DuckDB Labs 首席执行官 Hannes Mühleisen

Missing alt text value

HighByte

HighByte 是一家工业软件公司,致力于解决全球制造商在数字化转型时面临的数据架构和集成挑战。该公司久经考验的工业 DataOps 软件 HighByte Intelligence Hub 使用无代码接口向 AWS 云服务提供即用型模拟数据,以缩短集成时间和加快分析速度。

“Amazon S3 表类数据存储服务是一项强大的新功能,可优化分析工作负载的表格数据的管理、性能和存储。HighByte Intelligence Hub 与 Amazon S3 表类数据存储服务的直接集成使全球制造商可以轻松地为其工业数据构建一个开放的交易数据湖。S3 表类数据存储服务支持即时查询原始 Parquet 数据,使客户能够将情境化信息从边缘发送到云端,无需进行额外的处理或转换即可立即使用。这对我们共同客户的性能和成本优化产生了重大影响。”

HighByte 首席技术官 Aron Semle

HighByte logo. All rights reserved.

PuppyGraph

PuppyGraph 是首个实时、零 ETL 的图形查询引擎,它使数据团队能够在几分钟内以图表形式查询现有的湖仓,而无需进行昂贵的迁移或维护。它可以扩展到千兆字节大小的数据集,并在几秒钟内执行复杂的多跳查询,为从欺诈检测到网络安全和人工智能驱动的见解等使用场景提供支持。

AWS 存储技术博客:大规模加快威胁检测速度 — 基于 PuppyGraph 和 Amazon S3 表类数据存储服务的实时网络安全图谱分析

“Amazon S3 长期以来一直是现代数据基础设施的基础,而 S3 表类数据存储服务的推出标志着一个重要的里程碑 — 让 Apache Iceberg 更接近成为数据和人工智能的通用标准。这项创新使组织能够在 S3 上利用高性能、开放的表格格式,在不重复数据的情况下实现多引擎分析。对于 PuppyGraph 客户来说,这意味着他们现在可以直接在他们的 S3 数据上运行实时图表查询,从而保持新的、可扩展的见解,而无需复杂的 ETL 开销。我们很高兴能参与这一演变,使图表分析与数据本身一样无缝。”

PuppyGraph 联合创始人兼首席执行官 Weimo Liu

Missing alt text value

RisingWave

RisingWave Labs 于 2021 年在美国旧金山创立,开发了 RisingWave,这是一款云原生 SQL 流式传输数据库,可简化实时数据处理流程。该公司的技术方案兼具 PostgreSQL 兼容性与现代流式传输架构,既可以作为开源解决方案提供,也可做作为完全托管式平台 RisingWave Cloud 提供。

“RisingWave 与 Amazon S3 表类数据存储服务的集成,使组织能够无缝利用 Amazon S3 中的 Apache Iceberg 表,从而增强其流式传输数据管道的功能。 无论您是要摄取原始数据、实时转换数据,还是要将结果回写到 S3,RisingWave 都可以将 Iceberg 表自然融入现有工作流,轻松满足您的需求。这种集成可以简化数据管理工作、降低运维复杂度,并为处理流式传输分析的团队提供顺畅的互操作性。”

RisingWave Labs 首席运营官 Rayees Pasha

Missing alt text value

Snowflake

Snowflake 让企业人工智能变得简单、互联且值得信赖。全球成千上万的公司(包括数百家全球大型公司)使用 Snowflake 的人工智能数据云来共享数据、构建应用程序并通过人工智能为业务赋能。

AWS 存储博客:使用 SageMaker Lakehouse Iceberg REST 端点将 Snowflake 连接到 S3 表类数据存储服务

“我们很高兴能将 Snowflake 的强大功能带到 Amazon S3 表类数据存储服务中。这种合作使 Snowflake 客户能够使用其现有的 Snowflake 设置无缝读取和处理存储在 S3 表类数据存储服务中的数据,无需进行复杂的数据迁移或复制。通过将 Snowflake 世界一流的性能分析功能与 Amazon S3 表类数据存储服务高效存储 Apache Iceberg 表的功能相结合,组织可以轻松查询和分析存储在 Amazon S3 中的表格数据。”

Snowflake 合作伙伴解决方案工程全球总监 Rithesh Makkena

Missing alt text value

Starburst

Starburst 为分析、人工智能和数据应用程序所需的基础数据架构提供支持。它使用由 Apache Iceberg 提供支持的混合数据湖仓环境来大规模提供访问、协作和治理。

AWS 存储博客:使用 Starburst 和 Amazon S3 表类数据存储服务构建托管的 Apache Iceberg 数据湖

“我们很高兴看到 Amazon S3 通过 S3 表类数据存储服务引入了对 Apache Iceberg 的内置支持,推动了 Iceberg Data Lakehouse 生态系统的发展。借助 S3 表类数据存储服务存储桶,我们期待与 AWS 合作,帮助我们的共同客户将 Open Lakehouse 涵盖多种分析和人工智能使用场景的强大功能带到 Amazon S3 中的数据。Open Lakehouse 由经过优化的 Trino(领先的开源 MPP SQL 引擎)驱动。”

Starburst 产品副总裁 Matt Fuller

Missing alt text value

StreamNative

StreamNative 是一个消息传递和流媒体平台,通过经济实惠的高性能数据摄取为人工智能和分析提供支持。StreamNative Ursa 引擎通过兼容 Kafka、无领导架构和湖仓原生存储,使企业能够将总拥有成本(TCO)降低 90%,从而大规模访问人工智能就绪数据。

AWS 存储博客:使用 StreamNative Ursa 引擎无缝流式传输到 Amazon S3 表类数据存储服务

“我们与 Amazon S3 表类数据存储服务的集成使实时、人工智能就绪的数据比以往任何时候都更加开放和易于访问。Ursa 基于 S3 构建的无领导架构已经降低了存储成本,与 S3 表类数据存储服务的直接集成又进一步提高了性能和效率。在人工智能驱动的领域,数据治理至关重要。在 StreamNative,我们致力于帮助企业将总拥有成本降低 90%,同时轻松且经济实惠地使用受管控的实时数据构建基于人工智能的应用程序。”

StreamNative 首席执行官兼联合创始人 Sijie Guo

Missing alt text value

S3 表类数据存储服务演示

观看此视频,深入了解 S3 表类数据存储服务如何提升数据湖的性能、提供更简便的安全控制,并在您进行扩展时自动管理成本。本视频片段深入探讨了从根本上提升数据湖工作负载性能的 S3 表类数据存储服务架构以及最新版本。