Amazon S3 Tables

随着数据湖的扩展,优化查询性能和成本

在 S3 中大规模存储表格数据

Amazon S3 Tables 提供首款内置 Apache Iceberg 支持的云对象存储,并简化大规模存储表格数据。持续的表格优化会在后台自动扫描和重写表格数据,与非托管的 Iceberg 表相比,查询性能可提升高达 3 倍。随着时间的推移,这些性能优化还将不断改进。此外,S3 表包含针对 Iceberg 工作负载的特定优化,与存储在通用 S3 存储桶中的 Iceberg 表相比,每秒事务处理能力可提升高达 10 倍。有关 S3 表查询性能改进的更多详细信息,请参阅博客

由于 S3 表类数据存储服务支持 Apache Iceberg 标准,可以通过常用的 AWS 和第三方查询引擎轻松查询您的表格数据。使用 S3 Tables,将每日购买交易、流式传感器数据或广告曝光量等表格数据在 S3 中存储为 Iceberg 表格,并使用自动表格维护随着数据的变化优化性能和成本。阅读博客以了解详情

优势

工作原理

S3 Tables 提供专门构建的 S3 存储,用于以 Apache Parquet 格式存储结构化数据。在表存储桶中,您可以直接在 S3 中将表创建为一级资源。这些表可以使用在基于身份或资源的策略中定义的表级权限进行保护,并且可由支持 Apache Iceberg 标准的应用程序或工具进行访问。当您在表存储桶中创建表时,S3 中的基础数据将存储为 Parquet 数据。然后,S3 会维护必要的元数据,使应用程序可以查询该 Parquet 数据。表存储桶包括一个客户端库,查询引擎使用该库来导航和更新表存储桶中表的 Iceberg 元数据。此库与用于表操作的更新的 S3 API 结合使用,允许多个客户端安全地读取和写入表中的数据。随着时间的推移,S3 会通过重写或“压缩”对象来自动优化基础 Parquet 数据。压缩可以优化 S3 上的数据,以提高查询性能并最大限度地降低成本。 请参阅用户指南,了解更多信息

Amazon S3 Tables 演示视频

客户

  • Genesys

    Genesys 是人工智能驱动体验编排领域的全球云领导者。通过先进的人工智能、数字和劳动力参与度管理功能,Genesys 帮助全球 100 多个国家/地区的 8000 多个组织提供个性化、感同身受的客户和员工体验,同时受益于业务灵活性和成果的提高。

    Amazon S3 Tables 是我们数据架构的变革性补充,尤其是其托管 Iceberg 支持,可为不同的数据分析需求有效创建实体化视图层。S3 可自动处理压缩、快照管理和未引用文件清理等关键维护任务,从而使这项产品能够消除额外的表管理层,帮助 Genesys 简化复杂的数据工作流。直接从 S3 读取和写入 Iceberg 表的功能将帮助我们提高性能,并为在整个分析生态系统中无缝集成数据创造新的可能性。这种互操作性与性能增强相结合,使 S3 Tables 成为我们未来战略的重要组成部分,为我们提供快速、灵活和可靠的数据见解。

    Genesys 首席技术官 Glenn Nethercutt
  • Pendulum

    Pendulum 是一个品牌情报平台,拥有世界上最全面的视频、音频和文本内容覆盖,可以主动识别风险和机会,从而更好地做出决策并提供全企业范围的监控分析。

    在 Pendulum Intelligence,我们分析来自数亿个社交渠道和来源的数据。我们的数据湖要处理数千小时的分析视频和音频内容,同时使用我们的专有机器学习工具近乎实时地从图像和其他媒体中提取上下文,Amazon S3 表类数据存储服务改变了我们管理数据湖的方式。通过消除表格管理的负担,包括压缩、快照和文件清理,我们的团队可以专注于最重要的事情:从海量数据集中获得切实可行的见解。与我们的分析堆栈 (Amazon Athena、AWS Glue 和 Amazon EMR) 的无缝集成显著增强了我们大规模处理复杂数据的能力。

    Pendulum 云大数据架构师 Abdurrahman Elbuni
  • SnapLogic

    SnapLogic 是以人工智能为主导的集成领域的先驱。适用于生成式集成的 SnapLogic 平台可加速整个企业的数字化转型,以设计、部署和管理人工智能代理和集成,从而实现任务自动化、实时决策并轻松集成到现有工作流程中。

    Amazon S3 Tables 内置 Apache Iceberg 支持和 AWS 分析服务集成,可帮助企业优化数据分析成本,同时改变企业将业务数据用于分析、合规性和人工智能计划的方式。通过自动执行复杂的数据管理任务并提供完整的数据变更审计跟踪记录,团队可以即时分析历史数据,保持合规性,加速业务见解的取得,同时显著降低技术成本。

    SnapLogic 企业架构师 Dominic Wellington
  • Zus Health

    Zus 是共享健康数据平台,旨在通过 API、嵌入式组件和直接 EHR 集成提供易于使用的患者数据,从而加快医疗保健数据的互操作性。

    作为一家处理大量频繁变化的患者数据的医疗保健公司,我们决定投资 Apache Iceberg,因为它解决了 Apache Hive 在分区和自动化方面的许多痛点,并具有更广泛的互操作性。我们使用 Iceberg 所面临的最大挑战之一是理解和管理表优化。这就是 S3 Tables 和托管优化功能让我们兴奋不已的原因。减轻开发人员在表维护方面的开销,使我们能够更加专注于为客户提供高质量的数据和有价值的见解。

    Zus Health 咨询软件工程师 Sonya Huang

合作伙伴和集成

  • Daft

    Daft 是用于数据工程、分析和机器学习/人工智能的统一引擎,它以 Rust 编写,提供 SQL 和 Python DataFrame 接口。Daft 提供了快速、愉悦的本地交互体验,同时还可以无缝扩展到 PB 级的分布式工作负载。

    Amazon S3 表类数据存储服务是 Daft 对 Apache Iceberg 支持的完美补充。通过利用其与 AWS Lake Formation 和 AWS Glue 的集成,我们能够毫不费力地将我们现有的 Iceberg 读写功能扩展到 S3 表类数据存储服务,同时利用其优化的性能。我们期待这项新服务的发展,我们很高兴能为 Python 数据工程和机器学习/人工智能生态系统提供一流的 S3 表类数据存储服务支持。

    Daft 首席执行官兼联合创始人 Sammy Sidhu
  • Dremio

    Dremio 是一个智能湖仓平台,通过提供市场领先的 SQL 引擎、开放且可互操作的数据目录以及安全、可扩展且易于使用的平台来加速人工智能和分析。我们在 Apache Iceberg、Apache Polaris(孵化中)和 Apache Arrow 社区中的领导地位使组织能够构建完全开放的高性能湖仓架构,同时保持灵活性和管控权,消除供应商的束缚。

    Dremio 很高兴为 Amazon S3 表类数据存储服务的正式发布提供支持。通过支持 Apache Iceberg REST Catalog (IRC) 规范,S3 表类数据存储服务可确保与 Dremio 的无缝互操作性,使用户能够受益于一个高性能的 SQL 引擎,该引擎能够查询在优化的 S3 表类数据存储服务存储桶中管理的 Apache Iceberg 表。这种合作凸显了开放标准在湖仓生态系统中的重要性,消除了集成的复杂性并加快了客户的采用。借助 Amazon S3 表类数据存储服务和 IRC 支持,组织获得了在人工智能时代构建统一湖仓架构所需的灵活性和选择权。

    Dremio 产品副总裁 James Rowland-Jones
  • DuckDB Labs

    DuckDB Labs 是由 DuckDB 的创建者创立的公司,DuckDB 是一种广受欢迎的通用数据整理工具。该公司雇用了 DuckDB 系统的核心贡献者。DuckDB 是一款采用 MIT 许可证的免费开源软件,由独立的非营利组织 DuckDB 基金会治理。DuckDB 项目通过其易用性和可移植性为广大受众提供了快速的分析处理。

    Amazon S3 表类数据存储服务与 DuckDB 使用开放文件格式实现数据分析普及化的愿景完全契合。AWS 和 DuckDB Labs 之间的合作使我们能够进一步扩展 DuckDB 对 Iceberg 的支持,并开发与 S3 表类数据存储服务无缝集成功能。我们相信,共同秉承“开箱即用”理念的 DuckDB 和 S3 表类数据存储服务,结合成为一个强大的分析堆栈,可以处理各种工作负载,同时保持极低的准入门槛。

    DuckDB Labs 首席执行官 Hannes Mühleisen
  • HighByte

    HighByte 是一家工业软件公司,致力于解决全球制造商在数字化转型时面临的数据架构和集成挑战。该公司久经考验的工业 DataOps 软件 HighByte Intelligence Hub 使用无代码接口向 AWS 云服务提供即用型模拟数据,以缩短集成时间和加快分析速度。

    Amazon S3 表类数据存储服务是一项强大的新功能,可优化分析工作负载的表格数据的管理、性能和存储。HighByte Intelligence Hub 与 Amazon S3 表类数据存储服务的直接集成使全球制造商可以轻松地为其工业数据构建一个开放的交易数据湖。S3 表类数据存储服务支持即时查询原始 Parquet 数据,允许客户将情境化信息从边缘发送到云端,以便立即使用,无需额外的处理或转换。这对我们共同客户的性能和成本优化产生了重大影响。

    HighByte 首席技术官 Aron Semle
  • PuppyGraph

    PuppyGraph 是第一个实时、零 ETL 的图形查询引擎,它使数据团队能够在几分钟内以图表形式查询现有的湖仓,而无需进行昂贵的迁移或维护。它可以扩展到千兆字节大小的数据集,并在几秒钟内执行复杂的多跳查询,为从欺诈检测到网络安全和人工智能驱动的见解等用例提供支持。

    Amazon S3 长期以来一直是现代数据基础设施的基础,而 S3 表类数据存储服务的推出标志着一个重要的里程碑——让 Apache Iceberg 更接近成为数据和人工智能的通用标准。这项创新使组织能够在 S3 上利用高性能、开放的表格格式,在不重复数据的情况下实现多引擎分析。对于 PuppyGraph 客户来说,这意味着他们现在可以直接在他们的 S3 数据上运行实时图表查询,从而保持新的、可扩展的见解,而无需复杂的 ETL 开销。我们很高兴能参与这一演变,使图表分析与数据本身一样无缝。

    PuppyGraph 联合创始人兼首席执行官 Weimo Liu
  • Snowflake

    Snowflake 让企业人工智能变得简单、互联且值得信赖。全球成千上万的公司,包括数百家全球最大的公司,使用 Snowflake 的人工智能数据云来共享数据、构建应用程序并通过人工智能为业务赋能。

    我们很高兴能将 Snowflake 的强大功能带到 Amazon S3 表类数据存储服务中。这种合作使 Snowflake 客户能够使用其现有的 Snowflake 设置无缝读取和处理存储在 S3 表类数据存储服务中的数据,无需进行复杂的数据迁移或复制。通过将 Snowflake 世界一流的性能分析功能与 Amazon S3 表类数据存储服务高效存储 Apache Iceberg 表的功能相结合,组织可以轻松查询和分析存储在 Amazon S3 中的表格数据。

    Snowflake 合作伙伴解决方案工程全球总监 Rithesh Makkena
  • Starburst

    Starburst 为分析、人工智能和数据应用程序所需的基础数据架构提供支持。它使用由 Apache Iceberg 提供支持的混合数据湖仓环境来大规模提供访问、协作和治理。

    我们很高兴看到 Amazon S3 通过 S3 表类数据存储服务引入了对 Apache Iceberg 的内置支持,推动了 Iceberg Data Lakehouse 生态系统的发展。借助 S3 表类数据存储服务存储桶,我们期待与 AWS 合作,帮助我们的共同客户将 Open Lakehouse 涵盖多种分析和人工智能用例的强大功能带到 Amazon S3 中的数据。Open Lakehouse 由经过优化的 Trino(领先的开源 MPP SQL 引擎)驱动。

    Matt Fuller,Starburst 产品副总裁
  • StreamNative

    StreamNative 是一个消息传递和流媒体平台,通过经济实惠的高性能数据摄取为人工智能和分析提供支持。StreamNative Ursa 引擎通过兼容 Kafka、无领导架构和湖仓原生存储,使企业能够将总拥有成本(TCO)降低 90%,从而大规模访问人工智能就绪数据。

    我们与 Amazon S3 表类数据存储服务的集成使实时、人工智能就绪的数据比以往任何时候都更加开放和易于访问。Ursa 在 S3 上的无领导架构已经降低了存储成本,与 S3 表类数据存储服务的直接集成进一步提高了性能和效率。在人工智能驱动的世界中,数据治理至关重要。在 StreamNative,我们致力于帮助企业将总拥有成本降低 90%,同时轻松且经济实惠地使用受管控的实时数据构建基于人工智能的应用程序。

    StreamNative 首席执行官兼联合创始人 Sijie Guo