跳至主要內容

Amazon S3

Amazon S3 Tables

隨著資料湖的擴展最佳化查詢效能和成本

在 S3 中大規模儲存表格式資料

Amazon S3 Tables 可提供首個具有內建 Apache Iceberg 支援的雲端物件存放區,並且簡化大規模儲存表格式資料。透過持續性資料表最佳化,可在後台自動掃描及重寫資料表資料,以便實現最佳查詢效能,這會隨時間推移不斷做出改善。與儲存在通用 S3 儲存貯體中的 Iceberg 資料表相比,包含針對 Iceberg 工作負載最佳化的 S3 Tables 的每秒交易處理量可提高 10 倍。 另外,S3 Tables 使用 Intelligent-Tiering 儲存類別,可依據存取模式來自動執行成本最佳化,並且不影響效能或增加營運開銷。

有了適用於 Apache Iceberg 標準的 S3 Tables 支援,常用的 AWS 和第三方查詢引擎即可輕鬆查詢您的表格式資料。使用 S3 Tables 將表格式資料 (例如每日購買交易、串流感測器資料或廣告曝光) 作為 S3 中的 Iceberg 資料表儲存,並使用自動資料表維護隨著資料的發展最佳化效能和成本。閱讀部落格文章進一步了解。

優勢

從您的首個資料表到企業級規模,可輕鬆擴展您的資料湖,從而管理數千個 Iceberg 資料表,而無需擔憂基礎結構或維護開銷。

透過持續性資料表最佳化,包括進階排序與 Z 順序壓縮,相較於未受管的 Iceberg 資料表,查詢效能更快捷;相較於存放在一般用途 S3 儲存貯體中的 Iceberg 資料表,資料表的每秒交易量提升高達 10 倍。使用 S3 Tables 複寫來降低地理位置分散團隊的查詢延遲。

自動化壓縮、快照管理,以及無參考檔案移除等資料表維護任務,以便持續最佳化效能及減少費用。使用 Intelligent-Tiering 儲存類別,來進一步最佳化主動查詢資料的費用。藉助 CloudWatch 中的精細化指標,來獲取全面的營運可視性,以及登入 CloudTrail 進行儲存、請求及維護操作。

透過 S3 Tables 與 Amazon SageMaker 資料湖倉架構的整合,存取進階 Iceberg 分析功能,使用 Amazon Athena、Redshift 和 EMR 等熟悉的 AWS 服務來查詢資料。此外,您還可使用與 Iceberg REST 相容的第三方應用程式,例如 Apache Spark、Apache Flink、Trino、DuckDB 和 PyIceberg,來讀取資料和寫入 S3 Tables 中。

透過 IAM 資源政策,做為一級 AWS 資源來管理資料表,以便進行資料表層級的存取控制。使用標籤來實現屬性型存取控制 (ABAC),以便大規模精簡許可管理。使用客戶受管金鑰,藉助 AWS KMS 加密技術來保障資料的安全性,以便確保對您的加密策略進行控制。

運作方式

S3 Tables 提供專用 S3 儲存,用於以 Apache Iceberg 格式儲存結構化資料。在資料表儲存貯體中,您可以直接在 S3 中建立資料表作為一級資源。這些資料表可以使用以身分或資源為基礎的政策中定義的資料表層級許可來進行保護,並且可以透過支援 Apache Iceberg 標準的應用程式或工具來存取。若在您的資料表儲存貯體中建立資料表,S3 可維護必要的中繼資料,以便您的應用程式可以查詢該資料。資料表儲存貯體包括一個 Iceberg REST Catalog 端點,可用於任意 Iceberg 相容查詢引擎,在您的資料表儲存貯體中探索、存取及更新 Iceberg 中繼資料。這樣一來,可讓多個用戶端在資料表中安全地讀取與寫入資料。隨著時間的推移,S3 會透過重寫或「壓縮」物件來自動最佳化基礎資料。壓縮可最佳化 S3 上的資料,以提高查詢效能。另外,隨著您的資料表中的資料存留時間較長,快照會過期,並且移除未參考檔案可最佳化儲存成本。如需進一步了解,請閱讀使用者戶指南

客戶

Genesys

Genesys 是 AI 支援體驗協同運作方面的全球雲端領導者。透過進階的 AI、數位化和員工參與管理功能,Genesys 協助 100 多個國家/地區的 8,000 多個組織提供個人化、富有同理心的客戶和員工體驗,同時可從提高的業務敏捷性和成果中受益。

「Amazon S3 Tables 將為我們的資料架構帶來變革性的新增功能,尤其是憑藉其受管 Iceberg 支援,此支援可以有效地為各種資料分析需求建立具體化視觀表層。該產品有可能協助 Genesys 透過消除額外的資料表管理層來簡化複雜的資料工作流程,其中 S3 會自動處理壓縮、快照管理和未參考檔案清理等關鍵維護任務。直接從 S3 讀取和寫入 Iceberg 資料表的能力將有助於我們提高效能並創造新的可能性,以便在我們的分析生態系統中無縫整合資料。這種互通性結合效能增強功能,使 S3 Tables 成為我們未來戰略的重要組成部分,其可提供快速、靈活且可靠的資料洞見。」

Genesys 技術長 Glenn Nethercutt

Missing alt text value

Indeed

Indeed 上的求職機會比任何其他平台都多。Indeed 是全球名列前茅的求職網站 (Comscore,訪客總數,2025 年 3 月)。Indeed 擁有 6.35 億求職者檔案,來自 60 多個國家/地區、28 種語言的求職者來 Indeed 尋找工作、發布簡歷,以及研究公司。超過 330 萬雇主使用 Indeed 尋找及雇用新員工。Indeed 是 Recruit Holdings 旗下的一個子公司,Recruit Holdings 是 HR 技術與商業解決方案領域的全球領導者,致力於簡化招聘及革新工作世界。

「在 Indeed,我們善用大量資料來了解求職市場,並幫助求職者與雇主以適當的時機建立聯繫。藉由遷移我們 85 PB 級資料湖至 S3 Tables,將對我的資料基礎結構進行精簡、降低成本,以及將這些資源重新投入到最重要的事情,即專注於協助求職者找到適合工作的使命。」

Indeed 軟體工程總監 Chris Voss

Missing alt text value

Zeta Global

Zeta Global 是能夠善用進階人工智慧與數億萬取用者訊號的 AI 行銷雲,讓行銷人員更便捷、高效地拓展、發展與留住客戶。藉助 Zeta 行銷平台,Zeta 可在單一平台整合身分、智慧,以及全通路啟用,藉此讓複雜的行銷工作變得簡單,該平台採用業界最大型的專屬資料庫與 AI 技術來提供支援。

「Zeta Global 的 AI 行銷平台依賴於龐大、持續變更,並且即刻可行的資料。藉由使用 Amazon S3 Tables 做為我們 10 PB 級資料湖倉的基礎,其涵蓋超過 10,000 個 Apache Iceberg 資料表,我們將資料更新延遲降低近 80%,將獲得洞察的時間從 15 分鐘縮減至幾分鐘。憑藉此回應層級,增強了 Zeta 交付即時受眾最佳化、競價,以及訊息傳送的能力,並讓我們在 AI 型市場行銷方面的領導地位得到增強。」

Zeta Global 執行副總裁、工程總監 Bharat Goyal

Missing alt text value

Pendulum

Pendulum 是一個品牌智慧平台,擁有全球最全面的涵蓋範圍,涵括視訊、音訊與文字內容,能夠主動識別風險與機會,協助企業提升決策能力與監控分析。

AWS 儲存部落格:Pendulum 如何藉助 Amazon S3 Tables 將處理速度提升 6 倍並將成本降低 40%

「Pendulum Intelligence 分析來自數億社交管道和來源的資料。我們的資料湖能夠處理數千個分析視訊與音訊內容,同時利用我們專屬的機器學習工具,幾乎即時地從影像及其他媒體中擷取情境資訊,而 Amazon S3 Tables 則徹底改變了我們管理資料湖的方式。透過消除資料表管理的負擔,包括壓縮、快照與檔案清理,我們的團隊能夠專注於最重要的任務:從龐大的資料集中獲取可行的洞察。與我們的分析堆疊 - Amazon Athena、AWS Glue 及 Amazon EMR 的無縫整合,大幅提升了我們大規模處理複雜資料的能力。」

Pendulum 雲端巨量資料建構師 Abdurrahman Elbuni

Missing alt text value

SnapLogic

SnapLogic 是 AI 主導整合的先驅。SnapLogic 生成式整合平台加速了整個企業的數位轉型,以設計、部署和管理 AI 代理程式與整合,從而自動執行任務、做出即時決策並輕鬆整合到現有工作流程中。

「Amazon S3 Tables 具備內建 Apache Iceberg 支援和 AWS Analytics 服務整合,可協助公司最佳化資料分析成本,同時轉變公司使用商業資料進行分析、合規性和 AI 計劃的方式。透過自動化複雜的資料管理任務並提供資料變更的完整稽核軌跡,團隊可以立即分析歷史資料、維持法規遵循性,加速取得業務洞見,同時顯著降低技術成本。」

SnapLogic 企業架構師 Dominic Wellington

Missing alt text value

Zus Health

Zus 是一個共用健康資料平台,旨在透過 API、內嵌式元件和直接 EHR 整合提供易於使用的患者資料,從而加速醫療保健資料互通性。

「作為一家處理大量頻繁變化的患者資料的醫療保健公司,我們決定投資 Apache Iceberg,因為它解決了 Apache Hive 在分割和自動化方面的許多痛點,並具有更廣泛互通性的額外優勢。我們在使用 Iceberg 時面臨的最嚴峻挑戰之一是理解和管理資料表最佳化。因此,我們對 S3 Tables 和受管最佳化功能的推出感到興奮不已。能夠減輕開發人員的資料表維護開銷,這將使我們能夠更加專注於為客戶提供高品質的資料和有價值的洞見。」

Zus Health 諮詢軟體工程師 Sonya Huang

Missing alt text value

合作夥伴與整合

Daft

Daft 是一款專為資料工程、分析與 ML/AI 設計的統一引擎,將 SQL 和 Python DataFrame 介面視為一等公民,並以 Rust 開發。Daft 提供快速且令人愉悅的本機互動體驗,同時還能無縫擴展至 PB 大小規模的分散式工作負載。

「Amazon S3 Tables 是 Daft 在支援 Apache Iceberg 上的理想補充。透過與 AWS Lake Formation 和 AWS Glue 的整合,我們能夠輕鬆將現有的 Iceberg 讀寫功能擴展至 S3 Tables,同時充分發揮其最佳化的效能。我們期待這項新服務的發展,並很高興能夠為 Python 資料工程與 ML/AI 生態系統提供業界領先的 S3 Tables 支援。」

Daft 執行長兼共同創始人 Sammy Sidhu

Missing alt text value

Dremio

Dremio 是智慧型資料湖倉平台,透過提供領先市場的 SQL 引擎、開放且可互操作的資料目錄,以及安全、可擴展且簡單易用的平台,加速人工智慧與分析。我們在 Apache Iceberg、Apache Polaris (孵化中) 和 Apache Arrow 社群具有領導地位,可讓組織建立完全開放、高效能的資料湖倉架構,同時保持彈性和控制力,並避免遭廠商鎖定。

「Dremio 很高興能為 Amazon S3 Tables 的一般可用性提供支援。S3 Tables 支援 Apache Iceberg REST Catalog (IRC) 規格,可確保與 Dremio 的無縫互通性,讓使用者受惠於高效能 SQL 引擎,輕鬆查詢管理於最佳化 S3 資料表儲存貯體中的 Apache Iceberg 資料表。這項合作強化了開放標準在資料湖倉生態系統中的重要性,同時消除了整合的複雜性,並加速客戶的採用。有了 Amazon S3 Tables 和 IRC 支援,組織可獲得所需的彈性與選擇性,從而在 AI 時代構建統一的資料湖倉架構。」

Dremio 產品副總裁 James Rowland-Jones

Missing alt text value

DuckDB Labs

DuckDB Labs 是由 DuckDB 的創造者所建立的公司,DuckDB 是一個廣受歡迎的通用資料整理工具。該公司聘用了 DuckDB 系統的核心貢獻者。DuckDB 是 MIT 授權下的自由與開放原始碼軟體,並由獨立的非營利組織 DuckDB Foundation 管理。DuckDB 專案的易用性和可攜性,可讓廣大的受眾進行快速分析處理。

AWS 儲存部落格:使用 DuckDB 簡化對儲存在 Amazon S3 Tables 中的表格資料集的存取

「Amazon S3 Tables 完美契合 DuckDB 的願景,即透過開放檔案格式來實現資料分析的民主化。AWS 與 DuckDB Labs 的合作讓我們能夠進一步擴展 DuckDB 對 Iceberg 的支援,並開發與 S3 Tables 的無縫整合。我們相信 DuckDB 和 S3 Tables 共同的「內建電池 (batteries-included)」能夠融合為一個強大的分析技術堆疊,不僅能處理各種工作負載,同時保持極低的使用門檻。」

DuckDB Labs 執行長 Hannes Mühleisen

Missing alt text value

HighByte

HighByte 是一家工業軟體公司,致力於解決全球製造商在數位化轉型時所面臨的資料架構與整合挑戰。HighByte Intelligence Hub 是該公司久經考驗的 Industrial DataOps 軟體,可透過無編碼介面向 AWS 雲端服務提供已建模、可立即使用的資料,以加快整合時間並加速分析。

「Amazon S3 Tables 是一項強大的新功能,可提升資料表資料的管理、效能與儲存,以最佳化分析工作負載。HighByte Intelligence Hub 與 Amazon S3 Tables 的直接整合,可讓全球製造商輕鬆為其工業資料建立開放式的交易資料湖。S3 Tables 可立即查詢原始 Parquet 資料,讓客戶無需額外處理或轉換,就能將情境化資訊從邊緣傳送至雲端,以供立即使用。這對於我們的共同客戶在效能提升與成本最佳化方面都產生了重大影響。」

HighByte 技術長 Aron Semle

HighByte logo. All rights reserved.

PuppyGraph

PuppyGraph 是第一個即時、零 ETL 圖形查詢引擎,可讓資料團隊在幾分鐘內以圖形查詢現有的資料湖倉,而無需成本高昂的遷移或維護。它可擴展至 PB 大小規模的資料集,並可在數秒內執行複雜的多躍點查詢,為各種使用案例提供強大支援,包括詐欺偵測、網路安全,以及 AI 驅動的洞察分析。

AWS 儲存部落格:加速大規模威脅偵測:藉助 PuppyGraph 與 Amazon S3 Tables 進行即時的網路安全圖形分析

「Amazon S3 一直以來都是現代資料基礎架構的基礎,而 S3 Tables 的推出則是一個重要的里程碑,讓 Apache Iceberg 離成為資料與 AI 通用標準的目標更進一步。這項創新可讓組織利用 S3 上的高效能開放式資料表格式,在不重複資料的情況下達成多引擎分析。對於 PuppyGraph 客戶而言,這代表著他們現在可以直接在 S3 資料上執行即時圖形查詢,維持新鮮、可擴充的洞察力,而無需複雜的 ETL 開銷。我們很高興能參與這次的演進,讓圖形分析就像資料本身一樣流暢無縫。」

PuppyGraph 共同創始人兼執行長 Weimo Liu

Missing alt text value

RisingWave

RisingWave Labs 於 2021 年在三藩市成立,開發了一款雲端原生 SQL 串流資料庫 RisingWave,可簡化對資料的即時處理。該公司的技術結合了 PostgreSQL 相容性與現代的串流架構,可同時用做開放原始碼解決方案,以及全受管平台 RisingWave Cloud。

「RisingWave 與 Amazon S3 Tables 整合,能夠讓組織順從地善用 Amazon S3 中的 Apache Iceberg 資料表,從而讓其串流資料管道功能得到增強。 無論是擷取原始資料,進行即時轉換,還是將結果寫回至 S3,RisingWave 都能讓您輕鬆地將 Iceberg 資料表用做您的工作流程的自然延伸。憑藉這項整合方案,簡化了資料管理、降低了營運複雜度,並且為處理串流分析的團隊提供順暢的互通性。」

RisingWave Labs 產品長 Rayees Pasha

Missing alt text value

Snowflake

Snowflake 讓企業 AI 變得簡單、連結且可信賴。全球數以千計的公司,包括數百家全球最大的公司,都使用 Snowflake 的 AI Data Cloud 來分享資料、建立應用程式,並利用 AI 驅動其業務。

AWS 儲存部落格:使用 SageMaker Lakehouse Iceberg REST 端點將 Snowflake 連線至 S3 Tables

「我們很高興能將 Snowflake 的魔力帶到 Amazon S3 Tables。這項合作使 Snowflake 客戶能夠透過現有的 Snowflake 設定,無縫讀取與處理儲存在 S3 Tables 中的資料,無需進行複雜的資料遷移或重複。透過結合 Snowflake 世界級的效能分析功能與 Amazon S3 Tables 對 Apache Iceberg 資料表的高效能儲存,各組織可以輕鬆地查詢和分析其儲存於 Amazon S3 的資料表資料。」

Snowflake 合作夥伴解決方案工程全球總監 Rithesh Makkena

Missing alt text value

Starburst

Starburst 能為分析、AI 和資料應用程式驅動所需的基礎資料架構。它使用由 Apache Iceberg 驅動的混合資料湖倉環境,以提供大規模的存取、協作和管理。

AWS 儲存部落格:使用 Starburst 和 Amazon S3 Tables 建立受管的 Apache Iceberg 資料湖

「我們很高興看到 Amazon S3 推出內建支援 Apache Iceberg 的 S3 Tables,進一步推動了 Iceberg Open Data Lakehouse 生態系統。我們期待透過 S3 資料表儲存貯體與 AWS 合作,協助我們的共同客戶使用最佳化的 Trino (領先的開放原始碼 MPP SQL 引擎) 所驅動的 Open Lakehouse 強大功能,跨越各種分析與 AI 使用案例,應用於 Amazon S3 中的資料。」

Starburst 產品副總裁 Matt Fuller

Missing alt text value

StreamNative

StreamNative 是一個訊息傳輸與串流平台,能以符合成本效益的高效能資料擷取來驅動 AI 與分析。StreamNative Ursa 引擎透過 Kafka 相容性、無領導者架構和資料湖倉原生儲存,讓企業降低 90% 的總體擁有成本 (TCO),以大規模存取 AI 就緒資料。

AWS 儲存部落格:使用 StreamNative Ursa Engine 無縫串流到 Amazon S3 Tables

「我們與 Amazon S3 Tables 的整合能讓即時、AI 就緒的資料比以往更開放、更容易存取。Ursa 在 S3 上的無領導架構已經降低了儲存成本,而與 S3 Tables 的直接整合更進一步提升了效能與效率。在由 AI 驅動的世界中,資料治理至關重要。StreamNative 致力於協助企業降低 90% 的 TCO,同時以輕鬆且可負擔的方式,讓企業利用受管控的即時資料來建立由 AI 驅動的應用程式。」

StreamNative 執行長兼共同創始人 Sijie Guo

Missing alt text value

S3 Tables 示範

觀看此影片,深入了解 S3 Tables 如何改善資料湖效能、提供更簡單的安全控制,並在擴充時自動管理成本。該部分深入探討 S3 Tables 的架構,從根本上提高資料湖工作負載和最近版本的效能。