AWS 推出 Amazon S3 新功能,實現更快的資料湖分析及簡化資料探索和洞察
Amazon S3 Tables 為分析工作負載提供了快達 3 倍的查詢效能,高達 10 倍的每秒交易處理量;
Amazon S3 Metadata 提供可查詢的物件中繼資料,實現近乎即時的搜尋、管理和增強資料,加速資料探索
【拉斯維加斯訊,2024 年 12 月 18 日】亞馬遜(Amazon)旗下 Amazon Web Services(AWS)在 2024 年 re:Invent 全球大會上,宣布雲端可大規模擴展的物件儲存服務 Amazon Simple Storage Service(Amazon S3)推出新功能,使 Amazon S3 成為首個全受管支援 Apache Iceberg 的雲端物件儲存,進一步提升資料分析速度,並以最簡單的方式儲存和管理任何規模的表格資料。新功能還包括自動生成可查詢的中繼資料,簡化資料探索與理解,助力客戶充分挖掘 Amazon S3 中的資料價值。
- Amazon S3 Tables 是首個內建支援 Apache Iceberg 表格的雲端物件儲存服務,推出新型儲存貯體,以 Iceberg 表格的形式優化儲存和表格資料查詢,查詢速度最高可提升 3 倍,每秒交易處理量(TPS)可提高 10 倍,並自動化表格維護和分析工作負載。
- Amazon S3 Metadata 自動擷取可查詢的物件中繼資料以及使用物件標籤的客製化中繼資料,並將結果儲存於 Amazon S3 Tables 中,以加速資料湖分析,實現近乎即時的資料探索。
AWS 儲存副總裁暨傑出工程師 Andy Warfield 表示:「Amazon S3 作為領先的物件儲存服務,儲存了超過 400 兆個物件,成為數百萬客戶的選擇。我們致力於不斷創新,以前所未有的規模消除處理資料的複雜性。隨著表格資料快速增長,眾多客戶希望實現跨表格查詢並提升查詢效能,更好地理解和組織大量資料,以便輕鬆找到需要的資訊。Amazon S3 Tables 和 Amazon S3 Metadata 消除了在物件上組織和運作表格以及中繼資料儲存的複雜性,使客戶能夠專注於資料建構。」
Amazon S3 Tables 和 Amazon S3 Metadata 現已與 Apache Iceberg 表格相容,客戶可以使用 AWS 分析服務以及開源工具,包括互動式查詢服務 Amazon Athena、雲端原生無伺服器 BI 服務 Amazon QuickSight 以及 Apache Spark 輕鬆查詢資料。
Amazon S3 Table:以簡單快速的方式執行 Amazon S3 中的 Apache Iceberg 表格分析
如今,許多客戶都以表格來組織用於分析的資料,這些資料通常儲存在 Apache Parquet 中,這是一種優化資料查詢的檔案格式,而 Parquet 已成為 Amazon S3 中增長速度最快的資料類型之一。客戶希望能查詢這些不斷增長的表格資料集,通常會使用開放表格格式(open table formats,OTF),一種以表格儲存資料的開源標準,有助於更有效地管理、更新和追蹤大量資料的變化。隨著客戶使用 Iceberg 處理 PB 級至 EB 級資料的數十億個檔案,以 Iceberg 管理 Parquet 文件已成為最流行的 OTF。然而,隨著客戶規模擴大,管理 Iceberg 變得極具挑戰,往往需要專業團隊來建構和維護系統,進行表格維護、資料壓縮以及存取權限管理。這些外部系統成本高昂且複雜,還需要專業的團隊來維護,佔用了企業許多寶貴資源。
Amazon S3 Tables 專為管理資料湖中的 Apache Iceberg 表格建構。Amazon S3 Tables 專門針對分析工作負載進行優化,與通用的 Amazon S3 儲存貯體相比,提供高達 3 倍的查詢效能和 10 倍的每秒交易處理量。Amazon S3 Tables 能自動管理表格維護任務,包括為了更好的查詢效能進行壓縮,以及快照管理,即使客戶的資料湖不斷擴大和發展,也能持續優化查詢效能和儲存成本。客戶僅需建立一個表格儲存貯體,即可使用 Amazon S3 Tables 優化儲存和查詢全受管的 Iceberg 表格中的資料。借助 Amazon S3 Tables,客戶將受益於 Iceberg 的多項功能,如資料列層級交易處理、透過時間旅行功能查詢快照、模式演進(schema evolution)等。此外,Amazon S3 Tables 還提供表格層級的存取控制,讓客戶能精準定義資料存取權限。
Genesys 是 AI 驅動的體驗編排服務的全球領導者,正計畫使用 Amazon S3 建構資料湖。借助 Amazon S3 Tables 支援的受管 Iceberg,Genesys 期望為多元的資料分析需求建構一個實體化檢視層(materialized view layer)。Amazon S3 Tables 內建支援 Iceberg 表格,將大幅簡化複雜的資料工作流程,透過自動執行關鍵維護任務,如表格壓縮、快照管理以及未引用檔案清理等。Genesys 希望能從 Iceberg 相容的分析工具中獲得效能提升和廣泛支援,這些工具可直接從 Amazon S3 中讀寫 Iceberg 表格。 Amazon S3 Tables 將成為 Genesys 未來資料策略的基石,幫助 Genesys 提供更快、更彈性、更可靠的資料洞察,以支援 AI 驅動的客戶和員工體驗解決方案。
Amazon S3 中繼資料:更輕鬆、快速地探索和理解 Amazon S3 中的資料
隨著越來越多客戶將 Amazon S3 作為中央資料儲存庫,資料量與資料種類以指數成長。作為理解和組織海量資料的方式,中繼資料變得越來越重要,讓客戶能找到所需的確切物件。為了應對這個挑戰,許多客戶不得不建構並維護複雜的中繼資料擷取與儲存系統,來深化他們對資料的認知。然而,這些中繼資料系統不但成本高昂、耗時,而且資源密集,通常需要資料工程師在中繼資料流經處理管道時,手動追蹤和更新中繼資料;同時,還需要資料分析師手動檢查海量的物件儲存,以找到用於分析、人工智慧(AI)、機器學習(ML)資料處理工作流程所需的特定資料。
Amazon S3 Metadata 能夠近乎即時地自動生成可查詢的物件中繼資料,進而加速資料探索,並提升資料理解,幫助客戶減輕建構和維護複雜中繼資料系統的負擔。借助 Amazon S3 Metadata,客戶可以查詢、探索並使用資料,以支援業務分析、即時推論應用等用途。Amazon S3 Metadata 能自動生成物件中繼資料,包括系統定義的詳情,如物件的大小和來源,並可透過新的 Amazon S3 Tables 進行查詢。隨著物件增加或刪除,Amazon S3 Metadata 會即時更新 Amazon S3 Tables 中的物件中繼資料,確保客戶能檢視最新的資料。客戶還可以使用物件標籤客製化中繼資料,為物件加註特定的業務資訊,如產品 SKU、交易 ID、內容評分或客戶的詳細資訊。客戶也可以透過簡單的 SQL 查詢輕鬆搜尋中繼資料,快速尋找和準備資料,以支援業務分析、即時推論應用、基礎模型微調、檢索增強生成(RAG)、整合資料倉儲與分析工作流程,以及執行指定的儲存優化任務。
各種規模的企業都將受益於 Amazon S3 Metadata 的資料探索和理解功能。領先的生物科技公司羅氏(Roche),預計借助 Amazon S3 Metadata 加速他們的未來生成式 AI 計畫。隨著羅氏開發進階大型語言模型(LLM)應用程式,如複雜的內部聊天機器人,羅氏預期用於檢索增強生成的非結構化資料量將以指數成長。Amazon S3 Metadata 將簡化可擴展中繼資料系統的建構,自動為匯入的新資料生成並更新中繼資料。羅氏期望透過客製化的 Lambda 函數擷取複雜的、特定業務的中繼資料,並在簡單、可擴展且無伺服器的資料整合服務 AWS Glue 綜合目錄中,將這些資料與Amazon S3 Metadata無縫整合。這將使企業變得更有效率,並快速辨識可用於前沿 AI 應用程式的相關資料集,讓羅氏聚焦於個人化醫療服務的突破性創新。
Cambridge Mobile Telematics(CMT)是全球最大的遠端資訊處理服務供應商。CMT 從設備收集感測器資料,並使用上下文資料進行增強,進而建立車輛與駕駛員行為統一的檢視圖,供汽車保險公司、汽車製造商、商業交通服務公司以及公共部門用於風險評估、安全、理賠和駕駛員改善計畫。CMT 儲存並分析來自全球數百萬物聯網設備的多種 PB 級資料,隨著公司規模擴大,要定位特定資料來提出新洞察和開發新模型,變得越來越具挑戰性。借助 Amazon S3 Metadata(包括系統中繼資料和客製化中繼資料),CMT 能查詢 PB 級中繼資料,使尋找相關資料變得簡單且經濟高效。
Amazon S3 Tables 現已正式可用,Amazon S3 Metadata 現已推出預覽版,Amazon S3 Tables 與 AWS Glue Data Catalog 整合現已可供預覽。客戶可使用 AWS 的分析服務,如 Amazon Athena、快速簡單、經濟高效的 PB 級雲端資料倉儲 Amazon Redshift、雲端大數據平台 Amazon Elastic MapReduce(Amazon EMR)和 Amazon QuickSight,對 Amazon S3 Metadata 表格等資料進行查詢和視覺化。
欲了解更多資訊,請至:
- AWS News Blog:深入了解本次發布的 Amazon S3 Tables 與 Amazon S3 Metadata 新功能。
- Amazon S3 Tables 和 Amazon S3 Metadata 頁面,探索產品的更多資訊。
關於 Amazon Web Services
自2006年來,Amazon Web Services一直在提供世界上服務最豐富、應用廣泛的雲端服務。AWS不斷擴展可支持幾乎任何雲端工作負載的服務,為客戶提供超過240種功能全面的雲端服務,包括運算、儲存、資料庫、聯網、分析、機器學習與人工智慧、物聯網、行動、安全、混合雲、媒體,以及應用開發、部署和管理等方面,遍及33個地理區域內的105個可用區域(Availability Zones),並已公佈計畫在馬來西亞、墨西哥、紐西蘭、沙烏地阿拉伯和泰國等建立6個AWS地理區域、18個可用區域。全球超過百萬客戶信任AWS,包含發展迅速的新創公司、大型企業和政府機構。AWS協助客戶強化自身基礎設施,提高營運上的彈性與應變能力,同時降低成本。欲瞭解更多AWS的相關資訊,請至: aws.amazon.com。