Amazon SageMaker Data Wrangler

為機器學習準備資料表和影像資料最快速、輕鬆的方式

為何選擇 SageMaker Data Wrangler?

Amazon SageMaker Data Wrangler 可將 ML 彙總和準備資料表與影像資料所需的時間從數週減少至數分鐘。藉助 Amazon SageMaker Data Wrangler,您可以簡化資料準備和特徵工程的程序,並從單一視覺化界面完成資料準備工作流程的每個步驟,包括資料選取、清理、探索、視覺化和大規模處理。您可以使用 SQL,從各種資料來源中選擇您想要的資料並快速匯入。接著,您可以使用資料品質和洞察報告,自動驗證資料品質並偵測異常狀況,如重複行和目標洩漏。Amazon SageMaker Data Wrangler 包含超過 300 個內建資料轉換,因此您無需編寫任何程式碼,即可快速轉換資料。

Amazon SageMaker Data Wrangler 概觀

SageMaker Data Wrangler 的優勢

選取資料、了解資料洞察,並轉換資料,以在幾分鐘內完成機器學習 (ML) 準備。
在將模型部署至生產之前快速預估機器學習 (ML) 模型的準確性並診斷問題。
無需編寫 PySpark 程式碼、安裝 Apache Spark 或啟動叢集,即可更快地將資料準備投入生產環境。

運作方式

Amazon SageMaker Data Wrangler 的運作方式

加速存取、選取和查詢資料

藉助 Amazon SageMaker Data Wrangler 資料選取工具,您可以快速存取和選取各種常用來源 (例如 Amazon Simple Storage Service [Amazon S3]、Amazon Athena、Amazon Redshift、AWS Lake Formation、Snowflake 和 Databricks) 的資料,以及 50 多個其他第三方來源 (例如 Salesforce、SAP、Facebook Ads 和 Google Analytics) 的資料表和影像資料。您還可以使用 SQL 撰寫對資料來源的查詢,並將資料從各種檔案格式 (例如 CSV、Parquet 與 JSON,以及資料庫資料表) 直接匯入 SageMaker。

產生資料洞察並了解資料品質

Amazon SageMaker Data Wrangler 提供資料品質和洞察報告,自動驗證資料品質 (如缺失值、重複行和資料類型),並幫助偵測資料中的異常狀況 (如極端值、類別不平衡和資料洩漏)。一旦可以有效地驗證資料品質,您就可以快速運用領域知識來處理資料集,以進行 ML 模型訓練。

透過視覺化了解資料

SageMaker Data Wrangler 透過一組強大的預先設定的視覺化範本,協助您了解資料並識別潛在錯誤和極值。長條圖、散佈圖、盒鬚圖、線繪圖和橫條圖均已內嵌,以套用於您的資料。此外,我們還提供更進階的 ML 特定視覺化 (例如偏差報告、特徵相關性、多重共線性、目標洩漏和時間序列),來顯示特徵重要性和特徵相關性。您可以從「分析」索引標籤存取這些工具。

更高效地轉換資料

SageMaker Data Wrangler 提供 300 多種預先建置、以 PySpark 為基礎的資料轉換選項,因此您無需編寫任何一行程式碼,即可轉換資料並擴展資料準備工作流程。預先設定的轉換涵蓋常見使用案例,如扁平化 JSON 檔案、刪除重複行、以平均值或中值估算缺少的資料、一種熱編碼,以及時間序列特定轉換器,來加速為 ML 準備時間序列資料。對於您的影像資料,SageMaker Data Wrangler 提供常見的影像增強功能 (例如「模糊」、「增強」和「調整大小」) 和清理操作 (例如刪除損壞的影像和重複項目)。您還可以在 PySpark、SQL 和 Pandas 中編寫自訂轉換。SageMaker Data Wrangler 提供影像 (imgaug、OpenCV) 庫,用於建立 CV 使用案例的自訂轉換,並提供豐富的程式碼片段庫,以便串流自訂轉換編寫。

了解資料的預測能力

Amazon SageMaker Data Wrangler Quick Model 功能提供對資料預期的預測能力估計。Quick Model 會自動將您的資料拆分為訓練和測試資料集,並使用預設超參數在 XGBoost 模型上訓練資料。根據您要解決的任務 (例如,分類或迴歸),Amazon SageMaker Data Wrangler 會提供模型摘要、特徵摘要和混淆矩陣,可協助您快速反覆運作資料準備流程。

自動化和部署 ML 資料準備工作流程

使用 SageMaker Data Wrangler 使用者介面,您可以啟動擴展到大型資料集,而不需要編寫 PySpark 程式碼、安裝 Apache Spark 或啟動叢集。您可以啟動或排程任務,以快速處理您的資料或將其匯出至 Amazon SageMaker Studio 筆記本。Amazon SageMaker Data Wrangler 提供多個匯出選項,包括 SageMaker Data Wrangler 任務、SageMaker Feature Store 和 SageMaker Pipelines,讓您能夠將資料準備程序整合至 ML 工作流程中。或者,您可以將資料準備工作流程部署至 Amazon SageMaker 託管端點。最後,您可以使用 SageMaker Canvas 的視覺化介面直接匯出資料以訓練 ML 模型

客戶

Invista
「在 Invista,我們以轉型為動力,並致力於開發造福全球客戶的產品和技術。我們將 ML 視為改善客戶體驗的一種方式。但是,面對包含數億列資料的資料集,我們需要一個解決方案來幫助我們準備資料,以及大規模開發、部署和管理 ML 模型。藉助 Amazon SageMaker Data Wrangler,我們現在可以有效地以互動方式選取、清除、探索和了解我們的資料,讓我們的資料科學團隊能夠建立特徵工程管道,輕鬆地擴展至跨越數億列的資料集。透過 Amazon SageMaker Data Wrangler,我們可以更快地操作 ML 工作流程。」

Invista 前首席資料科學家 Caleb Wilkinson

3M
「藉助 ML,3M 正在改進久經考驗的產品,如砂紙,並推動其他幾個領域的創新,包括醫療保健領域。當我們計劃將 ML 擴展到 3M 的更多領域時,我們看到資料和模型的數量正在迅速增長 – 每年都翻一番。我們對 SageMaker 的新功能充滿期待,因為這些功能能夠協助我們擴展。Amazon SageMaker Data Wrangler 使準備資料以進行模型訓練變得容易許多,而且透過利用 Amazon SageMaker Feature Store,我們再也不需要反复建立相同的模型特徵。最後,Amazon SageMaker Pipelines 將協助我們將資料準備、模型建置和模型部署整合到端到端工作流程中,實現自動化,從而讓我們加快模型的上市速度。我們的研究人員期待利用 3M 的新科學速度。」

3M Corporate Systems Research Lab 前技術總監 David Frazee

Deloitte
「Amazon SageMaker Data Wrangler 使我們能夠透過一系列豐富的轉換工具快速滿足我們的資料準備需求。這些轉換工具可加速 ML 資料準備程序,從而加快新產品推向市場的速度。我們的客戶受益於我們擴展部署模型的速度。我們能夠在幾天而不是幾個月內提供可衡量的永續結果,滿足客戶的需求。」

Deloitte 首席合夥人兼人工智慧生態系統和平台主管 Frank Farrall

NRI
「作為 AWS 核心級諮詢合作夥伴,我們的工程團隊正在與 AWS 密切合作以建置創新解決方案,來協助我們的客戶不斷提高其營運效率。ML 是我們創新解決方案的核心,但我們的資料準備工作流程涉及複雜的資料準備技術,因此需要花費大量時間才能在生產環境中進行實作。借助 Amazon SageMaker Data Wrangler,我們的資料科學家可以完成資料準備工作流程的每個步驟,包括資料選取、清理、探索和視覺化,這有助於我們加快資料準備程序,並輕鬆準備用於 ML 的資料。藉助 Amazon SageMaker Data Wrangler,我們可以更快地為 ML 準備資料。」

NRI 日本公司資深常務董事 Shigekazu Ohmoto

equilibrium
「隨著我們在人口健康管理市場的足跡涉及更多的醫療支付方、提供者、藥房福利管理者和其他醫療保健組織,我們需要一種解決方案來自動化資料來源的端到端處理程序,這些資料來源為我們的 ML 模型餽送資料,包括索賠資料、註冊資料和藥房資料。藉助 Amazon SageMaker Data Wrangler,我們現在可以使用一組更易於驗證和重複使用的工作流程,來加快 ML 的資料彙總和準備速度。這讓我們極大地縮短了模型的交付時間和品質,提高了資料科學家的效率,並將資料準備時間縮短了近 50%。此外,SageMaker Data Wrangler 協助我們節省了多次 ML 反覆運作和大量的 GPU 時間,加快了我們客戶的整個端到端程序,因為我們現在可以建置具有數千種特徵的資料市集,這些特徵包括藥房、診斷碼、急診室就診、住院以及人口和其他社會決定因素。借助 SageMaker Data Wrangler,我們可以高效地轉換資料以建置訓練資料集,在執行 ML 模型之前產生對資料集的資料洞察,並為推論/預測準備大規模的真實資料。」

Equilibrium Point IoT 執行長 Lucas Merrow

SageMaker Data Wrangler 入門

部落格

部落格

利用 Amazon SageMaker Data Wrangler 中的資料品質和洞察加速資料準備

部落格

Amazon SageMaker Data Wrangler 支援 SaaS 應用程式作為資料來源

部落格

使用 Amazon SageMaker Data Wrangler 透過 Databricks 為機器學習準備資料

部落格

在 Amazon SageMaker Data Wrangler 中使用 PySpark 和 Altair 程式碼片段準備資料

部落格

將資料從跨帳戶 Amazon Redshift 匯入至 Amazon SageMaker Data Wrangler

部落格

在 Amazon SageMaker Studio 中以預設生命週期組態使用 Amazon SageMaker Data Wrangler

實作練習

教學

SageMaker Data Wrangler 入門逐步教學

研討會

探索如何將 SageMaker Data Wrangler 用於使用案例

示範影片

影片

re:Invent 2022: Accelerate data preparation with SageMaker Data Wrangler

re:Invent 2022: Accelerate data preparation (56:45)
影片

使用 SageMaker Data Wrangler 虛擬研討會為 ML 快速準備資料

為 ML 虛擬研討會快速準備資料 (1:18:08)
影片

AWS On Air 2020: AWS What’s Next ft.SageMaker Data Wrangler

AWS on Air 2020: AWS What’s Next ft.SageMaker Data Wrangler (27:51)
影片

SageMaker Data Wrangler Deep Dive Demo

SageMaker Data Wrangler Deep Dive Demo (28:13)

最新消息

  • 日期 (最新到最舊)
找不到結果
1