什麼是資料清除？

Q: AWS 如何協助進行資料清除

亞馬遜 SageMaker 資料攻擊器是亞 馬 遜 SageMaker 的一項功能，可讓您快速輕鬆地準備機器學習資料。藉助 Amazon SageMaker Data Wrangler，您可以從單一視覺化介面完成資料準備工作流程的每個步驟，包括資料選擇、清除、探索、偏差偵測和視覺化。 借助 SageMaker Data Wrangler 的資料選取工具，您可以從各種資料來源中選取所需資料，然後一鍵匯入。匯入資料後，您可以使用資料品質和洞察報告，自動驗證資料品質並偵測異常狀況，如重複行和目標洩漏。SageMaker Data Wrangler 包含 300 多個內建資料轉換，因此您無需編寫任何程式碼，即可快速標準化、轉換和合併特徵。 若要開始使用 SageMaker 資料攻擊者，請瀏覽教學課程。

建立 AWS 帳戶

什麼是資料清除？

資料清除是為機器學習 (ML) 和商業智慧 (BI) 應用程式準備原始資料的基本程序。原始資料可能包含大量錯誤，這可能會影響 ML 模型的準確性，並導致錯誤的預測和負面的商業影響。

資料清除的關鍵步驟包括修改和移除不正確和不完整的資料欄位，識別並移除重複資訊和不相關資料，以及修正格式、缺失值和拼寫錯誤。

為什麼資料清除很重要？

一間公司使用資料來推動決策時，使用相關、完整且準確的資料至關重要。然而，資料集通常包含必須在分析之前移除的錯誤。這些錯誤可能包括格式錯誤，例如錯誤寫入的日期和貨幣，以及其他可能對預測產生重大影響的計量單位。極端值是一個特別值得關注的問題，因為這些極端值總是會導致結果出現誤差。其他常見的資料錯誤包括資料點損毀、資訊缺失和拼寫錯誤。乾淨的資料有助於產生高度準確的 ML 模型。

乾淨和準確的資料對於訓練 ML 模型尤其重要，因為使用較差的訓練資料集可能會導致部署模型的錯誤預測。這是資料科學家花費大量時間為 ML 準備資料的主要原因。

如何驗證您的資料是否乾淨？

資料清除程序需要採取幾個步驟，來識別和修復問題條目。第一步是分析資料以識別錯誤。這可能涉及使用藉助規則、模式和條件約束來識別無效值的定性分析工具。下一步是移除或修正錯誤。

常見的資料清除步驟包括修復：

重複資料：刪除重複資訊
不相關資料：識別用於特定分析的關鍵欄位，並從分析中刪除不相關資料
極端值：極端值會顯著影響模型效能，因此需要識別極端值並確定適當的動作
缺失資料：標記並刪除或估算缺失的資料
結構錯誤：修正印刷錯誤和其他不一致，並使資料符合通用模式或約定

AWS 如何協助進行資料清除

亞馬遜 SageMaker 資料攻擊器是亞馬遜 SageMaker 的一項功能，可讓您快速輕鬆地準備機器學習資料。藉助 Amazon SageMaker Data Wrangler，您可以從單一視覺化介面完成資料準備工作流程的每個步驟，包括資料選擇、清除、探索、偏差偵測和視覺化。

借助 SageMaker Data Wrangler 的資料選取工具，您可以從各種資料來源中選取所需資料，然後一鍵匯入。匯入資料後，您可以使用資料品質和洞察報告，自動驗證資料品質並偵測異常狀況，如重複行和目標洩漏。SageMaker Data Wrangler 包含 300 多個內建資料轉換，因此您無需編寫任何程式碼，即可快速標準化、轉換和合併特徵。

若要開始使用 SageMaker 資料攻擊者，請瀏覽教學課程。

資料清洗後續步驟

查看其他產品相關資源

進一步了解機器學習服務

註冊免費帳戶

立即存取 AWS 免費方案。

註冊

開始在主控台進行建置

開始在 AWS 管理主控台進行建置。

登入

Browse all cloud computing concepts

Browse all cloud computing concepts content here:

載入中

Did you find what you were looking for today?

Let us know so we can improve the quality of the content on our pages

什麼是資料清除？

什麼是資料清除？

為什麼資料清除很重要？

如何驗證您的資料是否乾淨？

AWS 如何協助進行資料清除

資料清洗後續步驟

查看其他產品相關資源

註冊免費帳戶

開始在主控台進行建置

Browse all cloud computing concepts

Did you find what you were looking for today?

了解

資源

開發人員

說明