什麼是資料準備？

Q: 什麼是資料準備？

資料準備是一種準備原始資料的程序，因此適用於進一步的處理與分析。關鍵步驟包括收集、清除原始資料並將其標記為適用於 機器學習 (ML) 演算法的形式，然後是探索資料與並將其視覺化。資料準備可能會佔用 ML 專案所花時間的 80%。使用特定的資料準備工具對優化此程序來說相當重要。

Q: AWS 如何提供協助？

Amazon SageMaker 資料準 備工具可協助組織從結構化和非結構化資料中獲得見解。例如，您可以使用 Amazon SageMaker 資料 Wrangler 透過無程式碼的視覺化介面透過內建資料視覺化來簡化結構化資料準備。SageMaker Data Wrangler 包含 300 多個內建資料轉換，因此您無需編寫任何程式碼，即可快速標準化、轉換和合併特徵。如果您願意，還可以在 Python 或 Apache Spark 中使用自訂轉換。對於非結構化資料，您需要大量高品質的標記資料集。使用 Amazon SageMaker Ground Truth Plus， 您可以建立高品質的 ML 訓練資料集，同時降低高達 40% 的資料標籤成本，而無需自行建置標籤應用程式或管理標籤員工。 對於喜歡在筆記本中準備資料的分析師或商務使用者，您只需點擊幾下即可從 Amazon S ageMaker Studio 筆記本從 Amazon EMR 上執行的 Spark 資料處理環境以視覺化瀏覽、探索並連線到 Amazon EMR 上執行的 Spark 資料處理環境。連接後，您可以互動式查詢、探索和視覺化資料，並使用您選擇的語言 (SQL、Python 或 Scala) 執行 Spark 任務，以建置全面的資料準備和 ML 工作流程。

建立 AWS 帳戶

什麼是資料準備？

資料準備是一種準備原始資料的程序，因此適用於進一步的處理與分析。關鍵步驟包括收集、清除原始資料並將其標記為適用於機器學習 (ML) 演算法的形式，然後是探索資料與並將其視覺化。資料準備可能會佔用 ML 專案所花時間的 80%。使用特定的資料準備工具對優化此程序來說相當重要。

ML 與資料準備之間有何聯繫？

資料以前所未有的方式流經組織，從智慧型手機到智慧城市的方方面面，既包含結構化資料，也包含非結構化資料 (影像、文件、地理空間資料等)。非結構化資料佔當今資料的 80%。ML 不僅可以分析結構化資料，還能探索非結構化資料中的模式。ML 是電腦學習解讀資料，並根據該資料做出決策和提供建議的程序。在學習程序中，以及後來用於做出預測時，不正確、有偏見或不完整的資料可能會導致不准確的預測。

為什麼資料準備對於 ML 很重要？

資料為 ML 提供推動力。利用這些資料重塑您的業務雖然極具挑戰性，但對於現在和未來保持相關性至關重要。這讓最具遠見卓識的人得以生存，讓那些能夠利用資料的人做出更好、更明智的決策，進而更快地對意外事件做出回應並發現新的機遇。這個重要但繁瑣的程序是建置準確的 ML 模型和分析的先決條件，也是 ML 專案中最耗時的部分。為了最大限度地減少時間投入，資料科學家可以使用多種工具，以各種方式助力資料準備自動化。

如何準備資料？

資料準備遵循一系列步驟，首先是收集正確的資料，接著是清除、標記，然後是驗證和視覺化。

收集資料

收集資料是組合 ML 所需全部資料的程序。資料收集可能很乏味，因為資料駐留在許多資料來源中，包括筆記型電腦、資料倉儲、雲端、應用程式內部和裝置。尋找各種可連線至不同資料來源的方式可能具有挑戰性。資料量呈指數級增長，因此，需要搜尋大量資料。此外，資料的格式和類型因來源而異。例如，影片資料和表格式資料很難一起使用。

清除資料

清除資料是糾正錯誤並填寫遺漏資料的一個步驟，以確保資料品質。清除資料後，您需要將其轉換為一致、可讀的格式。此程序可能包括變更日期和貨幣等欄位格式、修改命名慣例，以及更正值和計量單位以使其保持一致。

標籤資料

資料標記是識別原始資料 (影像、文字檔案、影片等) 並新增一或多個有意義與資訊性的標籤來提供內容的過程，讓 ML 模型可從中學習。例如，標籤會顯示相片中是否有鳥或汽車，指出一段錄音中會說出哪些字詞，或者 X 光片中是否發現異常情況。對於各種使用案例 (包含電腦視覺、自然語言處理和語音識別) 而言，必須提供資料標記。

驗證和視覺化

在對資料進行清除和標記後，ML 團隊通常會探索資料以確保其正確，並為 ML 做好準備。長條圖、散佈圖、箱線圖、折線圖和橫條圖等視覺化，都是確認資料正確的實用工具。此外，視覺化還有助於資料科學團隊完成探索性資料分析。此程序使用視覺化來探索模式、發現異常狀況、檢驗假設或檢查假設。探索性資料分析無需正式建模；而資料科學團隊可以使用視覺化來破譯資料。

AWS 如何提供協助？

Amazon SageMaker 資料準備工具可協助組織從結構化和非結構化資料中獲得見解。例如，您可以使用 Amazon SageMaker 資料 Wrangler 透過無程式碼的視覺化介面透過內建資料視覺化來簡化結構化資料準備。SageMaker Data Wrangler 包含 300 多個內建資料轉換，因此您無需編寫任何程式碼，即可快速標準化、轉換和合併特徵。如果您願意，還可以在 Python 或 Apache Spark 中使用自訂轉換。對於非結構化資料，您需要大量高品質的標記資料集。使用 Amazon SageMaker Ground Truth Plus，您可以建立高品質的 ML 訓練資料集，同時降低高達 40% 的資料標籤成本，而無需自行建置標籤應用程式或管理標籤員工。

對於喜歡在筆記本中準備資料的分析師或商務使用者，您只需點擊幾下即可從 Amazon S ageMaker Studio 筆記本從 Amazon EMR 上執行的 Spark 資料處理環境以視覺化瀏覽、探索並連線到 Amazon EMR 上執行的 Spark 資料處理環境。連接後，您可以互動式查詢、探索和視覺化資料，並使用您選擇的語言 (SQL、Python 或 Scala) 執行 Spark 任務，以建置全面的資料準備和 ML 工作流程。

AWS 上的後續步驟

查看其他產品相關資源

進一步了解

註冊免費帳戶

立即存取 AWS 免費方案。

註冊

開始在主控台進行建置

開始在 AWS 管理主控台使用 AWS 進行建置。

登入

Browse all cloud computing concepts

Browse all cloud computing concepts content here:

載入中

Did you find what you were looking for today?

Let us know so we can improve the quality of the content on our pages

什麼是資料準備？

什麼是資料準備？

ML 與資料準備之間有何聯繫？

為什麼資料準備對於 ML 很重要？

如何準備資料？

收集資料

清除資料

標籤資料

驗證和視覺化

AWS 如何提供協助？

AWS 上的後續步驟

查看其他產品相關資源

註冊免費帳戶

開始在主控台進行建置

Browse all cloud computing concepts

Did you find what you were looking for today?

了解

資源

開發人員

說明