什麼是資料準備?
ML 與資料準備之間有何聯繫?
為什麼資料準備對於 ML 很重要?
資料為 ML 提供推動力。利用這些資料重塑您的業務雖然極具挑戰性,但對於現在和未來保持相關性至關重要。這讓最具遠見卓識的人得以生存,讓那些能夠利用資料的人做出更好、更明智的決策,進而更快地對意外事件做出回應並發現新的機遇。這個重要但繁瑣的程序是建置準確的 ML 模型和分析的先決條件,也是 ML 專案中最耗時的部分。為了最大限度地減少時間投入,資料科學家可以使用多種工具,以各種方式助力資料準備自動化。
如何準備資料?
資料準備遵循一系列步驟,首先是收集正確的資料,接著是清除、標記,然後是驗證和視覺化。
收集資料
清除資料
標籤資料
驗證和視覺化
AWS 如何提供協助?
Amazon SageMaker 資料準備工具可協助組織從結構化和非結構化資料中獲得洞察。例如,您可以使用 Amazon SageMaker Data Wrangler,透過無程式碼視覺化介面,利用內建資料視覺化來簡化結構化資料準備。SageMaker Data Wrangler 包含 300 多個內建資料轉換,因此您無需編寫任何程式碼,即可快速標準化、轉換和合併特徵。如果您願意,還可以在 Python 或 Apache Spark 中使用自訂轉換。對於非結構化資料,您需要大量高品質的標記資料集。使用 Amazon SageMaker Ground Truth Plus,您可以建置高品質的 ML 訓練資料集,同時將資料標記成本降低多達 40%,而無需自行建置標記應用程式或管理標記人力。
對於喜歡在筆記本中準備資料的分析師或業務用戶,您只需點按幾下滑鼠,即可從 Amazon SageMaker Studio 筆記本中直觀地瀏覽、探索和連接到在 Amazon EMR 上執行的 Spark 資料處理環境。連接後,您可以互動式查詢、探索和視覺化資料,並使用您選擇的語言 (SQL、Python 或 Scala) 執行 Spark 任務,以建置全面的資料準備和 ML 工作流程。