什麼是特徵工程？

Q: 什麼是特徵工程？

模型特徵是 機器學習 (ML) 在訓練和推論期間用於預測的輸入。ML 模型精度有賴於特徵的精確集合與組合。例如，在推薦音樂播放清單的 ML 應用程式中，特徵可能納入了歌曲評分、先前聽過哪些歌曲以及聽歌時間。建立特徵可能需要大量的工程工作。特徵工程涉及從原始資料中擷取和轉換變數，例如價格清單、產品描述和銷量，以便您可以使用特徵進行訓練和預測。工程設計特徵所需的步驟包括資料擷取和清理，然後是特徵建立與儲存。

建立 AWS 帳戶

什麼是特徵工程？

模型特徵是機器學習 (ML) 在訓練和推論期間用於預測的輸入。ML 模型精度有賴於特徵的精確集合與組合。例如，在推薦音樂播放清單的 ML 應用程式中，特徵可能納入了歌曲評分、先前聽過哪些歌曲以及聽歌時間。建立特徵可能需要大量的工程工作。特徵工程涉及從原始資料中擷取和轉換變數，例如價格清單、產品描述和銷量，以便您可以使用特徵進行訓練和預測。工程設計特徵所需的步驟包括資料擷取和清理，然後是特徵建立與儲存。

特徵工程有哪些挑戰？

特徵工程具有挑戰性，因為它涉及一系列資料分析、商業領域知識和一些直覺。建立特徵時，很容易立即就開始使用可用資料，但通常情況下，您首先應該透過與專家交談、腦力激盪和開展第三方研究等措施來考慮需要哪些資料。如果不進行此練習，您可能會錯過重要的預測變數。

資料擷取

收集資料是組合 ML 所需全部資料的程序。資料收集可能很乏味，因為資料駐留在許多資料來源中，包括筆記型電腦、資料倉儲、雲端、應用程式內部和裝置。尋找各種可連線至不同資料來源的方式可能具有挑戰性。資料量呈指數級增長，因此，需要搜尋大量資料。此外，資料的格式和類型因來源而異。例如，影片資料和表格式資料很難一起使用。

特徵建立

資料標記是識別原始資料 (影像、文字檔案、影片等) 並新增一或多個有意義與資訊性的標籤來提供內容的過程，讓 ML 模型可從中學習。例如，標籤會顯示相片中是否有鳥或汽車，指出一段錄音中會說出哪些字詞，或者 X 光片中是否發現異常情況。對於各種使用案例 (包含電腦視覺、自然語言處理和語音識別) 而言，必須提供資料標記。

特徵儲存

在對資料進行清除和標記後，ML 團隊通常會探索資料以確保其正確，並為 ML 做好準備。長條圖、散佈圖、箱線圖、折線圖和橫條圖等視覺化，都是確認資料正確的實用工具。此外，視覺化還有助於資料科學團隊完成探索性資料分析。此程序使用視覺化來探索模式、發現異常狀況、檢驗假設或檢查假設。探索性資料分析無需正式建模；而資料科學團隊可以使用視覺化來破譯資料。

AWS 如何在特徵工程方面提供協助？

借助 Amazon SageMaker Data Wrangler，您可以使用單一視覺介面來簡化特徵工程流程。借助 SageMaker Data Wrangler 的資料選取工具，您可以從各種資料來源中選取所需原始資料，然後一鍵匯入。SageMaker Data Wrangler 包含 300 多個內建資料轉換，因此您無需編寫任何程式碼，即可快速標準化、轉換和合併特徵。在準備資料後，您可以使用 Amazon SageMaker Pipelines 建置完全自動化的 ML 工作流程，並將其儲存在 Amazon SageMaker Feature Store 中以供重複使用。SageMaker 特徵存放區是專門建構的存放庫，您可在其中儲存並存取特徵，以更簡單的方式在團隊中命名、整理及重複使用這些特徵。SageMaker 特徵存放區在訓練和即時推論期間提供了統一的特徵存放區，無需編寫額外程式碼或建立手動流程來保持特徵的一致性。

AWS 上的後續步驟

查看其他產品相關資源

AWS 對特徵工程的支援

註冊免費帳戶

立即存取 AWS 免費方案。

註冊

開始在主控台進行建置

開始在 AWS 管理主控台進行建置。

登入

Browse all cloud computing concepts

Browse all cloud computing concepts content here:

載入中

Did you find what you were looking for today?

Let us know so we can improve the quality of the content on our pages

什麼是特徵工程？

什麼是特徵工程？

特徵工程有哪些挑戰？

資料擷取

特徵建立

特徵儲存

AWS 如何在特徵工程方面提供協助？

AWS 上的後續步驟

查看其他產品相關資源

註冊免費帳戶

開始在主控台進行建置

Browse all cloud computing concepts

Did you find what you were looking for today?

了解

資源

開發人員

說明