什麼是特徵工程?
模型特徵是機器學習 (ML) 在訓練和推論期間用於預測的輸入。ML 模型精度有賴於特徵的精確集合與組合。例如,在推薦音樂播放清單的 ML 應用程式中,特徵可能納入了歌曲評分、先前聽過哪些歌曲以及聽歌時間。建立特徵可能需要大量的工程工作。特徵工程涉及從原始資料中擷取和轉換變數,例如價格清單、產品描述和銷量,以便您可以使用特徵進行訓練和預測。工程設計特徵所需的步驟包括資料擷取和清理,然後是特徵建立與儲存。
特徵工程有哪些挑戰?
特徵工程具有挑戰性,因為它涉及一系列資料分析、商業領域知識和一些直覺。建立特徵時,很容易立即就開始使用可用資料,但通常情況下,您首先應該透過與專家交談、腦力激盪和開展第三方研究等措施來考慮需要哪些資料。如果不進行此練習,您可能會錯過重要的預測變數。
資料擷取
特徵建立
特徵儲存
AWS 如何在特徵工程方面提供協助?
借助 Amazon SageMaker Data Wrangler,您可以使用單一視覺介面來簡化特徵工程流程。借助 SageMaker Data Wrangler 的資料選取工具,您可以從各種資料來源中選取所需原始資料,然後一鍵匯入。SageMaker Data Wrangler 包含 300 多個內建資料轉換,因此您無需編寫任何程式碼,即可快速標準化、轉換和合併特徵。在準備資料後,您可以使用 Amazon SageMaker Pipelines 建置完全自動化的 ML 工作流程,並將其儲存在 Amazon SageMaker Feature Store 中以供重複使用。SageMaker 特徵存放區是專門建構的存放庫,您可在其中儲存並存取特徵,以更簡單的方式在團隊中命名、整理及重複使用這些特徵。SageMaker 特徵存放區在訓練和即時推論期間提供了統一的特徵存放區,無需編寫額外程式碼或建立手動流程來保持特徵的一致性。