什麼是資料挖掘技術?
資料挖掘技術可讓組織發現其資料中不明顯的模式和關係。這些技術會將原始資料轉換為實用知識,可用於解決問題,分析業務決策的未來影響,並增加淨利率。本指南會探討各種資料挖掘技術,以及如何在 AWS 上加以實作。
組織會儲存和處理來自各種業務流程的大量資訊。資料挖掘可協助其透過資料建模和預測分析,從歷史資料中獲得寶貴的見解。現代資料挖掘通常會使用人工智慧和機器學習 (AI/ML) 技術來加速獲得業務見解,並產生更優秀的成果。
但是,在使用內部部署基礎結構執行知識探索時,企業會面臨一些挑戰。具體來說,企業需要將資料挖掘工具與多種資料來源整合、連接第三方應用程式,並向不同的利害關係人通知相關結果。如果在傳統基礎結構進行的話,將會產生昂貴的成本。
AWS 可提供協助組織在雲端上擴展資料挖掘流程的受管服務。我們將強大的資料挖掘功能、生成式 AI 專業知識和資料治理最佳實務與 Amazon SageMaker 結合。這讓資料科學家得以整合來自不同來源的資料、執行複雜的資料分析查詢,以及更有效地根據安全政策監控資料。
除了改善資料流程之外,組織還能夠以更經濟實惠的方式提供進階分析,而無需佈建自己的基礎結構。例如,Lennar 使用 Amazon SageMaker Unified Studio 和 Amazon SageMaker 資料湖倉轉型資料基礎,使其資料團隊能夠更有效地獲得業務見解。
我們接下來將說明各種資料挖掘技術,以及 AWS 工具如何協助實作這些技術。
如何在資料挖掘中使用資料預先處理?
資料預先處理會將原始資料轉換為資料挖掘神經網路可以理解的格式。因為這會顯著影響資料模型的效能,所以是資料挖掘的關鍵部分。原始資料通常可能包含錯誤、重複項目並出現資訊遺失,這些情況可能會對模型的結果產生負面影響。透過資料預先處理,您就可以清除資料並消除此類異常情況。此外,資料科學家可以選擇有助於產生業務見解並消除不必要資訊的特定特徵。例如,預測客戶流失率時,您可以選取每月平均使用量、上次登入日期及支援請求的頻率等特徵。我們稱此特徵為「工程」,其可讓您減少資料挖掘所需的運算資源。
Amazon SageMaker Data Wrangler 是一種資料準備工具,可協助您提升資料品質並進而改善分析結果。您可以在連接到資料管道的各種資料來源中使用 Amazon SageMaker Data Wrangler。Amazon SageMaker Data Wrangler 的無代碼方法可以在幾分鐘內完成資料清理,因此您將無需花費數小時處理這項作業。以下會說明如何使用 SageMaker Data Wrangler 為機器學習模型準備資料。
步驟 1 - 選取並查詢
使用視覺化查詢建置器來存取和擷取 AWS 和第三方儲存空間的文字、影像和表格式資料。然後,套用資料品質報告中的調查結果來偵測極端值、類別不平衡和資料洩漏等異常狀況。
步驟 2 - 清理和充實
使用預先建置的 PySpark 轉換和自然語言介面來轉換資料。Amazon SageMaker Data Wrangler 支援常見的資料轉換,包括向量化文字、特徵化日期時間資料、進行編碼和平衡資料。此外,您可以輕鬆建立自訂轉換,以支援您的使用案例。
步驟 3 - 視覺化和理解
使用圖表、示意圖和其他視覺工具驗證準備的資料。然後,在實際訓練模型之前,執行快速分析以預測模型的結果。
什麼是探索資料分析?
探索資料分析 (EDA) 是一種資料科學技術,可讓資料科學家發現隱藏的模式、識別有意義的關係,以及偵測資料中的異常情況。EDA 通常依靠視覺工具來提供指引,例如長條圖、圖表和圖形。EDA 的目的在於為後續資料分析提供指引。此外,它還能幫助資料科學家在判斷時避免假設和偏見的影響。
簡而言之,EDA 提供可以透過統計模型和技術 (例如時間序列分析、空間分析和散佈圖) 觀察的證據。然而,執行 EDA 需要一套資料挖掘工具,而且必須透過整合方式搭配使用這些工具。設定成本可能十分昂貴。
Amazon SageMaker Unified Studio 是一個單一 AI 和資料平台,可讓您的團隊建置、部署和共用資料分析工作負載。您可以使用該平台來搭配熟悉的 AWS AI/ML 工具、儲存空間和分析工具,包括 Amazon EMR、AWS Glue、Amazon Athena、Amazon Redshift、Amazon Bedrock 和 Amazon SageMaker AI。
以下是加速探索資料分析的方法 (搭配 Amazon SageMaker Unified Studio 的 EDA)。
- 訂閱、管理和設定要在訓練資料分析模型時使用的資料資產規則。
- 查詢儲存在資料湖、資料倉儲和其他來源中的資料。
- 建立具有內建的視覺化介面的工作流程,以在資料來源和目的地之間新增轉換模組。
什麼是資料挖掘中的預測分析?
資料挖掘中的預測分析,會利用發現的資料模式來預測未來的結果。為達成這項目的,就需要將資料輸入至機器學習模型,這些模型會根據所學習的知識做出預測,以幫助企業制定決策。例如,金融公司會使用預測分析來預測市場趨勢、偵測欺詐行為和評估信用風險。
Amazon SageMaker Canvas 是一種視覺化開發工具,可讓您大規模訓練、測試和部署預測模型。該工具可以存取基礎模型和自訂機器學習 (ML) 演算法,進而針對各種使用案例產生準確的預測。
此外,您可以透過 Amazon Q Developer,使用自然語言建立整個資料工作流程。Amazon Q Developer 是一種生成式 AI 助理,可讓您以日常語言描述機器學習和資料分析任務。然後,其會將您的描述轉換為查詢、SQL 指令碼、可操作的步驟、程式碼建議等,以幫助您更有效地處理 AI 和資料。
以下是您能夠透過 Amazon SageMaker Canvas 建置和部署的模型,可用於啟用預測分析。
分類
分類模型可以根據已學習的特徵,將標籤指定給先前未曾見過的資料。例如,採用 AI 技術的客戶支援系統,可以透過分析對話中的單詞來將意見反饋分類為正面、負面或中立。Amazon SageMaker Canvas 支援適用於各種問題類型的分類模型,包括文字分類、影像分類、異常偵測和物件偵測。
關聯規則挖掘
關聯規則挖掘 (ARM) 可發現資料點之間的關係,並可用於增強預測性分析管道。例如,您可以使用 ARM 執行購物籃分析,並找出經常在超市同時購買的商品。Amazon SageMaker 可讓您使用 Python 等架構建立自己的自訂 ARM 演算法,並在 AWS 上的 AI/ML 工作流程中部署這些演算法。
叢集處理
叢集處理會根據類似屬性將資料進行分組,間接支援預測分析。例如,您可以根據平均支出值對客戶進行叢集處理。然後,預測模型會使用經過分組的客戶來作為其中一項特徵。資料科學家經常使用 K-Mean 演算法來對資料進行叢集處理。Amazon SageMaker 使用經修改的 K-Means 演算法版本,可產生更準確的結果並提供更佳的可擴展性。
異常偵測
您可以訓練機器學習模型,以偵測資料模式中的極端值。例如,工廠會使用預測模型來識別機器中的潛在故障。異常偵測支援主動緩解動作,例如進行預防性維護以防止作業中斷。
有了 Amazon SageMaker,您可以使用 Random Cut Forest 演算法偵測異常模式,該演算法會為資料指定低分 (正常) 和高分 (異常)。
什麼是文件挖掘?
文件挖掘是一種機器學習技術,可探索、擷取和分析文件中找到的文字、影像或表格式資料。透過將資料挖掘技術應用於儲存的文件,組織可以降低成本、增強客戶體驗,並提高營運效率。例如,法律事務所可以使用文件挖掘,自動在合約中檢索特定條款。
您可以透過 Amazon SageMaker Canvas 套用立即可用的文件挖掘模型。這些模型經過預先訓練,這意味著您可以將其整合至資料挖掘工作流程中,而無需進行額外的微調。設定完成後,模型會分析文件中的原始資料,以找出有意義的模式。然後,模型會相應地進行擷取、分類或標記。
例如,個人資訊偵測模型可以從文字資料偵測地址、銀行帳號和電話號碼等資訊。同時,費用分析模型會從收據和發票中擷取金額、日期和明細等資訊。
以下內容會說明如何透過 Amazon SageMaker Canvas 套用文件挖掘技術。
- 建立您的 SageMaker AI 網域並啟用 Canvas 立即可用模型。
- 匯入您要分析的文件資料集。這可讓您建立資料流程。
- 選取資料挖掘模型以產生預測。您可以透過設定進行單一或批次預測。
AWS 如何協助實作資料挖掘技術?
利用資料挖掘技術,企業就能夠從產生的資料中發現寶貴的見解,從而做出明智的決策。成功的資料挖掘需要簡化的資料管道,該管道會將來自各種來源的原始資料連接至強大的 AI/ML 模型。
資料管道可自動化資料擷取、儲存、清理和轉換作業,以確保在之後讓模型接收高品質又準確的資料。然後,您將能套用各種類型的資料挖掘技術來獲得有意義的見解。
探索 Amazon SageMaker,簡化複雜的資料工作流程,並取得實現更優秀業務成果的預測性見解。