什麼是文字分析？– 文字分析介紹

什麼是文字分析？

文字分析是一種程序，過程中為了取得商業洞察，使用電腦系統閱讀與理解人類書寫的文字。文字分析軟體可以從文字中獨立分類、排序與擷取資訊，以識別模式、關係、情感、以及其他可行的知識。您可以使用文字分析，用於有效率且準確地處理多種以文字為基礎的來源，如電子郵件、文件、社群媒體內容、以及產品評論等；這套軟體可以如人類一般執行工作。

為什麼文字分析很重要？

企業使用文字分析，從各種非結構化資料來源中擷取可行的洞察。他們依賴於來自電子郵件、社交媒體和客戶問卷調查回覆等來源的意見回饋來協助做出決策。然而，若沒有文字分析軟體，此類來源中的大量文字無疑勢不可當。

藉助文字分析，您可以更快地從來源中取得準確資訊。該程序完全自動化且一致，並顯示可以採取行動的資料。例如，使用文字分析軟體可讓您立即偵測社交媒體張貼上的負面情緒，以便您可以設法解決問題

情緒分析

情緒分析或觀點挖掘利用文字分析方法，來理解一段文字中傳達的觀點。您可以使用評論、部落格、論壇和其他線上媒體的情緒分析，來確定您的客戶是否對其購買感到滿意。情緒分析可協助您發現新趨勢、追蹤情緒變化並解決公關問題。透過使用情緒分析並識別特定關鍵字，您可以追蹤客戶意見的變更並確定問題的根本原因。

記錄管理

文字分析可實現對文件的有效管理、分類和搜尋。這包括自動化患者記錄管理、監控品牌提及內容以及偵測保險詐騙。例如，LexisNexis Legal & Professional 使用文字擷取來識別 2 億份文件中的特定記錄。

個人化客戶體驗

您可以使用文字分析軟體來處理電子郵件、評論、聊天和其他以文字為基礎的通訊。憑藉對客戶偏好設定、購買習慣和整體品牌認知的洞察，您可以為不同的客戶群量身定製個人化體驗。

文字分析如何運作？

文字分析的核心是訓練電腦軟體，將字詞與特定含義關聯並理解非結構化資料的語義相關內容。這類似於人類透過將字詞與物件、動作和情緒關聯來學習新語言的方式。

文字分析軟體是以深度學習和自然語言處理原理為依據運作。

深度學習

人工智能是數據科學領域，教導計算機像人類一樣思考。機器學習是人工智慧中的一種技術，其使用特定的方法來指導或訓練電腦。深度學習是一種高度專業的機器學習方法，它使用模仿人類大腦的神經網絡或軟件結構。深度學習技術為文字分析軟體提供支援，因此這些網路能夠以類似於人腦的方式閱讀文字。

自然語言處理

自然語言處理 (NLP) 是人工智慧的一個分支，讓電腦能夠從自然、人工建立的文字中自動衍生含義。它利用語言模型和統計數字來訓練深度學習技術，以處理和分析文字資料，包括手寫文字影像。光學字元辨識 (OCR) 等 NLP 方法，透過尋找並理解影像中的字詞，將文字影像轉換為文字文件。

文字分析技術有哪些類型？

文字分析軟體使用以下常用技術。

文字分類

在文字分類中，文字分析軟體學習如何將某些關鍵字與特定主題、使用者意圖或情緒關聯。它透過使用以下方法來實現：

以規則為基礎的分類，可根據語義元件或句法模式的預先定義規則，將標籤指派給文字。
以機器學習為基礎的系統，透過使用範例來訓練文字分析軟體，並提高其標記文字的準確性來運作。他們使用 Naive Bayes、Support Vector Machines 和深度學習等語言模型來處理結構化資料，對字詞進行分類，以及在字詞之間建立語義理解。

例如，好評通常包含 good (好)、fast (快) 和 great (很棒) 等詞。但是，負面評論可能包含 unhappy (不滿意)、slow (慢) 和 bad (糟糕) 等詞。資料科學家會訓練文字分析軟體，以尋找這些特定術語並將評論分類為正面或負面。這樣，客戶支援團隊就能輕鬆地從評論中監控客戶情緒。

文字擷取

文字擷取會掃描文字並提取關鍵資訊。它可以在一段文字中識別關鍵字、產品屬性、品牌名稱、地名等。擷取軟體採用以下方法：

正則表達式 (REGEX)：這是一個格式化符號陣列，用作需要擷取的前提條件。
條件隨機場 (CRF)：這是一種機器學習方法，透過評估特定模式或片語來擷取文字。它相較於 REGEX 更精細和靈活。

例如，您可以使用文字擷取來監控社交媒體上的品牌提及內容。要手動追蹤您的品牌在社交媒體上每一次出現的情況，這很難實現。文字擷取將即時提醒您品牌提及內容。

主題建模

主題建模方法可識別出現在非結構化文字中的相關關鍵字，並將其分組為主題或話題。這些方法可以讀取多個文字文件，並根據文件中各種字詞的出現頻率將其分類為主題。主題建模方法可提供關聯內容以作進一步分析。

例如，您可以使用主題建模方法，來閱讀掃描的文件封存，並將文件分類為發票、法律文件和客戶協議。然後，您可以在發票上執行不同的分析方法，以獲得財務洞察，或對客戶協議執行不同的分析方法以獲得客戶洞察。

PII 編輯

PII 編輯會自動偵測並移除文件中的個人身分識別資訊 (PII)，如姓名、地址或帳戶號碼。PII 編輯有助於保護隱私權並遵守當地的法律法規。

例如，您可以分析支援工單和知識文章，以偵測並編輯 PII，然後再在搜尋解決方案中為文件編制索引。之後，搜尋解決方案不再包含文件中的 PII。

文字分析包含哪些階段？

若要實作文字分析，您需要遵循經過四個階段的系統程序。

第 1 階段 – 資料收集

在此階段，您從內部或外部來源收集文字資料。

內部資料

內部資料是企業內部的文字內容，並且隨時可用，例如電子郵件、聊天記錄、發票和員工調查。

外部資料

您可以在社交媒體張貼、線上評論、新聞文章和線上論壇等來源尋找外部資料。獲取外部資料更加困難，因為它超出您的控制範圍。您可能需要使用 Web 抓取工具，或與第三方解決方案整合來擷取外部資料。

第 2 階段 – 資料準備

資料準備是文字分析的重要組成部分。它涉及以可接受的格式建構原始文字資料以進行分析。文字分析軟體會自動化該程序，並涉及以下常見的自然語言處理 (NLP) 方法。

字符化

字符化將原始文字分隔成多個具有語義的部分。例如，片語 text analytics (文字分析) benefits business (惠及企業) 標記為字詞 text (文字)、analytics (分析)、benefits (惠及) 和 businesses (企業)。

詞性標記

詞性標記將語法標記指派給字符化文字。例如，將此步驟套用至之前提及的字符，會產生文字：名詞；分析：名詞；惠及：動詞；企業：名詞。

解析

解析在字符化字詞與英文語法之間建立了有意義的聯繫。它可協助文字分析軟體視覺化字詞之間的關係。

詞形還原

詞形還原是一種語言程序，可將字詞簡化為字典形式或引理。例如，visualizing 的字典形式是 visualize。

停用詞移除

停用詞是為句子提供很少或沒有語義關聯內容的詞，例如 and、or 和 for。根據使用案例，軟體可能會將其從結構化文字中移除。

第 3 階段 – 文字分析

文字分析是該程序的核心部分，其中文字分析軟體使用不同的方法對文字進行處理。

文字分類

分類是根據規則或以機器學習為基礎的系統，為文字資料指派標籤的程序。

文字擷取

擷取涉及識別文字中特定關鍵字的出現，並將其與標籤關聯。該軟體使用正則表達式和條件隨機欄位 (CRF) 等方法，來執行此操作。

第 4 階段 – 視覺化

視覺化是指將文字分析結果轉換為易於理解的格式。您將在圖形、圖表和表格中找到文字分析結果。視覺化結果可協助您識別模式和趨勢，並建置行動計畫。例如，假設您的產品退貨量激增，但您很難找出原因。透過視覺化，您可以在意見回饋中尋找 defects (缺陷)、wrong size (錯誤尺寸) 或 not a good fit (不合適) 之類的詞，並將其製成圖表。然後，您就會知道哪個是優先考慮的主要問題。