什麼是文字分析?
文字分析是一種程序,過程中為了取得商業洞察,使用電腦系統閱讀與理解人類書寫的文字。文字分析軟體可以從文字中獨立分類、排序與擷取資訊,以識別模式、關係、情感、以及其他可行的知識。您可以使用文字分析,用於有效率且準確地處理多種以文字為基礎的來源,如電子郵件、文件、社群媒體內容、以及產品評論等;這套軟體可以如人類一般執行工作。
為什麼文字分析很重要?
企業使用文字分析,從各種非結構化資料來源中擷取可行的洞察。他們依賴於來自電子郵件、社交媒體和客戶問卷調查回覆等來源的意見回饋來協助做出決策。然而,若沒有文字分析軟體,此類來源中的大量文字無疑勢不可當。
藉助文字分析,您可以更快地從來源中取得準確資訊。該程序完全自動化且一致,並顯示可以採取行動的資料。例如,使用文字分析軟體可讓您立即偵測社交媒體張貼上的負面情緒,以便您可以設法解決問題
情緒分析
情緒分析或觀點挖掘利用文字分析方法,來理解一段文字中傳達的觀點。您可以使用評論、部落格、論壇和其他線上媒體的情緒分析,來確定您的客戶是否對其購買感到滿意。情緒分析可協助您發現新趨勢、追蹤情緒變化並解決公關問題。透過使用情緒分析並識別特定關鍵字,您可以追蹤客戶意見的變更並確定問題的根本原因。
記錄管理
文字分析可實現對文件的有效管理、分類和搜尋。這包括自動化患者記錄管理、監控品牌提及內容以及偵測保險詐騙。例如,LexisNexis Legal & Professional 使用文字擷取來識別 2 億份文件中的特定記錄。
個人化客戶體驗
您可以使用文字分析軟體來處理電子郵件、評論、聊天和其他以文字為基礎的通訊。憑藉對客戶偏好設定、購買習慣和整體品牌認知的洞察,您可以為不同的客戶群量身定製個人化體驗。
文字分析如何運作?
文字分析的核心是訓練電腦軟體,將字詞與特定含義關聯並理解非結構化資料的語義相關內容。這類似於人類透過將字詞與物件、動作和情緒關聯來學習新語言的方式。
文字分析軟體是以深度學習和自然語言處理原理為依據運作。
深度學習
人工智慧是資料科學領域,指導電腦像人類一樣思考。機器學習是人工智慧中的一種技術,其使用特定的方法來指導或訓練電腦。深度學習是一種高度專業化的機器學習方法,其使用模仿人腦的神經網路或軟體結構。深度學習技術為文字分析軟體提供支援,因此這些網路能夠以類似於人腦的方式閱讀文字。
自然語言處理
自然語言處理 (NLP) 是人工智慧的一個分支,讓電腦能夠從自然、人工建立的文字中自動衍生含義。它利用語言模型和統計數字來訓練深度學習技術,以處理和分析文字資料,包括手寫文字影像。 光學字元辨識 (OCR) 等 NLP 方法,透過尋找並理解影像中的字詞,將文字影像轉換為文字文件。
文字分析技術有哪些類型?
文字分析軟體使用以下常用技術。
文字分類
在文字分類中,文字分析軟體學習如何將某些關鍵字與特定主題、使用者意圖或情緒關聯。它透過使用以下方法來實現:
- 以規則為基礎的分類,可根據語義元件或句法模式的預先定義規則,將標籤指派給文字。
- 以機器學習為基礎的系統,透過使用範例來訓練文字分析軟體,並提高其標記文字的準確性來運作。他們使用 Naive Bayes、Support Vector Machines 和深度學習等語言模型來處理結構化資料,對字詞進行分類,以及在字詞之間建立語義理解。
例如,好評通常包含 good (好)、fast (快) 和 great (很棒) 等詞。 但是,負面評論可能包含 unhappy (不滿意)、slow (慢) 和 bad (糟糕) 等詞。資料科學家會訓練文字分析軟體,以尋找這些特定術語並將評論分類為正面或負面。這樣,客戶支援團隊就能輕鬆地從評論中監控客戶情緒。
文字擷取
文字擷取會掃描文字並提取關鍵資訊。它可以在一段文字中識別關鍵字、產品屬性、品牌名稱、地名等。擷取軟體採用以下方法:
- 正則表達式 (REGEX):這是一個格式化符號陣列,用作需要擷取的前提條件。
- 條件隨機場 (CRF):這是一種機器學習方法,透過評估特定模式或片語來擷取文字。它相較於 REGEX 更精細和靈活。
例如,您可以使用文字擷取來監控社交媒體上的品牌提及內容。要手動追蹤您的品牌在社交媒體上每一次出現的情況,這很難實現。文字擷取將即時提醒您品牌提及內容。
主題建模
主題建模方法可識別出現在非結構化文字中的相關關鍵字,並將其分組為主題或話題。這些方法可以讀取多個文字文件,並根據文件中各種字詞的出現頻率將其分類為主題。主題建模方法可提供關聯內容以作進一步分析。
例如,您可以使用主題建模方法,來閱讀掃描的文件封存,並將文件分類為發票、法律文件和客戶協議。然後,您可以在發票上執行不同的分析方法,以獲得財務洞察,或對客戶協議執行不同的分析方法以獲得客戶洞察。
PII 編輯
PII 編輯會自動偵測並移除文件中的個人身分識別資訊 (PII),如姓名、地址或帳戶號碼。PII 編輯有助於保護隱私權並遵守當地的法律法規。
例如,您可以分析支援工單和知識文章,以偵測並編輯 PII,然後再在搜尋解決方案中為文件編制索引。之後,搜尋解決方案不再包含文件中的 PII。
文字分析包含哪些階段?
若要實作文字分析,您需要遵循經過四個階段的系統程序。
第 1 階段 – 資料收集
在此階段,您從內部或外部來源收集文字資料。
內部資料
內部資料是企業內部的文字內容,並且隨時可用,例如電子郵件、聊天記錄、發票和員工調查。
外部資料
您可以在社交媒體張貼、線上評論、新聞文章和線上論壇等來源尋找外部資料。獲取外部資料更加困難,因為它超出您的控制範圍。您可能需要使用 Web 抓取工具,或與第三方解決方案整合來擷取外部資料。
第 2 階段 – 資料準備
資料準備是文字分析的重要組成部分。它涉及以可接受的格式建構原始文字資料以進行分析。文字分析軟體會自動化該程序,並涉及以下常見的自然語言處理 (NLP) 方法。
字符化
字符化將原始文字分隔成多個具有語義的部分。例如,片語 text analytics (文字分析) benefits business (惠及企業) 標記為字詞 text (文字)、analytics (分析)、benefits (惠及) 和 businesses (企業)。
詞性標記
詞性標記將語法標記指派給字符化文字。例如,將此步驟套用至之前提及的字符,會產生文字:名詞;分析:名詞;惠及:動詞;企業:名詞。
解析
解析在字符化字詞與英文語法之間建立了有意義的聯繫。它可協助文字分析軟體視覺化字詞之間的關係。
詞形還原
詞形還原是一種語言程序,可將字詞簡化為字典形式或引理。例如,visualizing 的字典形式是 visualize。
停用詞移除
停用詞是為句子提供很少或沒有語義關聯內容的詞,例如 and、or 和 for。根據使用案例,軟體可能會將其從結構化文字中移除。
第 3 階段 – 文字分析
文字分析是該程序的核心部分,其中文字分析軟體使用不同的方法對文字進行處理。
文字分類
分類是根據規則或以機器學習為基礎的系統,為文字資料指派標籤的程序。
文字擷取
擷取涉及識別文字中特定關鍵字的出現,並將其與標籤關聯。該軟體使用正則表達式和條件隨機欄位 (CRF) 等方法,來執行此操作。
第 4 階段 – 視覺化
視覺化是指將文字分析結果轉換為易於理解的格式。您將在圖形、圖表和表格中找到文字分析結果。視覺化結果可協助您識別模式和趨勢,並建置行動計畫。例如,假設您的產品退貨量激增,但您很難找出原因。透過視覺化,您可以在意見回饋中尋找 defects (缺陷)、wrong size (錯誤尺寸) 或 not a good fit (不合適) 之類的詞,並將其製成圖表。然後,您就會知道哪個是優先考慮的主要問題。
什麼是文字分析?
文字分析是指您可以透過分析多個文字範例中的模式所獲得的定量資料。它以圖表、表格或圖形的形式呈現。
文字分析與文字分析結果
文字分析結果可協助您透過分析數千條意見回饋的結果,確定是否存在特定趨勢或模式。同時,您可以使用文字分析結果,來確定客戶的意見回饋是正面的還是負面。
什麼是文字挖掘?
文字挖掘是指透過分析非結構化文字取得定性洞察的程序。
文字分析與文字挖掘
文字分析與文字挖掘沒有區別。這兩個術語都是指從電子郵件、問卷調查回覆和社交媒體摘要等來源,獲得有價值洞察的相同程序。
Amazon Comprehend 如何提供協助?
Amazon Comprehend 是一項自然語言處理服務,使用機器學習來發現文字中的有價值洞察和連線。使用該服務,您可以透過自動分類和從中擷取資訊,以簡化文件處理工作流程。例如,您可以使用 Amazon Comprehend 執行以下任務:
- 對客戶支援工單、產品評論、社交媒體源等執行情緒分析。
- 將 Amazon Comprehend 與 Amazon Lex 整合,以開發智慧的對話式聊天 chatbot。
- 從文件中擷取醫學術語,並使用 Amazon Comprehend Medical 識別它們之間的關係。
立即建立 AWS 帳戶以開始使用。