文字分類是什麼?

文字分類是一種過程,其中使用人工智慧和機器學習 (AI/ML) 系統將預先定義的類別指派給開放式文字文件。許多組織擁有大型文件存檔和業務工作流程,會持續大規模地產生文件,例如法律文件、合約、研究文件、使用者產生的資料和電子郵件。文字分類是將這些資料進行組織、結構化及分類,以進一步分析的第一步。其允許自動為文件加上標籤和標記。這樣可為您的組織節省數千個小時,否則需要手動閱讀、理解與分類文件。

文字分類有什麼好處?

基於下列原因,組織會使用文字分類模型。

提高準確率

文字分類模型可準確地分類文字,幾乎不需額外的訓練。該模型會協助組織克服真人手動分類文字資料時可能會發生的錯誤。此外,文字分類系統在不同主題之間為文字資料指派標記時,比真人更一致。 

提供即時分析

組織在即時處理文字資料時,面臨時間壓力。使用文字分類演算法時,您可以從原始資料擷取可行的洞察,並制定立即回應。例如,組織可以使用文字分類系統來分析客戶意見回饋,並立即回應緊急要求。

擴展文字分類任務

組織之前依賴手動或規則型系統來分類文件。這些方法很慢,並且消耗大量的資源。使用機器學習文字分類時,您可以更有效地擴展跨部門的文件分類工作,以支援組織成長。

翻譯語言

組織可以使用文字分類器進行語言偵測。文字分類模型可以偵測對話或服務要求中的來源語言,並將其引導至相應的團隊。

文字分類的使用案例是什麼?

組織使用文字分類來提高客戶滿意度、員工生產力及業務成果。 

情緒分析

文字分類允許組織擷取指出客戶情緒的特定單字,藉此在多個管道上有效地管理其品牌。使用文字分類進行情緒分析,也可讓行銷團隊使用定性資料準確地預測採購趨勢。

例如,您可以使用文字分類工具分析社交媒體貼文、問卷調查、聊天對話或其他文字資源中的客戶行為,並相應地規劃行銷活動。

內容審核

企業透過社群團體、社交媒體和論壇來增加受眾。當依靠真人仲裁者時,規範使用者討論是一項挑戰。使用文字分類模型時,您可以自動偵測可能違反社群指南的單字、片語或內容。這讓您可以立即採取行動,並確保對話是在安全且受良好監管的環境中進行。 

文件管理

許多組織在處理和分類文件以支援業務營運方面遇到挑戰。文字分類器可以偵測缺失的資訊,擷取特定的關鍵字,並找出語義關係。您可以使用文字分類系統將如訊息、評論與合約等文件加上標記,並分類到各自的類別中。 

客戶支援

客戶在向支援團隊尋求協助時,期望能有及時且準確的回應。機器學習技術支援的文字分類器可讓客戶支援團隊將傳入要求按規定的途徑傳給適當的人員。例如,文字分類器在支援票證中偵測到換貨一字,並將要求傳送給保固部門。

文字分類的方法是什麼?

文字分類在作為自然語言處理的一分子方面已經有巨大的發展。我們分享機器學習工程師用來分類文字資料的幾種方法。 

自然語言推論

自然語言推論將假設與前提標記為蘊含矛盾中立,來判斷兩者之間的關係。「蘊含」描述前提和假設之間的邏輯關係,而「矛盾」則顯示文字實體之間的斷開。當找不到蘊含與矛盾時,則會套用中立。 

例如,考慮以下前提:

我們的球隊是足球錦標賽的冠軍。

以下是自然語言推論分類器會如何標記不同的假設。

  • 蘊含:我們的球隊喜歡運動。
  • 矛盾:我們是不運動的人。
  • 中立:我們成為了足球冠軍。

概率語言建模

概率語言建模是一種統計方法,當給予一系列單字時,語言模型會使用此方法預測下一個單字。模型使用此方法為每個單字指派一個概率值,然後計算後續單字的可能性。當套用到文字分類時,概率語言建模會根據在文字中找到的特定片語來分類文件。 

單字嵌入

單字嵌入是一種技術,將數值表示套用在捕捉其語義關係的單字上。單字嵌入是單字的數值等效項。機器學習演算法無法有效地以文字的原始格式分析文字。透過單字嵌入,語言建模演算法可以透過嵌入不同的文字來進行比較。

若要使用單字嵌入,您必須訓練自然語言處理 (NLP) 模型。訓練期間,模型會指派具有數值表示的相關單字,這些表示在稱為向量語義的多維空間中位置靠近。 

例如,在向量化具有嵌入的文字時,您會發現在二維向量空間中彼此比蕃茄岩石靠得更近。您可以使用向量語義來識別不熟悉資料中類似的文字,並預測後續片語。這種方法對情緒分類、文件組織和其他文字分類工作很有幫助。 

大型語言模型

大型語言模型 (Large language models,LLM) 是對大量文字資料進行訓練的深度學習演算法。此模型以轉換器架構為基礎,該架構是一個具有多個隱藏圖層的神經網路,這些圖層能夠並行處理文字資料。大型語言模型比簡單的模型更強大,在包括文字分類等各種自然語言處理任務中表現出色。

與其過往同類模型不同,大型語言模型無需事先訓練即可分類文字。其使用零樣本分類,這種方法可讓模型將未顯示的文字資料分類為預先定義的類別。例如,您可以在 Amazon Sagemaker Jumpstart 上部署零樣本文字分類模型,將新年願望貼文分類到職業、健康、財務和其他類別中。 

如何評估文字分類效能?

在為商業應用程式部署文字分類器之前,您必須先評估分類器,以確保其不會發生擬合不足的狀況。擬合不足是一種機器學習演算法在訓練中表現良好,但無法準確分類真實世界資料的現象。為了評估文字分類模型,我們使用交叉驗證法。 

交叉驗證

交叉驗證是一種模型評估技術,可將訓練數據分割為較小的群組。然後將每組分成數個樣本,以訓練與驗證模型。模型首先使用分配的樣本進行訓練,然後使用剩餘的樣本測試。接著,我們將模型的結果與人類註釋的結果進行比較。 

評估條件

我們可以根據數個條件來評估文字分類模型。

  • 準確率描述文字分類器與總預測數相比,所做出正確預測的數量。 
  • 精確率反映模型能夠一致地正確預測特定類別的能力。文字分類器產生的誤報數愈少則愈精確。 
  • 召回率會測量與所有正預測相比,模型成功預測正確類別的一致性。 
  • F1 分數會計算精確率和召回率的調和平均數,以提供對模型準確率的平衡概述。 

您如何實作文字分類?

您可以依照下列步驟來建立、訓練和部署文字分類模型。

策劃訓練資料集

在訓練或微調語言模型以進行文字分類時,準備高品質的資料集是非常重要的。多樣化且標記的資料集可讓模型學習有如何效地識別特定詞彙,片語或模式,以及其各自的類別。

準備資料集

機器學習模型無法從原始資料集中學習。因此,您必須使用如記號化等預先處理方法來清理和準備資料集。記號化會將每個單字或句子分成更小的部分,這些部分稱為字符。

記號化後,您應該移除訓練資料集中多餘、重複和異常的資料,因為這可能會影響模型效能。然後,您將資料集分成訓練和驗證資料。

訓練文字分類模型

使用準備好的資料集選擇與訓練語言模型。訓練期間,模型會從加上註釋的資料集中學習,並嘗試將文字分類為其各自的類別。當模型一致收歛到相同的結果時,訓練便完成。

評估和最佳化

使用測試資料集評估模型。將模型的精確率、準確率、召回率和 F1 分數與已建立的基準進行比較。訓練的模型可能需要進一步微調,以解決過度擬合和其他效能問題。將模型最佳化,直到有令人滿意的結果為止。 

文字分類面臨哪些挑戰?

組織可以使用商業或公開使用的文字分類資源,來實作文字分類器神經網路。但是,有限的資枓可能會使某些產業的資料集訓練策劃變得困難。例如,醫療保健公司可能需要幫助採購醫療資料集來訓練分類模型。 

訓練和微調機器學習模型成本高且耗時。此外,該模型可能過度擬合或擬合不足,導致在實際使用案例中的表現不一致。 

您可以使用開放原始碼機器學習程式庫建立文字分類器。但是,您需要專門的機器學習知識和多年的軟體開發經驗,才能將分類器進行訓練、撰寫程式並與企業應用程式整合。

AWS 如何協助滿足您的文字分類需求?

要求?

Amazon Comprehend 是一項自然語言處理 (NLP) 服務,使用機器學習來發現文字中的有價值洞察和連線。自訂分類 API 讓您可以使用業務特有的標籤來輕鬆建構自訂文字分類模型,無需學習 ML。

例如,您的客戶支援組織可以使用「自訂分類」並根據客戶描述問題的方式,依照問題類型自動針對傳入的請求進行分類。透過自訂模型,您可以輕鬆調整網站評論、分類客戶回饋並整理工作群文件。

Amazon SageMaker 是一項完全受管服務,可為任何使用案例準備資料,並建立、訓練和部署機器學習 (ML) 模型。其基礎架構、工具和工作流程均完全受管。

有了 Amazon SageMaker JumpStart,您可以存取預先訓練的模型和基礎模型 (FM),並使用您的資料根據您的使用案例進行自訂。SageMaker JumpStart 為許多常見的 ML 使用案例提供一鍵式端對端解決方案。您可以將其用於文字分類、文件摘要、手寫辨識、關係提取,問題與回答,以及填寫表格式記錄中缺少的值。

立即建立 AWS 帳戶,開始在 Amazon Web Services (AWS) 上使用文字分類。

AWS 上的後續步驟

查看其他產品相關資源
使用 AWS 生成式 AI 服務加速創新 
註冊免費帳戶

立即存取 AWS 免費方案。

註冊 
開始在主控台進行建置

開始在 AWS 管理主控台進行建置。

登入