跳至主要內容

什麼是自然語言處理 (NLP)?

自然語言處理 (NLP) 是一種可讓電腦解釋、操縱及理解人類語言的技術。如今,組織擁有來自各種通訊管道的大量語音和文字資料,例如電子郵件、簡訊、社交媒體新聞摘要、影片、音訊等。要分析此資料以獲得切實可行的商業洞察,自然語言處理發揮著關鍵作用。組織能夠對語言資料進行分類、排序、篩選,以及了解其中隱藏的意圖或情緒。在採用 AI 技術的自動化方面,自然語言處理是一項重要功能,並且支援即時的人機通訊。

為什麼 NLP 很重要?

自然語言處理已融入幾乎所有與人際溝通相關的現代自動化工作流程。您與所有聊天機器人的互動,都採用了自然語言處理技術,大多數 AI 工具亦是如此。隨著全球非結構化文字與語音資料量不斷增長,自然語言處理技術能幫助企業將資訊交流轉化為競爭優勢。

歷史

自然語言處理技術起源於 20 世紀 50 年代,當時研究人員開始試驗機器翻譯技術。其中一個最早的里程碑是 1954 年喬治城大學與 IBM 公司合作進行的試驗,成功地將 60 句俄語句子自動翻譯成英語。

在 20 世紀 90 年代和 21 世紀初,自然語言處理技術開始流行,其應用包括垃圾郵件篩選、文件分類,以及簡單的聊天機器人等。不過,轉捩點出現在 21 世紀 10 年代,伴隨著深度學習模式的興起。其運用神經網路架構來分析資料序列,從而能夠分析更長的文字片段。組織可藉助自然語言處理,從電子郵件、客戶意見回饋、客戶支援資訊及社群媒體貼文等資料中挖掘有價值的資訊。

AI 中的自然語言處理

生成式 AI 技術在自然語言處理領域取得了重大突破。現在,軟體能夠實現更具創造性的回應,其功能已經超越簡單的文字處理,生成自然的語言文字。具備自然語言處理能力的 AI 代理程式可對會議內容進行總結,撰寫電子郵件,以及即時翻譯對話內容。

什麼是企業的 NLP 使用案例?

公司藉助自然語言處理來完成多項自動化任務,例如:

  • 處理、分析和封存大型文件。
  • 分析客戶意見回饋或呼叫中心記錄
  • 執行聊天機器人以實現自動化客戶服務
  • 回答誰-什麼-何時-在哪裡問題
  • 分類和擷取文字

企業使用自然語言處理 (NLP) 軟體和工具來高效且準確地簡化、自動化和精簡操作。下面列出了一些範例使用案例。

敏感資料編輯

保險、法律和醫療保健領域的企業會處理、分類和擷取大量敏感文件,例如醫療記錄、財務資料和私人資料。公司並非手動審查,而是使用 NLP 技術來修訂個人身分資訊並保護敏感資料。例如,Chisel AI 可協助保險業者使用 Amazon Comprehend,從非結構化文件中擷取保單編號、到期日期和其他個人客戶屬性。

客戶參與

NLP 技術讓聊天和語音機器人在與客戶交談時更像人類。企業使用聊天機器人來擴展客戶服務能力和品質,同時將營運成本降至最低。PubNub 可建置聊天機器人軟體,使用 Amazon Comprehend 為其全球客戶介紹當地語系化聊天功能。T-Mobile 使用 NLP 識別客戶簡訊中的特定關鍵字,並提供個人化建議。奧克拉荷馬州立大學部署答疑聊天機器人解決方案,使用機器學習技術來解決學生的問題。

商業分析

行銷人員使用 Amazon Comprehend 和 Amazon Lex 之類的 NLP 工具,來了解客戶對公司產品或服務的感受。透過掃描特定片語,他們可在書面意見回饋中衡量客戶的情緒和情感。例如,Success KPI 提供各種自然語言處理解決方案,協助企業專注於情緒分析中的目標領域,並協助聯絡中心從通話分析中獲得可行的洞察。

自然語言處理採用哪些方法?

我們在下面給出了一些常見的自然語言處理 (NLP) 方法。

受監督 NLP

受監督 NLP 方法使用一組標記或已知的輸入和輸出來訓練軟體。該程式首先會處理大量已知資料,並學習如何從任何未知輸入產生正確的輸出。例如,公司訓練 NLP 工具,根據特定標籤對文件進行分類。

無監督 NLP

無監督 NLP 使用統計語言模型,來預測非標記輸入饋送時發生的模式。例如,文字訊息中的自動完成功能會透過監控使用者的回應,來建議對句子有意義的相關字詞。 

自然語言理解

自然語言理解 (NLU) 是 NLP 的一個子集,專注於分析句子背後的含義。NLU 可讓軟體在不同的句子中尋找相似的含義,或處理具有不同含義的字詞。

自然語言產生

自然語言生成 (NLG) 專注於根據特定的關鍵字或主題,產生像人類一樣的對話文字。例如,具有 NLG 功能的智慧聊天機器人能夠以客戶支援人員類似的方式來與客戶交談。

什麼是 NLP 任務?

自然語言處理 (NLP) 技術或 NLP 任務,將人類文字或語音分解為電腦程式可輕鬆理解的較小部分。NLP 中常見的文字處理和分析功能如下。

詞性標記

這是 NLP 軟體根據上下文用法 (如名詞、動詞、形容詞或副詞),在句子中標記個別單字的程序。它可協助電腦理解單字如何形成彼此有意義的關係。

字義去除混淆

某些單字在不同場景中使用時可能具有不同的含義。例如,"bat" 這個單字在以下句子中表示不同的事物:

  • A bat is a nocturnal creature. (蝙蝠是夜行性生物。)
  • Baseball players use a bat to hit the ball. (棒球運動員使用球拍擊球。)

透過字義去除混淆,NLP 軟體可訓練其語言模型或引用字典定義,來識別單字的預期含義。

語音辨識

語音辨識可將語音資料轉換為文字。該程序涉及將單字分解為更小的部分,並理解重音、口音、語調和日常對話中的語法使用不當。語音辨識的關鍵應用程式是轉錄,這可使用語音轉換文字服務 (例如 Amazon Transcribe) 來完成。

機器翻譯

機器翻譯軟體使用自然語言處理功能,將文字或語音從一種語言轉換為另一種語言,同時保留情境的準確性。支援機器翻譯的 AWS 服務是 Amazon Translate

命名實體辨識

此程序可識別人員、地點、事件、公司等的唯一名稱。NLP 軟體使用命名實體辨識,來確定句子中不同實體之間的關係。

考慮以下範例:「Jane 前往法國度假,她喜歡吃當地美食。」

NLP 軟體將識別「Jane」和「法國」作為句子中的特殊實體。這可透過指代消解進一步識別,判斷是否使用不同的字詞來描述同一實體。在上面的範例中,「Jane」和「她」都指向同一個人。

情緒分析

情緒分析是一種以人工智慧為基礎的方法,用於解譯文字資料所傳達的情緒。NLP 軟體可分析文字中顯示不滿、幸福、懷疑、後悔和其他隱藏情緒的字詞或片語。

NLP 中運用了哪些技術?

自然語言處理 (NLP) 結合運算語言學、預測性人工智慧和深度學習,來處理人類語言。

運算語言學

運算語言學是透過電腦和軟體工具,來理解和建構人類語言模型的科學。研究人員使用運算語言學方法 (如語法和語義分析) 來建立架構,以協助機器理解對話的人類語言。語言翻譯器、文字轉換語音合成器和語音辨識軟體等工具,都以運算語言學為基礎。

預測性 AI

預測性 AI 亦稱為機器學習或深度學習,是一項可透過範例資料來訓練電腦執行特定任務的技術。該技術涉及由資料處理節點組成的神經網路,類似於人類大腦。透過深度學習,電腦可識別輸入資料中的複雜模式,對其進行分類並建立關聯性。

人類語言具有諷刺、隱喻、句子結構變化等多項特徵,以及需要人類多年學習的語法和用法例外狀況。程式設計人員使用預測性方法,教授 NLP 應用程式從一開始就識別並準確理解這些特徵。

處理資料序列的傳統神經網路使用編碼器/解碼器架構模式。編碼器讀取和處理整個輸入資料序列,例如英文句子,並將其轉換為緊湊的數學表示。此表示是一個摘要,擷取輸入的本質。解碼器隨後會採取此摘要,然後逐步生成輸出序列。這可能是另一種語言的相同句子,或者是體現句子意圖與情感的相關資訊。

生成式 AI

生成式 AI 技術運用轉換器,即納入自我關注機制的神經網路。該機制不是按順序處理資料,而是使模型能夠一次查看序列的不同部分,並決定哪些部分最重要。

由於採用自我專注機制,轉換器能夠從更大型的資料集中學習,以及處理大量的文字,其中遠距離的關聯內容也能影響後續文字的含義。

NLP 如何運作?

一般而言,NLP 實作會從雲端資料倉儲、調查、電子郵件或內部商業程序應用程式等來源,收集和準備非結構化文字或語音資料。

預先處理

NLP 軟體使用預先處理技術,如記號化、詞幹分析、詞形還原和停用字移除,以便為各種應用程式準備資料。

下面介紹這些技術:

  • 記號化將句子分解為個別單字或片語單位。
  • 詞幹分析和詞形還原可將單字簡化為其根形式。例如,這些程序會將 "starting" 轉變為 "start"。
  • 停用字移除可確保移除不會為句子新增重要意義的單字,如 "for" 和 "with"。

培訓

研究人員使用預先處理的資料和機器學習來訓練 NLP 模型,以便根據提供的文字資訊來執行特定應用程式。訓練 NLP 演算法需要為軟體提供大型資料範例,以提高此演算法的準確度。

部署與推論

AI 專家隨後會部署模型,或將其整合至現有的生產環境。NLP 模型會接收輸入,並預測模型設計的特定使用案例輸出。您可以在即時資料上執行 NLP 應用程式,以取得所需的輸出。

AWS 如何協助您處理 NLP 任務?

AWS 針對各專業層級客戶提供最廣泛、最完整的人工智慧服務組合。這些服務連線至一組全面的資料來源。

立即建立 AWS 帳戶,開始使用 NLP。