Amazon Comprehend 是利用機器學習探索文字洞見的自然語言處理 (NLP) 服務。Amazon Comprehend 提供自訂實體辨識、自訂分類、關鍵片語擷取、情緒分析、實體辨識等 API,讓您可以輕鬆地將自然語言處理整合到應用程式中。您只需在應用程式中呼叫 Amazon Comprehend API,並提供來源文件或文字的位置即可。API 會以 JSON 格式輸出項目、關鍵片語、情緒和語言,讓您在應用程式中使用。
自訂實體辨識
自訂實體辨識可讓您自訂 Amazon Comprehend,以識別您網域的特定字詞。Comprehend 會使用 AutoML 從一小組範例中學習 (例如,保單號清單、理賠號或 SSN),然後訓練一個私有的自訂模型,以辨識 PDF、純文字或 Microsoft Word 文件內任何其他文字區塊中的理賠號之類的字詞 – 無需機器學習。 請參閱此文件頁面以取得詳細資訊。
-
範例:在此範例中,保險公司希望分析其業務特定實體的文字文件、保單號。
範例文字:嗨,我的名字是 Sam Ford,我要申請車禍理賠。您的政策代碼為 456-YQT。
實體 類別 計數 可信度 456-YQT Policy_ID 1 0.95
自訂分類
自訂分類 API 讓您可以使用業務特有的標籤來輕鬆建構自訂文字分類模型,無需學習 ML。例如,您的客戶支援組織可以使用「自訂分類」並根據客戶描述問題的方式,依照問題類型自動針對傳入的請求進行分類。 透過自訂模型,您可以輕鬆調整網站評論、分類客戶回饋並整理工作群文件。請參閱此文件頁面以取得詳細資訊。
-
範例:假設您想組織航空公司的客戶支援意見。您想將每個意見分成帳戶問題、機票退款和航班抱怨。為了訓練服務,您建立了一個 CSV 檔案,其中包含來自每個問題的範例文字,而且以適用的三個標籤之一來標記每個範例。服務將代表您自動訓練自訂模型。為了使用您的模型來分析隔日的所有來電,您將每個文字檔提交給服務,並接收經過標記的結果,還有每個標記項目的可信度。
文字 標籤 可信度分數 行 0 帳戶問題 0.92 行 1 機票退款 1 行 2 航班抱怨 1 行 3 航班抱怨 0.91 Doc5.csv 機票退款 1
實體辨識
實體辨識 API 傳回具名實體 ("People," "Places," "Locations," 等),這些會根據所提供的文字自動分類。 請參閱此文件頁面以取得詳細資訊。
-
範例:在這個範例中,我們來看看一家公司的描述。此 API 標識各類實體,如組織、日期、位置,并返回可信度分數。
範例文字:Amazon.com, Inc. 位於華盛頓州西雅圖,Jeff Bezos 於 1994 年 7 月 5 日成立,可讓客戶購買書籍到攪拌機等各式各樣的產品。西雅圖是在波特蘭北方,而在哥倫比亞省溫哥華南方。其他著名的西雅圖公司還有星巴克和波音。
實體 類別 可信度 Amazon.com, Inc.
組織 0.96 華盛頓州西雅圖 位置 0.96 1994 年 7 月 5 日 日期 0.99 Jeff Bezos 人 0.99 西雅圖
位置 0.98 波特蘭
位置 0.99 哥倫比亞省溫哥華 位置 0.97 星巴克
組織 0.91 波音
組織 0.99
情緒分析
情緒分析 API 可傳回文字的整體情緒 (正面、負面、中性或混合)。 請參閱此文件頁面以取得詳細資訊。
-
範例:在這個範例中,客戶張貼有關一雙鞋子的意見回饋。該 API 可識別客戶傳達的情緒並提供可信度分數。
範例文字:我訂購 S 號的鞋子並期待穿起來會剛剛好,但鞋子的大小比較偏中大號。鞋子的品質不錯。褐色比圖片要淺,但也很接近。如果內襯是棉質或羊毛,就再好不過了。
情緒 分數 混合 0.89 正面 0.09 負面 0.01 中性 0.00
Targeted Sentiment
Targeted Sentiment 透過識別文字中實體的情緒 (正面、負面、中性或混合) 來提供更精細的情緒洞察。請參閱此文件頁面以取得詳細資訊。
-
範例︰在此範例中,一間餐廳正在審查客戶評論,以了解他們可以在哪些方面改進業務。
樣本文字︰我喜歡漢堡,但服務很慢。
文字 實體類型 實體可信度分數 情緒 分數 I 人 0.99 中性 0.99 漢堡 其他 0.99 正面 0.99 服務 屬性 0.99 負面 0.99
PII 辨識和編輯
使用 Amazon Comprehend ML 功能偵測和編輯客戶電子郵件、支援工單、產品評論、社群媒體等中的個人身分識別資訊 (PII)。不需要 ML 經驗。例如,您可以分析支援工單和知識文章,以偵測 PII 實體並編輯文字,然後再在搜尋解決方案中為文件編制索引。之後,搜尋解決方案不再包含文件中的 PII 實體。編輯 PII 實體可協助您保護隱私權並遵守當地法律法規。 請參閱此文件頁面以取得詳細資訊。
-
範例:在此範例中,客戶想要編輯銀行對帳單中的個人和財務資料。PII 編輯 API 將辨識和編輯 PII 並給出可信度分數。
範例文字:您好,John Smith。 您的 AnyCompany Financial Services, LLC 信用卡帳戶 1111-0000-1111-0008 的最低付款額為 24.53 美元,到期日期為 7 月 31 日。根據您的自動付款設定,我們將在到期日從您路由號碼為 XXXXX0000 的銀行帳戶 XXXXXX1111 中提取您的付款。
實體
類型
分數
John Smith
姓名
0.99+
1111-0000-111-0008
貸方借方號碼
0.99+
7 月 31 日
日期時間
0.99+
XXXXXX111
銀行帳號
0.99+
XXXXX0000
銀行路由號碼
0.99+
毒害偵測
Comprehend 毒害偵測提供以 NLP 為基礎的簡單解決方案,用於在文字型文件中偵測毒害性內容。該功能現成可用,可在線上平台進行端對端對話和生成式 AI 輸入與輸出控制。請參閱此文件頁面以了解詳細資訊。
提示安全分類
Comprehend 提供一個預先訓練的二進而分類器,可將輸入提示分類為是否有害。這可進行整合,以允許 LLM 僅對無害的內容做出回應。請參閱此文件頁面以了解詳細資訊
關鍵片語擷取
關鍵片語擷取 API 會傳回關鍵片語或話題,以及支援該文字為關鍵片語的可信度分數。 請參閱此文件頁面以取得詳細資訊。
-
範例:在這個範例中,客戶比較 DSLR 相機和拍立得相機。此 API 擷取關鍵片語并返回關於結果的可信度分數。
範例文字:我是個衝勁十足的攝影師,主要使用我的 DSLR 拍照,而日常拍照也會使用我的拍立得相機。當然就功能和便利性來說,我的 DSLR 是無可比擬的。不過我的拍立得相機也有其神奇之處。可能是因為每次拍照用的是實際底片,又可能是每次拍照都是獨一無二的實體作品 (如此特殊的原因是照片在今日的 Instagram 和 Facebook 世界中根本不希罕)。我深知並確定的是這樣做樂趣無窮,在派對中抽出一張實體照片真的讓大家眼睛為之一亮。
關鍵片語 可信度 衝勁十足的攝影師 0.99
我的 DSLR 0.97 我的拍立得相機 0.99
日常拍照 0.99
功能和便利性 0.94 實際底片 0.99 每次拍照 0.92 獨一無二的實體作品 0.99
今日 0.91 世界 0.99
Instagram 和 Facebook 0.99
事件偵測
Comprehend Events 可讓您從文件中擷取事件結構,將文字頁面提取為易於處理的資料,供 AI 應用程式或圖形視覺化工具使用。此 API 可讓您在沒有 NLP 經驗的情況下,大規模地回答大型文件集中有關人物、時間、地點、事件的問題。使用 Comprehend Events 擷取非結構化文字中的真實世界事件和關聯實體的詳細資訊。 請參閱此文件頁面以取得詳細資訊。
語言偵測
語言偵測 API 可自動識別 100 多種語言編寫的文字,並傳回主要語言,以及支援該語言為主要語言的可信度分數。 請參閱此文件頁面以取得詳細資訊。
-
範例:在這個範例中,該 API 可剖析文字,並識別該文字的主要語言為義大利文,還提供了可信度分數。
範例文字:Amazon Elastic Compute Cloud (Amazon EC2) è un servizio Web che fornisce capacità di elaborazione sicura e scalabile nel cloud.È concepito per rendere più semplice il cloud computing su scala Web per gli sviluppatori.
ISO-639-1 語言代碼 語言 可信度 it 義大利文 1.0
語法分析
Amazon Comprehend 語法 API 讓客戶能夠使用字符化和詞性標記 (PoS) 來分析文字,並識別文字中的單詞邊界和標籤,例如名詞和形容詞。 請參閱此文件頁面以取得詳細資訊。
-
範例:在這個範例中,我們將使用 Comprehend 語法 API 來分析一個簡短的文件。這個語法 API 可將文字字符化 (定義單詞邊界),並用其相關的詞性標記每個單詞,例如名詞和動詞。除了注意開始和結束偏移 (讓您知道單詞在文字中的位置),我們還提供可信度分數。
範例文字:I love my fast, new Kindle Fire!
文字 標籤 I 代名詞 Love 動詞
My 代名詞 快速 形容詞 , 標點符號 全新 形容詞 Kindle 專有名詞 Fire
專有名詞 ! 標點符號
主題建模
主題建模可識別 Amazon S3 存放的文件集合中相關的詞彙或主題。該功能可識別集合中最常見的主題並分組,然後將文件對應到所屬的主題。 請參閱此文件頁面以取得詳細資訊。
-
範例:如果您的文件 (Doc1.txt、Doc2.txt、Doc3.txt 和 Doc4.txt) 存放在 Amazon S3 中,然後將 Amazon Comprehend 指向其所在位置,Comprehend 會分析文件並傳回兩個檢視。
1.將做為主題的關鍵字分組。
每組關鍵字與一個主題群組關聯。權重代表該關鍵字在群組內的普遍程度。權重最接近 1 的就是最能代表主題群組內容的關鍵字。主題群組 關鍵字 重量 1 Amazon 0.87 1 西雅圖 0.65 2 假日 0.78 2 採購 0.67 每組關鍵字與一個主題群組關聯。權重代表該關鍵字在群組內的普遍程度。權重最接近 1 的就是最能代表主題群組內容的關鍵字。2.依主題為文件分組。
文件名稱 主題群組 比例 Doc1.txt 1 0.87 Doc2.txt 1 0.65 Doc3.txt 2 0.78 Doc4.txt 2 0.67 每個文件會根據主題群組權重關鍵字在文件出現的比例對應到主題群組。
多種語言支援
Amazon Comprehend 可對德文、英文、西班牙文、意大利文
葡萄牙文、法文、日文、韓文、印地文、阿拉伯文、中文 (簡體)、中文 (繁體) 文字執行文字分析。若要建置其他語言的應用程式,客戶可以使用 Amazon Translate 將文字轉換為 Comprehend 支援的語言,然後使用 Comprehend 執行文字分析。如需有關語言支援的詳細資訊,請參閱文件頁面。