什麼是文字轉對話?
文字轉對話技術是使用電腦產生的語音將數位文字轉換為口語對話的軟體。組織希望將文字轉換為語音以用於各種使用案例,包括教育、客戶互動、輔助技術、數位虛擬人物、遊戲、自動化例行電話呼叫等。文字轉對話技術使用 AI,以您選擇的口音和方言將書面文字轉換為自然發音的語音。AI 語音產生器可以與客戶進行非常自然的語音對話,包括新增停頓、情緒和不同的口語速率。
文字轉對話有哪些優勢?
文字轉對話或文字轉語音功能可讓組織使用高品質語音來講述文字內容,從而與受眾互動。下面,我們分享該技術為企業提供的主要優勢。
改善可存取性
公司可以在生產內容時運用文字轉語音技術來提升包容性,尤其是對視力障礙人士而言。文字轉對話軟體將內容轉換為音訊檔案,閱讀困難的人員可以收聽此內容。
個人化參與
藉助文字轉語音軟體,組織可以根據聽眾喜歡聆聽的聲音、語音和風格來個人化音訊內容。公司可以用自訂品牌語音的聲音傳達訊息,以給聽眾留下深刻的印象。
支援學習活動
文字轉對話功能可讓組織探索支援電子學習計劃的新方式。透過將書面內容轉換為可聽的形式,學習者可深入參與,從而更有效地學習。
增加受眾涵蓋範圍
有些客戶在線上存取內容時需要更多替代方案。 文字轉語音 (TTS) 可讓組織向喜歡播客或視訊而非部落格和文件的人員提供適當的內容。
提供替代學習方法
組織可以藉助文字轉語音培訓助理更全面地支援員工的成長。員工不需要閱讀文字頁面,而是可以隨時隨地收聽內容,並且更有效地利用其時間。
文字轉對話技術如何發展?
Stephen Hawking 在接受氣管切開術後失去說話能力,文字轉對話技術成為協助他進行口頭交流的一種手段。第一個文字轉對話系統由 Dennis Klatt 發明,此系統為該領域的後續創新奠定了基礎。
我們在此分享幾十年來幾種文字轉對話技術的發展歷程。
共振峰合成
共振峰合成是一種透過建模聲道來模仿人類聲音的音訊技術。它是支援文字轉對話系統的早期技術之一。
連接合成
連接合成透過組合多個微小的聲音記錄區塊來建立語音。這是一種可提供標準結果的機器學習式文字轉對話開發,但現如今已被深度學習和 AI 取代。
深度學習式語音合成
深度學習是一種人工智慧方法,它指導電腦以受人腦啟發的方式做出決策。透過從精選的音訊資料中學習,該方法可讓科學家建立更自然說話的語音合成。
生成式語音產生器
生成式語音產生器使用生成式 AI 來學習、改進和產生逼真的語音。類似於深度學習,以大量音訊資料訓練生成式 AI。與先前的語音合成方法相比,生成式語音產生器可產生具有方言、聲調等不同細微差別的語音音訊。例如,Amazon Alexa 由生成式 AI 提供支援,可以實現更智慧、個人化和更加類似人類交流的對話。
文字轉對話如何運作?
文字轉對話軟體會解釋它接收的文字,並將其轉換為人們可以收聽的音訊。但是,音訊的對話品質取決於基礎的語音產生技術。文字轉語音技術有四種主要類型。
標準引擎
標準引擎使用連接合成來建立自然語音。它將資料庫中所儲存錄音的各個部分組合起來,形成完整的口語字詞。雖然產生的音訊清晰且精確,但聽起來更像是機器的聲音,而不是自然的聲音。標準引擎通常用於 IVR 呼叫選單中,其中錄製的語音要求使用者在將呼叫轉接到正確的部門之前輸入選項。
神經引擎
類似於標準引擎,神經引擎使用音訊區塊作為語音合成的基礎。但是,它不會將這些區塊連結在一起。相反,該引擎透過考慮不同音訊區塊組合在一起時的聲音來建立連續的音訊波形。這就使神經引擎能夠產生自然聲音的語音。
長語音引擎
在深度學習技術的支援下,長語音引擎可以藉助情感自我調整的聲音朗讀文章、書籍、報紙和其他內容。透過廣泛的學習,該引擎會產生類似人們大聲朗讀的音訊。當引擎接收文字時,它會解釋其中含義並選擇適當的聲調、暫停和重音。這就使得文字轉語音的 AI 軟體能夠投射人類情感。
生成式引擎
生成式引擎使用進階的 AI 演算法來產生類似人類的語音。機器學習工程師使用多種語言、語音和風格的音訊資料來訓練生成式引擎。為產生語音,AI 軟體將書面文字轉換為語音程式碼,並將其轉換為高品質的連續音訊波形。生成式引擎可以即時觀察和從數位互動中學習,從而使其產生的聲音聽起來像人類一樣,充滿情感、自信且高度口語化。
選擇文字轉對話技術時有哪些重要考量?
您可以在線上找到許多付費和免費的文字轉語音平台。但是,並非所有平台都旨在支援靈活的用量、自訂和其他業務需求。下面我們分享選擇 TTS 解決方案時需要考量的要點。
語音和語言選項
有些組織為不同區域的客戶提供服務。因此,他們需要能夠以當地語言、方言和聲音建立語音的文字轉語音軟體。
語音標記
語音標記是所產生音訊中的特殊指示符,可突出顯示口語片語的開始和結束。如果您想將音訊與視覺效果 (例如 AI 虛擬人物) 配對,語音標記就會很有幫助。它可讓虛擬人物的面部運動與合成語音同步。
語音組態選項
在處理商業專案時,您應該嘗試各種語音變化,直至找到合適的語音。某些語音產生器提供選項,可讓開發人員調整合成語音的聲音效果,包括:
- 說話風格
- 語音速率
- 音高
- 音量
- 語音持續時間
透過 API 進行語音合成
應用程式介面 (API) 可讓軟體開發人員輕鬆引入文字轉語音功能。他們無需從頭開始建置語音合成器,而是使用 API 將文字傳遞給引擎並接收產生的語音。
自訂詞彙
有時,文字轉對話軟體可能無法正確識別或解釋某些字詞。這些字詞通常具有非標準的拼寫/發音,或是在特定產業中使用的特殊術語。例如,在電子情境中使用時,接收器會指向偵測傳入訊號的硬體。透過選擇支援自訂詞彙的文字轉對話功能,您可以包含這些術語,以使軟體可以更流利地與使用者通訊。
專有自訂
在某些使用案例中,公司希望在產生的音訊中反映自己偏好的語音風格。為此,您需要根據特定要求量身打造文字轉對話軟體,包括品牌獨有的音調、細微差異和風格。
AWS 如何支援您的文字轉對話要求?
Amazon Polly 可讓您建立文字轉語音應用程式,以吸引不同區域和語言的客戶。藉助標準、長語音、生成式 AI 和神經引擎,您可以根據需要將任何文件類型轉換為語音。
您可以使用 Amazon Polly
- 從數十種跨語言、方言和性別的現成語音中進行選擇。
- 包括或修改稀有詞彙,例如公司名稱、外語片語或產業術語。
- 以各種抽樣頻率和格式即時串流產生的音訊。
公司使用 Amazon Polly 為其應用程式增添自然聲音的語音,而無需投資昂貴的技術。
立即建立免費的 AWS 帳戶,開始使用文字轉對話功能。