跳至主要內容

什麼是文字轉語音軟體?

從大聲朗讀網頁到請求使用者資料,語音正迅速成為現代使用者介面的標準。客戶越來越期望他們互動的每個應用程式都具備語音功能。除此之外,醫療保健、銷售、內容創作、客戶服務和其他應用領域中的文字轉語音使用案例可以加速自動化,同時增強客戶體驗。本指南探討文字轉語音的功能和能力以及如何開始使用它們。

文字轉語音或文字轉聲音 (TTS) 軟體透過從文字合成語音來產生音訊「語音」。該軟體由經過大量人類語音記錄訓練的文字轉語音引擎提供支援。它透過分析語音資料中的聲音波形將書面字詞轉換為口頭形式。

生硬、機械的聲音是過時語音技術的產物。以生成式 AI 為基礎的現代文字轉語音引擎產生的輸出幾乎與人類語音難以區分。產生的語音可以包括自然的停頓、各種重音、不同的速度和反映人類情感的語調。

文字轉語音軟體的類型

您選擇的 TTS 工具類型取決於您的使用案例。對於開發人員來說,一體化、可自訂、整合的套件是多應用程式、多環境開發的最佳選擇。

開發人員可以選擇具有自主管理部署的開放原始碼和商業 TTS 軟體,或完全整合的受管雲端服務,例如 Amazon Polly。它可讓現有應用程式將語音作為首要的功能進行整合,以便您開發具備語音功能的全新類別產品,範圍從行動應用程式和汽車到裝置和家用電器。

Amazon Polly 配備四種基於不同 AI 模型架構的語音引擎,適用於各種使用案例。若要使用 Amazon Polly 語音,僅需透過程式碼中的 API 選取引擎、語音合成操作和輸出檔案格式。然後,提供輸入文字供引擎合成。Amazon Polly 將以您請求的格式產生語音輸出檔案。這些引擎也可以針對特定語音或品牌要求進行進一步訓練。

可在文字轉語音軟體中尋找哪些功能?

Amazon Polly 包含現代語音開發所必需的以下文字轉語音功能。

語音範圍

能夠選取不同語言、區域、性別和區域內的語音,可為開發提供更全面的產品套件。Amazon Polly 支援數十種語言,以及男性與女性格式的國家/地區式變化和口音。

API 式整合

檢查您的 TTS 軟體是否具有功能齊備的 API 并支援多種程式設計語言,以實現跨專案的最廣泛整合。Amazon Polly 提供 Amazon Polly API 和各種特定語言的 SDK。也可以從 AWS 管理主控台與 AWS 命令列介面 (CLI) 存取該服務。無論使用方式如何,您都可以完全控制 Amazon Polly 的所有功能。

精確的語音控制

語音合成標記語言 (SSML) 是一種以 XML 為基礎的標記語言,可讓您提供有關語音發音的更多資訊。例如,您可以包括停頓、解譯 (如日期、首字母縮略字)、音調、速率、音量、強調、淡入和其他音訊元素來自訂產生的語音。SSML 可讓您完全控制語音輸出,以及將自訂內容移植到其他系統。 

Amazon Polly 同時支援常見和自訂的 Amazon SSML 標籤,例如讓語音聽起來像新聞播音員聲音的功能。這種靈活性可協助您製作逼真的語音,吸引並留住聽眾的注意力。

用於同步動畫的中繼資料勾點

某些應用程式 (例如遊戲和媒體) 需要角色跟隨音訊的動畫,包括嘴部動作或卡拉 OK 風格的字詞跟隨。多語言培訓視訊也將受益於多種語言的同步時間,因此所有語言的音訊都會與視訊同時對齊。

對於此類型的應用程式,開發人員需要中繼資料來以時間戳記格式標記在給定時間發生的語音元素。Amazon Polly 可讓您與語音檔案一起請求此類附加中繼資料或語音標記。語音索引標籤提供音訊檔案時間戳記、發音嘴型 (說話時臉部和嘴部的位置) 等資訊,以及將書面文字與語音輸出連結的其他詳細資訊。

自訂

您希望文字轉語音軟體完全可自訂,以實現最大程度的靈活性。例如,音訊輸出應該可以針對不同的格式和組態進行自訂,包括檔案類型 (例如)、檔案大小和資料品質。該軟體應能夠處理在其訓練資料之外的自訂詞彙。

Amazon Polly 支援每個階段的文字轉語音自訂。

詞彙

您可以建立自訂字典,為公司名稱、首字母縮略字、外文字詞和新詞提供個人化發音。您可以請求多種語音格式的輸出,例如 MP3 和 WAV。

輸出格式

Amazon Polly 還支援長語音音訊,例如以自然的聲音朗讀文件。您可以在即時使用案例中為低頻寬或低延遲連線產生連續音訊串流。

語音

我們還提供 Brand Voice,這是一種自訂參與,其中您將與 Amazon Polly 團隊共同建置您組織專用的語音。不是像其他應用程式一樣發音,您可以建立獨特的語音式品牌標記,幫助您脫穎而出。

如何開始使用文字轉語音軟體?

可輕鬆開始使用 AWS 文字轉語音軟體。在本指南中,我們將在主控台中快速示範 Amazon Polly 的操作方法。

首先,登入 AWS 管理主控台,然後開啟 Amazon Polly 主控台。按一下「試用 Polly」開始使用。這將顯示「文字轉語音」對話方塊。

步驟 1 — 選擇引擎

在「文字轉語音」對話方塊中,您可以選取要使用的語音引擎。Amazon Polly 目前提供四個不同的語音引擎供您選擇。

  • 標準引擎將連接合成方法用作語音產生器。
  • 神經引擎使用神經網路和聲碼器方法來產生更自然發音的語音。
  • 生成式引擎使用經過大量語音資料訓練的十億參數量模型,以實現更加自然的語音。
  • 長語音引擎是另一種生成式 AI 文字轉語音引擎,專為長時間的敘事風格語音而開發。

并非所有引擎均在所有 AWS 區域中提供。

步驟 2 — 選擇語言

選取語音引擎後,從下拉式功能表中選擇要產生的語言以及男性或女性語音。

每個語音引擎都支援不同範圍的語言和 AI 語音。例如,如果您針對「引擎」選取「神經」,則僅有支援神經文字轉語音 (NTTS) 的語言和語音可用,且所有標準和長語音都會停用。

步驟 3 — 將文字轉換為語音

在「輸入文字」方塊中,將預設文字變更為自己的書面文字輸入。您可以選擇「收聽」按鈕來收聽大聲朗讀的輸出,選擇「下載」按鈕來下載 MP3 檔案,或者選擇「儲存到 S3」按鈕將朗讀的字詞儲存到 Amazon Simple Storage Service

透過 API 存取 Amazon Polly

您可以透過主控台存取 Amazon Polly (如上所述),或透過其應用程式碼中的 API 存取 Amazon Polly。Amazon Polly API 可讓您完成許多任務,從即時翻譯到產生字幕,以及使視訊遊戲或其他動畫角色栩栩如生。嘗試 GitHub 上的一些範例,以取得如何在程式碼中使用 Amazon Polly API 的範例。

AWS 如何支援您的文字轉語音軟體需求?

文字轉語音功能可讓您透過文字而不是人類語音建立語音式音訊。該功能最初用作視覺障礙人士的輔助技術,但目前已成為許多應用程式和客戶互動的必需工具,適用範圍從瀏覽器擴展到呼叫中心和企業應用程式。使用 Amazon Polly 之類的受管服務,開發人員可以透過文字轉語音 API 呼叫輕鬆地將現代、逼真的語音引擎整合到應用程式中。Amazon Polly 的定價基於引擎和處理的字元數,並包含個人使用的免費方案。

Amazon Polly 的口語音訊僅是您可以在應用程式開發中利用的生成式 AI 服務之一。查看 AWS 上的各種 AI 解決方案,以協助您更快速、更強有力地建置和擴展應用程式。