Amazon Polly 功能
簡單易用的 API
Amazon Polly 提供 API,讓您可迅速將語音合成與您的應用程式整合。您只要將想要轉換為語音的文字傳送至 Amazon Polly API,Amazon Polly 就會立即將音訊串流傳回您的應用程式,應用程式便可開始直接串流,或是以標準音訊檔案格式存放,例如 MP3。
抽樣頻率 | 範本程式碼 |
"Hi.My name is Joanna." | from boto3 import client polly = client("polly", region_name="us-east-1") response = polly.synthesize_speech( Text="Hi.My name is Joanna.", OutputFormat="mp3", VoiceId="Joanna") |
眾多語音與語言選擇
Amazon Polly 包含了數十種逼真的語音且支援多種語言,因此您可以選取適當的語音,然後在多個國家/地區分發啟用語音功能的應用程式。除了標準和神經網路文本轉換語音 (NTTS) 語音之外,Amazon Polly 現在還提供長語音和生成式語音,可改善語音品質以提供更自然且類似人類的聲音。
Danielle、Gregory 和 Ruth 是美國英語語音,有長語音和神經網絡版本提供。生成式語音變體中還提供 Ruth、Matthew 和 Amy。
同步語音以增強視覺體驗
使用 Amazon Polly 可輕鬆請求額外的中繼資料串流,其中包含何時唸出特定句子、字詞和聲音的資訊。使用此中繼資料串流搭配合成語音音訊串流,您現在可以建立擁有增強視覺體驗的應用程式,例如語音同步臉部動畫或卡拉 OK 式字詞反白顯示。
請瀏覽文件以進一步了解如何使用語音標記。
優化您的串流音訊
使用 Amazon Polly,您可以透過應用程式以近乎即時的速度將各種資訊串流給使用者。您有多種抽樣頻率可選擇,讓您針對應用程式優化頻寬與音訊品質。Amazon Polly 支援 MP3、Vorbis 和原始 PCM 音訊串流格式。
抽樣頻率 | MP3 大小 | OGG 大小 |
PCM 大小 |
24.00 kHz 聆聽 | 19.31 kB | 18.11 kB | 無 |
22.05 kHz 聆聽 |
19.33 kB | 17.62 kB | 無 |
16.05 kHz 聆聽 | 16.22 kB | 15.48 kB | 100.68 kB |
8.00 kHz 聆聽 | 13.26 kB | 9.72 kB | 50.34 kB |
調整說話風格、語音速率、音調和音量
Amazon Polly 支援語音合成標記語言 (SSML),這是一種適用於語音合成應用程式的 XML 型標記語言,採用 W3C 標準,且支援語調、重音與音調的常見 SSML 標籤。自訂 Amazon SSML 標籤以提供獨特的選項,例如讓某些聲音以新聞播報員播報風格說話的能力。這些調整彈性可讓您製作逼真的語音,持續引起聽眾的注意力。
要進一步了解,請瀏覽有關 SSML 標籤的 Amazon Polly 文件。
範例 | SSML |
This is how I speak normally. | (無) |
I can also speak in a Newscaster style, as if I were reading a news article or delivering a flash briefing. | <speak><amazon:domain name="news">I can also speak in a Newscaster style, as if I were reading a news article or delivering a flash briefing.</amazon:domain></speak> |
I can speak in a higher pitched voice, or I can speak in a lower pitched voice. | <speak>I can speak in a <prosody pitch="high">higher pitched voice</prosody>, or I can speak <prosody pitch="low">in a lower pitched voice</prosody></speak> |
I can speak really slowly, or I can speak really fast. | <speak>I can speak <prosody rate="x-slow">really slowly</prosody>, or I can speak <prosody rate="x-fast">really fast</prosody></speak> |
I can also speak very loudly, or I can speak very quietly. | <speak>I can also speak <prosody volume="x-loud">very loudly</prosody>, or I can speak <prosody volume="x-soft">very quietly</prosody>. </speak> |
I can whisper. | <speak>I have a secret to tell you, I will whisper it to you.<amazon:effect name="whispered">'<prosody rate="x-slow"> <prosody volume="loud">I am not human.</prosody></prosody></amazon:effect>Can you believe it?</speak> |
新聞播報員播報風格
Amazon Polly 可以用來合成語音,讓說話風格類似電視或電台新聞播報員。這會是朗讀新聞文章或進行新聞簡報的絕佳方式。新聞播報員風格使用神經文字轉換語音方式,目前提供美國英文 (en-US) Matthew 和 Joanna 的聲音、英國英文 (en-GB) Amy 的聲音和美國西班牙文 (es-US) Lupe 的聲音。聆聽美國英文、英國英文或美國西班牙文的音訊範本。
調整語音的最長持續時間
Amazon Polly 可以讓您根據「時間驅動韻律」功能所定義的最大分配時間來自動調整語音速度。這對許多使用案例都有好處,特別是在本地化方面。
例如,假設您在訓練影片中嵌入美式英文發音,然後希望將這段影片本地化為德文。假設您使用 Amazon Translate 翻譯文字,並用 Polly 進行配音。串流時讓本地化德文配音對應到影片的每個畫面非常重要,因此德文配音不能比美式英文配音還長。您可以使用這個功能,更輕鬆地完成配音過程。
平台與程式語言支援
Amazon Polly 支援 AWS 開發套件 (Java、Node.js、.NET、PHP、Python、Ruby、Go 和 C++) 與 AWS Mobile SDK (iOS/Android) 中的所有程式設計語言。此外,Polly 也支援 HTTP API,方便您自行實作存取層。
透過 API、主控台或命令列存取的語音合成
Amazon Polly 可以透過 Polly API (和各種語言特定的開發套件)、AWS 管理主控台及 AWS 命令列界面 (CLI) 來存取。無論透過主控台、API 或 CLI 使用服務,您都可以完整控制 Amazon Polly 的所有功能。
自訂語彙
透過 Amazon Polly 的自訂語彙或字彙,您可以修改特定字詞的發音,例如公司名稱、縮寫、外文字詞與新詞 (例如,以法文以外的語音說出 "ROTFL"、"C'est la vie")。若要自訂這些發音,您可以上傳含有語彙項目的 XML 檔案。舉例來說,使用以下 XML 檔案提供音素即可自訂 Nguyen 的發音:
<lexeme>
<grapheme>Nguyen</grapheme>
<grapheme>nguyen</grapheme>
<grapheme>NGUYEN</grapheme>
<phoneme>"nu.jEn'</phoneme>
</lexeme>
Brand Voice
Brand Voice 是一種自訂參與,您將與 Amazon Polly 團隊共同建立您組織專用的神經文字轉換語音 (NTTS)。Brand Voice 可讓您在廣泛的使用案例中,透過獨特的語音識別區分您的產品和應用程式,包括 Amazon Connect 和 Alexa Skills 整合。我們將在整個過程中,與您共同識別角色,識別男演員或女演員,記錄其語音,最終建立和培訓模型來產生語音。然後,語音可共您的 AWS 帳戶 ID 使用。
聆聽澳洲國民銀行品牌語音 »
如果您對使用 Polly 建置 Brand Voice 感興趣,請洽詢您的 AWS 客戶經理或聯絡我們了解更多資訊。
聯絡中心整合
Amazon Polly 與 AWS 以雲端為基礎的聯絡中心解決方案 Amazon Connect 原生整合,您可以用於設定和管理客戶聯絡中心,並以任何規模提供可靠的客戶參與。若要進一步了解向對話互動式語音回應系統新增 文字轉換語音提示的相關資訊,請參閱如何在 Amazon Connect 中使用 Polly 語音。
Genesys Cloud CX 是一種雲端聯絡中心解決方案,可透過電話、簡訊和聊天等多種管道統一客戶和客服人員體驗。您可以使用任何現有的 Polly 語音來部署語音機器人。如需詳細資訊,請參閱Genesys Cloud 文件。
Amazon Chime SDK 是一套即時通訊元件,開發人員可利用它快速將音訊通話、視訊通話以及螢幕畫面共用功能新增至他們的 Web、行動或電話語音應用程式。 Amazon Chime SDK 支援與 Amazon Polly 的原生整合,讓建置者可以輕鬆打造將文字和數字資料轉換為逼真語音,並自動將輸出播放給電話呼叫者的應用程式。
多個 AWS CCI 合作夥伴都在使用 Amazon Polly,因此您可以無縫地建立自助客戶服務虛擬代理、資訊機器人或應用程式機器人。Amazon Polly 合作夥伴包括 Genesys、Vonage 和 Accenture。若要進一步了解合作夥伴,請瀏覽 AWS CCI 和 AWS CCI 合作夥伴頁面。