概觀

Amazon Transcribe 讓 AWS 客戶能夠在支援語音功能的應用程式中,新增語音轉文字功能。使用自動語音識別 (ASR) 技術,客戶可以將 Amazon Transcribe 用於各種業務應用程式。該服務提供的功能包括自動語音辨識、演講者識別、個人身分識別資訊 (PII) 編輯和語言識別;有關更多詳細資訊,請參閱文件。此 AI Service Card 描述了其中一項功能,即 Transcribe::StartTranscriptionJob API 實作的 Transcribe – Batch (English-US)。此功能在低 (8kHz) 或高 (16kHz) 頻寬下於 en-US 區域中執行 ASR。可對靜態音訊檔案 (批次處理模式) 中可用的錄製語音進行操作。有關串流媒體上近乎即時的 ASR,請參閱 Transcribe::StartStreamTranscription API。

我們透過比對 ASR 與真人聽取語音範例後所記錄字詞的相符程度,來評估記錄語音的品質。當演講者說「此系統確實可以識別語音」時,我們希望記錄中包含其所說的字詞,而不是「此系統會破壞美麗的海灘」。 記錄中可能會出現三種類型的錯誤:替代 (例如識別出「破壞」)、插入 (額外的字詞,例如「美麗」) 和刪除 (缺少諸如「確實」之類的字詞)。正確記錄的字詞稱為命中。精確率、召回率、F1 和單詞錯誤率 (WER) 等品質指標取決於命中次數和錯誤數。

多種因素會影響任何 ASR 系統的準確性。輸入音訊訊號由語音本身組成,其會由多種混雜因素修改。不同演講者的單個字詞和言語在使用的頻率、發音方式以及與其他字詞的組合方式上都有所不同。拼寫和含義不同的字詞在發音上可能沒有區別。演講者可能會同時說話或相互打斷。錄音裝置在錄音品質和相對於演講者的位置 (例如,遠場與近場) 方面會有所不同。錄音環境可能會因背景噪音大小、回音敏感度以及是否有其他演講者而有所不同。傳輸線路的噪音水準各不相同。Transcribe 旨在區分不同字詞的音訊,並且忽略混雜差異。

預期使用案例和限制

Transcribe – Batch (English-US) 旨在用於包含自然存在的人類語音的音訊範例。該服務並非設計用於機械或數位轉換的語音或合成語音。它旨在轉錄美國英語字詞;有關其他語言時區,請參閱支援的語言。Transcribe 支援大量通用詞彙;客戶可以新增自訂詞彙自訂語言模型,以涵蓋來自專業領域的字詞和片語。 Transcribe 支援演講者分割,也稱為差異化。透過在 API 呼叫中啟用演講者分割,最多可識別 10 個獨特的演講者。

Transcribe Batch (English-US) 有許多可能的應用程式,例如聯絡中心分析 (情感/分類/交談速度)、記錄語音郵件、會議字幕新增、媒體內容 (音訊或視訊) 字幕新增以及媒體搜尋/分析/關鍵字分析,包括對媒體封存進行編目或索引。這些應用程式的設計因以下因素而異:1/ 演講者數量、2/ 每個通道 (即每台錄音裝置,例如筆記型電腦或手機) 的演講者數量、3/ 演講者使用的語音風格、4/ 錄音條件 (例如位置和設備) 以及其他因素。例如,聯絡中心記錄應用程式可能預期有兩位演講者;每個通道一位演講者;近場錄音 (演講者的嘴巴靠近麥克風);以及來自呼叫者家庭環境和聯絡中心操作員工作環境的高背景噪音。第二個範例是用於對教學視訊進行隱藏字幕新增的應用,它是媒體分析、索引和搜尋的切入點。此應用預期有多位演講者;所有演講者共用一個音訊通道;指令碼語音中包含較少的填充字詞、暫停和間隔,但有更多特定領域的行話;以及較低的背景資訊水準和其他音訊遮擋。

Transcribe – Batch (English-US) 的設計

機器學習:使用 ML 和 ASR 技術建置 Transcribe。它的運作方式如下:(1) 識別音訊輸入的相關聲學特徵。(2) 依據這些特徵產生一組候選字詞層級字串。(3) 套用語言建模對候選字串進行排名,並返回排名靠前的記錄。如需 API 呼叫的詳細資訊,請參閱開發人員文件

效能期望:客戶應用程式之間的個體差異和混雜差異將有所不同。這意味著即使應用程式支援相同的使用案例,其效能也會有所不同。以兩個記錄應用程式 A 和 B 為例。應用程式 A 支援電視訪談節目的視訊字幕新增,每個錄音通道有多個語音,採用高品質的懸吊麥克風,背景噪音可以忽略不計。應用程式 B 協助聯絡中心錄製客戶呼叫,讓客戶在靠近麥克風的位置說話,每個錄音通道只有一個語音,並且是沒有演講稿的客戶對話。由於應用程式 A 和 B 的輸入類型不同,因此即使假設每個應用程式都使用 Transcribe 完美部署,它們也可能會有不同的錯誤率。

測試驅動的方法:我們使用多個資料集來評估效能。沒有任何單一的評估資料集能提供絕對的效能全景。這是因為評估資料集因其人口構成 (已定義群體的數量和類型)、混雜差異數量 (內容品質、適合用途)、可用標籤的類型和品質以及其他因素而有所不同。我們透過在評估資料集上進行測試來衡量 Transcribe 的效能,這些資料集包含來自代表最終使用者群體的各種演講者的錄音,其中每段錄音都標有演講者的真實記錄和人口統計屬性。我們透過多個指標來表示資料集的整體效能,包括單詞錯誤率和 F1,其中 F1 百分比指標均勻地平衡正確預測字詞的百分比 (精確率) 與預測中包含正確字詞的百分比 (召回率)。資料集中的群體可以由人口統計屬性 (例如性別、年齡和祖先)、混雜變數 (例如錄音設備品種、每位演講者與錄音設備的距離、後處理和背景噪音) 或兩者的混合來定義。不同的評估資料集因這些因素和其他因素而異。因此,所有指標 (包括總體指標和群體指標) 因資料集而異。考慮到這種差異,我們的開發過程使用多個評估資料集來檢查 Transcribe 的效能,採取措施提高 Transcribe 效能最差的群體的準確性,努力改進評估資料集套件,然後進行反覆運算。

公平性和偏見:我們的目標是讓 Transcribe – Batch (English-US) 在美國英語演講者可能使用的各種發音、語調、詞彙和語法特徵方面都能很好地發揮作用。我們考慮由區域定義的演講者社群,例如中西部或紐約市,以及由身分的多個維度 (包括祖先、年齡和性別) 定義的社群。為此,我們使用上面描述的反覆運算開發過程。在此過程中,我們建置資料集,以涵蓋各種混雜因素下廣泛類型的人類演講者。我們會在擁有可靠人口統計標籤的資料集上定期進行測試。我們發現,Transcribe 在人口屬性方面效能出眾。舉例來說,在一個包含 65 個人口統計群組且根據年齡、祖先、性別和地區方言 (例如女性 + 歐洲語言、男性 + 45 歲以下) 定義的自然語音資料集中,我們發現 F1 單詞識別準確度為每個演講者群組為 92% 或更高。對於啟用演講者分割 (差異化) 的轉錄,在相同的資料集上,我們發現每組演講者的差異化準確度為 98% 或更高。由於結果取決於 Transcribe、客戶工作流程和評估資料集,因此我們建議客戶在自己的內容上額外測試 Transcribe。

可解釋性: 當 Amazon Transcribe 記錄音訊時,它會為同一記錄建立不同的版本,並為每個版本指派置信度分數。如果客戶啟用替代記錄,Amazon Transcribe 會傳回置信度較低的記錄的替代版本。客戶可以探索替代的記錄,以更深入了解為每個音訊輸入產生的候選字詞和片語。

穩健性:我們透過多種技術盡量提高穩健性,包括使用擷取許多個體中多種差異的大型訓練資料集。Transcribe ASR 的理想音訊輸入包含具有高錄音品質、低背景噪音和低室內混響的音訊。但是,Transcribe 經過訓練,即使輸入與理想條件不同也可靈活處理,並且可以在嘈雜的多演講者環境下效能出眾。

隱私和安全性:Amazon Transcribe 僅處理音訊輸入資料。音訊輸入絕不會包含在服務傳回的輸出中。客戶之間絕不會共用輸入和輸出。客戶可透過 AWS Organizations 或我們提供的其他退出機制,選擇退出客戶內容的培訓。如需詳細資訊,請參閱 AWS 服務條款第 50.3 節和 AWS 資料隱私權常見問題集。如需服務特定的隱私權和安全性資訊,請參閱 Transcribe 常見問題集中的「資料隱私權」部分以及 Amazon Transcribe 安全性文件。

透明度:如果適合其使用案例,則鼓勵將 Amazon Transcribe 納入其工作流程的客戶向最終使用者和其他受應用程式影響的個人披露其使用 ML 和 ASR 技術的情況,並允許其最終使用者提供意見回饋以改進工作流程。在其文件中,客戶還可以引用此 AI Service Card。

管控:我們採用嚴格的方法來,以負責任的方式建置我們的 AWS AI 服務,包括在設計階段融入負責任 AI 的逆向工作產品開發程序,由專職的負責任 AI 科學和資料專家設計諮詢和實作評估,執行例行測試,與客戶一起檢閱,以及進行最佳實務開發、分發和培訓。

部署和效能最佳化最佳實務

我們鼓勵客戶按照 《AWS 負責任使用機器學習》指南中所述,負責任地建置和執行應用程式。這包括實作負責任 AI 實務以處理關鍵維度,涵蓋公平性和偏見、文件性、可解釋性、隱私和安全性、透明度和管控。
 
工作流程設計:任何使用 Transcribe 的應用程式的效能都取決於客戶工作流程的設計。「預期使用案例」部分討論了背景噪音、錄音設備等條件。依據應用程式的不同,Transcribe 客戶可能會對這些條件進行最佳化,他們定義從最終使用者處擷取音訊的工作流程。Transcribe 為客戶提供在 API 中最佳化識別效能的功能。這些功能包括錄音條件、取樣速率、自訂詞彙、自訂語言模型以及篩選詞彙或個人身分識別資訊 (PII)。人為監督、工作流程一致性和定期測試效能偏差也是關鍵考慮因素,這些考慮因素由客戶控制,有助於取得準確、公平的結果。
 
  1. 錄音條件:工作流程應包括解決錄音條件差異的步驟,例如在遠離麥克風的位置或在嘈雜的條件下發言。如果差異很大,可以考慮提供所有最終使用者都能取得的幫助和說明,並透過定期和隨機採樣輸入來監控錄音品質。

  2. 取樣率:客戶可以使用選用參數來指定其輸入音訊的取樣速率,可以是較低頻寬 (8kHz) 或寬頻 (16kHz) 輸入。

  3. 自訂詞彙:Transcribe 可識別各種演講者社群 (方言區域、人口群體) 中使用的詞彙。如果客戶想要為特定功能變數名稱或情況的字詞 (例如品牌名稱或專有名詞和首字母縮略詞) 提供額外支援,則可以部署自訂詞彙來提高此類字詞的記錄準確性。如需詳細資訊,請參閱自訂詞彙的文件。

  4. 自訂語言模型:當客戶應用程式必須處理複雜性超出單個字詞的域特定語音時,客戶可以使用自訂語言模型來提高記錄的準確性。例如,在記錄氣候科學演講的錄音時,可以透過學習字詞出現的內容 (例如「冰流」與「浮冰」) 來提高記錄的準確性。在此情況下,客戶可以訓練自訂語言模型來識別特殊術語。如需詳細資訊,請參閱自訂語言模型的文件。

  5. 詞彙篩選和 PII 編輯:這些最佳化可以提高轉錄中所產生語言的安全性和隱私。「詞彙篩選」可讓客戶依據其定義的清單遮罩或移除記錄結果中敏感或不適合受眾的字詞。PII 編輯可讓客戶依據 Transcribe – Batch (English-US) 識別的 PII 類型,產生已移除 PII 的記錄。這些包括姓名、地址、信用卡號、SSN 等。如需詳細資訊,包括 PII 類型的完整清單,以及針對受規管工作負載使用 PII 編輯的考量,請參閱詞彙篩選PII 編輯的文件。

  6. 人為監督:如果客戶的應用程式工作流程涉及高風險或敏感使用案例,例如影響個人權利或基本服務存取權限的決定,則應在適當的情况下將人工檢閱納入應用程式工作流程。ASR 系統可以用作工具,減少全人工解決方案所產生的工作量,並允許人們快速檢閱和評估音訊內容。

  7. 一致性:客戶應針對允許的各種工作流程自訂和音訊輸入制定和執行政策,以及針對人工如何使用自己的判斷來評估記錄輸出制定和執行政策。這些政策應在各個人口群體中保持一致。不一致地修改音訊輸入可能會給不同的人口群體帶來不公平的結果。

  8. 效能偏差:客戶提交給 Transcribe 的音訊類型的變更或服務的變更可能會導致不同的輸出。為應對這些變更,客戶應考慮定期重新測試 Transcribe 的效能,並在必要時調整工作流程。

更多資訊

詞彙表

公平性和偏見是指 AI 系統如何影響不同的使用者亞群 (例如,按性別、種族)。

可解釋性是指擁有理解和評估 AI 系統輸出的機制。

穩健性是指擁有確保 AI 系統可靠執行的機制。

隱私權與安全性是指保護資料免遭盜竊和洩露。

管控是指採用程序在組織內定義、實作和執行負責任 AI 實務。

透明度是指傳達有關 AI 系統的資訊,以便利害關係人對其系統的使用做出明智的選擇。