什麼是音訊檔案轉寫？

組織需要大規模的音訊轉寫以滿足各種使用案例的需求，從有組織的會議記錄到醫療保健應用程式。現代 AI 技術可將音訊轉寫為文字，將多個說話者之間的各種口音和對話轉換為準確、格式化的文件。本指南探討針對企業和小型企業的需求將音訊轉寫為文字的方法。

以語音為基礎的交流對於人類充分理解彼此至關重要。語音是一種快速的時間點方法，用於傳達想法、資訊、說明和情感。透過音訊轉文字轉換器記錄和轉寫語音通訊是降低召回率、提升準確度和完善進一步工作的重要步驟。將音訊轉寫為文字時，您可以保留、搜尋、分析和重新混合重要資訊，以便更快地取得洞見並即時整合到業務流程中。

過去，人們會一邊聽一段音訊記錄，一邊輸入其內容，透過停止和開始來轉換口語字詞，從而產生準確的轉寫。律師事務所、醫生、研究人員和其他專業辦公室都有打字員來執行這一手動角色，將語音筆記中的音訊轉寫為文字。

現在，機器可以透過音訊轉文字轉換器立即轉寫音訊。語音轉文字 (STT) 技術無需人工進行轉寫工作，而是將音訊檔案轉換為書面文字檔案。此書面文字檔案可以按原樣讀取，用 AI 轉寫器進行彙總，在其他軟體系統中自動執行，單獨分析或作為更廣泛文獻庫的一部分進行分析，諸如此類。音訊轉文字轉換器具有無限的應用領域。

有哪些音訊檔案轉寫技術？

音頻檔案可能包含各個說話者、重音和領域特定的字詞。音訊錄音的聲音品質也可能有所不同。將口語字詞轉換為文字需要有聲語言理解以及語言語法和句法知識才能產生可讀的輸出。

早期的音訊轉文字轉換器軟體會產生難以閱讀的轉寫，其中沒有適當的結構，並且存在階層、字詞和句法錯誤。現代的音訊轉文字轉換器軟體表現更好，可將音訊轉換為與口語字詞緊密相符的文字，並提供具有正確書面結構和句法的準確轉寫。

Amazon Transcribe 是一種全受管服務，可使用自動語音識別 (ASR) 技術將語音轉換成文字。它可以處理各種語音特徵，包括語速、音調和音量的變化。該服務可以用 100 多種語言進行轉寫，並且可插入開發人員工作流程和 AWS 基礎設施以滿足企業的音訊轉文字要求。

如何開始使用音訊轉寫？

將音訊轉寫為文字的主要方法有兩種，具體由音訊或視訊檔案類型決定。批次轉寫用於轉寫預先錄製的音訊檔案，而串流轉寫用於轉寫即時媒體串流。

Amazon Transcribe 支援批次和串流音訊與視訊轉寫類型的單通道和雙通道音訊。

批次和串流音訊轉文字轉寫都以 JSON 檔案格式輸出。輸出中提供的欄位取決於轉換音訊時在轉寫請求中包含的特徵。您的轉寫應至少包含每個給定的字詞、其開始時間、結束時間、類型、詞彙篩選條件相符以及可驗證性的可信度分數。其他欄位包括說話者標籤、替代字詞、通道等。

串流轉寫

串流轉寫用於即時轉寫音訊串流。Amazon Transcribe 串流轉寫服務支援 FLAC 和 PCM 簽名的 16 位小端音訊 (非 WAV) 作為偏好的格式，還支援 Ogg Opus。設定與音訊檔案相符的取樣率，以避免音訊轉文字錯誤。

根據希望使用轉寫工具的方式，您可以使用 AWS 管理主控台、HTTP/2、WebSockets 和各種 AWS SDK 進行串流轉寫。

以下說明使用 AWS 管理主控台的串流音訊轉寫逐步解說。

在左側導覽窗格中選取即時轉寫。
在開始串流之前，請選取語言、說話者識別、內容移除和自訂等選項。
按一下開始串流按鈕直接即時錄音，並在下面的轉寫輸出方塊中檢視將開始轉寫的輸出。

音訊記錄音換完成後，您可以按一下下載完整轉寫按鈕以免費下載 JSON 檔案轉寫。

批次檔案轉寫

批次轉寫用於轉寫儲存在 Amazon S3 雲端儲存貯體中的一或多個現有媒體檔案。藉助該批次服務，您最多可以在佇列中上傳 10,000 個音訊檔案作業，以便在先進先出系統中進行處理。視您的訂閱而定，可以同時處理語音錄製作業，一次性轉換音訊檔案。

批次轉寫支援 FLAC 和 WAV (具有 PCM 16 位元編碼) 作為偏好的格式。但是，它還支援其他格式，例如 AMR、M4A、MP3、MP4、Ogg 和 WebM。務必設定與音訊檔案相符的取樣率，以避免音訊轉文字錯誤。

您可以使用 AWS CLI、AWS 管理主控台和各種 AWS SDK，藉助批次轉寫程序將音訊轉換為文字。

以下說明使用 AWS 管理主控台的批次音訊轉寫逐步解說。

將要轉寫的媒體檔案上傳到 Amazon S3 儲存貯體中。
在左側導覽窗格中選取轉寫作業。這將帶您前往轉寫作業清單。
選取建立作業，然後填寫指定作業詳細資訊頁面上的欄位。
設定作業後，按一下建立作業按鈕開始。
返回轉寫作業頁面，您可以在其中查看作業的狀態。
在輸出資料位置下的右側資料欄中選取連結的檔案路徑以檢視 JSON 檔案轉寫。

注意：如果您選擇服務受管的儲存貯體進行輸出，則可以在轉寫作業的資訊頁上看到轉寫預覽窗格，以及用於 JSON 音訊轉文字檔案的「下載」按鈕。

在設定過程中填寫以下頁面中的相應欄位。

輸入資料

在輸入資料頁面下，S3 上的輸入檔案位置 是您現有 S3 儲存貯體中的音訊檔案，而輸出資料則是 S3 服務受管儲存貯體或您自己的 S3 儲存貯體。

設定作業

您可以在設定作業頁面選取自訂選項，例如通道識別、內容編輯和篩選以及自訂詞彙。

有哪些其他轉寫功能？

Amazon Transcribe 具有一系列其他功能，可轉換音訊或視訊檔案時建立更有用、更安全、更準確的轉寫。

自訂詞彙和語言模型

使用者可以建立自訂詞彙和語言模型，以準確擷取與轉寫包含特定領域品牌名稱、首字母縮略詞、技術字詞和行話的音訊。自訂語言模型可讓擁有蓬勃發展的內部語言生態系統或高度專業化的技術產業的大型組織受益。

自訂詞彙是使用者建立的檔案，可示範如何發音特定字詞。例如，可以將名為 VX02Q 的專案新增至自訂詞彙，其發音為 V.X.-zero-two-Q。

自訂語言模型可讓音訊轉文字模型在現有資料集上完成額外的訓練，以理解特定領域語言的內容。例如，如果您使用氣候科學研究論文的文字上傳來訓練自己的模型，則該模型可能會了解到「冰塊」是比「冰流」更可能出現的字詞對。同樣地，如果您引用名為「Bzntry」的產品，則多次提及「bee-zen-tree」的音訊檔案資料集將自動將音訊與字詞輸出進行比對。

批次和串流音訊轉文字轉寫都支援自訂詞彙和自訂語言模型。

自動審核

自訂詞彙詩選條件可讓您遮罩、取代或標記 ("vocabularyFilterMatch": true) JSON 轉寫輸出中的特定字詞或字詞組合。

範例：

以三個星號 (***) 遮罩髒話
以「NewProduct」一詞取代推出前的秘密產品名稱
對轉寫中標有「um」或「like」的標籤計數，以幫助說話者磨練他們的公開演講技巧

批次和串流音訊轉文字轉寫均支援詞彙篩選條件。

PII 編輯和識別

個人識別資訊 (PII) 可以在音訊轉文字轉寫中自動編輯和標記。這對於在企業中儲存敏感資訊非常重要，因為 PII 可能受到嚴格的保密法約束。

Amazon Transcribe 中包含的 PII 類型包括姓名、地址、電子郵件地址、電話號碼、銀行號碼詳細資訊、PIN 和社會安全號碼。音訊轉文字轉換器會將 JSON 檔案中的相應字詞取代為轉寫正文中的 [PII]，並在「編輯」JSON 欄位中依類型進行計數和分類。

字幕

Amazon Transcribe 可讓使用者產生 WebVTT (*.vtt) 和 SubRip (*.srt) 字幕檔案以與視訊配對，還會產生常規輸出 JSON 檔案。字幕與音訊或視訊檔案中說出的文字同時顯示，並且保持可見，直到音訊自然停頓或說話者結束講話。

毒害偵測

Amazon Transcribe 可用於識別和分類有毒語言。有毒內容被標記並分類在七個類別中，包括性騷擾、仇恨言論、威脅、濫用、褻瀆、辱罵和圖形。Amazon Transcribe 使用進階的識別技術，包括音調和音高，為對話提供額外的內容。

呼叫分析

Amazon Transcribe 為客戶服務和銷售呼叫提供特殊的 API。您可以使用該 API 深入了解客戶和客服人員情緒、呼叫驅動因素、片語提及、非通話時間、中斷、通話速度、即時問題偵測和對話摘要。Amazon Transcribe 還可以執行呼叫後的音訊錄製編輯，將儲存通話的 PII 取代為靜音。

醫學轉寫

Amazon Transcribe 提供符合 HIPAA 標準的 API，可從音訊檔案提供準確的醫學語言音訊轉文字轉寫，同時優先考量患者資料的隱私和安全。它在臨床醫生與患者的互動中很有用，因為在這種互動中，做筆記很費時間，並且會分散注意力和造成干擾。

AWS 如何支援您的音訊轉寫需求？

音訊轉文字轉寫將語音從時間點通訊方法轉變為可儲存、可搜尋、可分析且極具價值的資料來源。使用語音識別來轉寫音訊的組織在生產力、培訓、客戶服務、銷售等方面取得了顯著優勢。

將 Amazon Transcribe 音訊轉文字轉換器嵌入組織內，可確保語音錄音保留價值並增加其發揮作用的應用場景。查看 AWS 上的各種 AI 解決方案，以協助您更快速、更強有力地建置和擴展應用程式。

什麼是音訊檔案轉寫？