Chuyển đến nội dung chính

Phiên âm tệp âm thanh là gì?

Các tổ chức cần thực hiện phiên âm âm thanh ở quy mô lớn cho nhiều trường hợp sử dụng khác nhau, từ ghi chú cuộc họp có tổ chức đến ứng dụng chăm sóc sức khỏe. Các công nghệ AI hiện đại có thể chuyển âm thanh thành văn bản, chuyển đổi nhiều giọng nói và hội thoại giữa nhiều người thành tài liệu chính xác, có định dạng. Hướng dẫn này khám phá các phương pháp chuyển âm thanh thành văn bản cho nhu cầu của doanh nghiệp lớn và doanh nghiệp nhỏ.

Giao tiếp bằng lời nói là yếu tố quan trọng giúp con người hiểu nhau đầy đủ. Giọng nói là phương thức nhanh chóng, tức thời để truyền đạt ý tưởng, thông tin, chỉ dẫn và cảm xúc. Việc ghi lại và phiên âm giao tiếp bằng giọng nói thông qua trình chuyển âm thanh thành văn bản đã trở thành điều thiết yếu để ghi nhớ, đảm bảo độ chính xác và phục vụ công việc tiếp theo. Khi bạn phiên âm âm thanh thành văn bản, thông tin quan trọng có thể được giữ lại, tìm kiếm, phân tích và kết hợp lại để tạo ra hiểu biết nhanh hơn và tích hợp ngay lập tức vào các quy trình kinh doanh.

Trước đây, một người sẽ nghe một bản ghi âm duy nhất và đồng thời gõ lại nội dung, chuyển lời nói thành văn bản bằng cách tạm dừng và phát lại để tạo ra bản phiên âm chính xác. Các công ty luật, bác sĩ, nhà nghiên cứu và các văn phòng chuyên môn khác từng có đội ngũ nhân viên đánh máy để đảm nhận vai trò thủ công này.

Giờ đây, máy móc có thể phiên âm âm thanh ngay lập tức thông qua trình chuyển âm thanh thành văn bản. Thay vì nỗ lực thủ công, công nghệ chuyển giọng nói thành văn bản (STT) chuyển đổi tệp âm thanh thành tệp văn bản. Tệp văn bản này có thể được đọc nguyên trạng, tóm tắt bằng trình phiên âm AI, tự động thực thi trong các hệ thống phần mềm khác, phân tích độc lập hoặc như một phần của tập dữ liệu lớn hơn, và còn nhiều ứng dụng khác. Các ứng dụng của trình chuyển âm thanh thành văn bản là vô biên.

Công nghệ chép lời tệp âm thanh là gì?

Các tệp âm thanh có thể chứa nhiều người nói khác nhau, các giọng vùng miền khác nhau và các từ ngữ chuyên ngành. Bản ghi âm cũng có thể khác nhau về chất lượng âm thanh. Chuyển đổi từ giọng nói thành văn bản yêu cầu hiểu ngôn ngữ giọng nói và kiến thức về cú pháp ngôn ngữ cũng như ngữ pháp để tạo đầu ra có thể hiểu được.

Phần mềm chuyển đổi âm thanh sang văn bản đời cũ thường mắc lỗi và tạo ra các bản chép lại khó đọc, thiếu cấu trúc rõ ràng, mắc lỗi về phân cấp, từ ngữ và ngữ pháp. Phần mềm chuyển đổi âm thanh sang văn bản hiện đại hoạt động tốt hơn nhiều, chuyển đổi âm thanh sang văn bản phù hợp với từ nói, với bản chép lời chính xác, có cấu trúc viết và ngữ pháp phù hợp.

Amazon Transcribe là một dịch vụ được quản lý hoàn toàn giúp chuyển đổi giọng nói thành văn bản bằng công nghệ nhận dạng giọng nói tự động (ASR). Nó có thể xử lý các đặc điểm giọng nói khác nhau, bao gồm các biến thể về tốc độ nói, cao độ và âm lượng. Nó có thể phiên âm bằng hơn 100 ngôn ngữ, kết nối vào quy trình công việc của nhà phát triển và cơ sở hạ tầng AWS cho các yêu cầu chuyển đổi âm thanh thành văn bản của doanh nghiệp.

Cách bắt đầu chép lời âm thanh

Có hai phương pháp chính để chuyển âm thanh thành văn bản, các phương pháp này được quyết định bởi loại tệp âm thanh hoặc video. Chép lời hàng loạt được sử dụng để chép lời cho các tệp âm thanh được ghi trước và chép lời trực tiếp được sử dụng để chép lời âm thanh cho các luồng phương tiện trực tiếp.

Amazon Transcribe hỗ trợ âm thanh kênh đơn và kênh kép cho cả hai loại hình chép lời âm thanh hàng loạt và trực tiếp, cho cả tệp âm thanh và video.

Bản chép lời âm thanh hàng loạt và trực tiếp sang văn bản đều được xuất ra ở định dạng tệp JSON. Các trường thông tin được cung cấp trong kết quả đầu ra sẽ phụ thuộc vào những tính năng bạn đưa vào yêu cầu chép lời khi chuyển đổi âm thanh. Ở mức tối thiểu, bản chép lời của bạn chứa từng từ nhất định, thời gian bắt đầu, thời gian kết thúc, loại, bộ lọc từ vựng phù hợp và điểm tin cậy để có thể xác minh. Các lĩnh vực khác bao gồm nhãn người nói, từ thay thế, kênh và hơn thế nữa.

Chép lời âm thanh trực tiếp

Chép lời âm thanh trực tiếp được sử dụng để chép lời các luồng âm thanh trong thời gian thực. Dịch vụ chép lời trực tiếp Amazon Transcribe hỗ trợ âm thanh little-endian 16-bit có chữ ký FLAC và PCM (không phải WAV) làm định dạng ưa thích, cùng với Ogg Opus. Đặt tốc độ mẫu phù hợp với tệp âm thanh để tránh lỗi âm thanh thành văn bản.

Bạn có thể sử dụng Bảng điều khiển quản lý AWS, HTTP/2, WebSockets và các SDK AWS khác nhau để chép lời âm thanh trực tiếp, tùy thuộc vào cách bạn muốn sử dụng công cụ chép lời âm thanh.

Hướng dẫn chép lời trực tiếp với Bảng điều khiển quản lý AWS được giải thích bên dưới.

  1. Chọn Chép lời thời gian thực trong ngăn điều hướng bên trái.
  2. Chọn các tùy chọn như ngôn ngữ, nhận dạng người nói, xóa nội dung và tùy chỉnh trước khi bắt đầu phát trực tuyến của bạn.
  3. Nhấp vào Bắt đầu phát trực tiếp để ghi âm trực tiếp trong thời gian thực và bản chép lời sẽ hiển thị trong hộp đầu ra Chép lời âm thanh bên dưới.

Sau khi quá trình chuyển đổi bản ghi âm hoàn tất, bạn có thể nhấp vào nút Tải xuống bản chép lời đầy đủ để tải xuống miễn phí bản chép lời định dạng JSON.

Chép lời tệp hàng loạt

Chép lời hàng loạt được sử dụng để chép lời một hoặc nhiều tệp phương tiện hiện có được lưu trữ trong vùng lưu trữ đám mây Amazon S3. Với dịch vụ hàng loạt, bạn có thể tải lên tới 10.000 tác vụ tệp âm thanh trong một hàng đợi để xử lý trong hệ thống và dữ liệu vào trước sẽ được xử lý trước. Các công việc ghi âm giọng nói có thể được xử lý đồng thời, chuyển đổi các tệp âm thanh cùng một lúc, tùy thuộc vào gói đăng ký của bạn.

Chép lời hàng loạt hỗ trợ FLAC và WAV (với mã hóa PCM 16-bit) làm định dạng ưu tiên. Tuy nhiên, các định dạng khác như AMR, M4A, MP3, MP4, Ogg và WebM cũng được hỗ trợ. Đảm bảo đặt tốc độ mẫu phù hợp với tệp âm thanh để tránh lỗi âm thanh thành văn bản.

Bạn có thể sử dụng AWS CLI, Bảng điều khiển quản lý AWS và các SDK AWS khác nhau để chuyển âm thanh thành văn bản bằng quy trình chép lời hàng loạt.

Hướng dẫn chép lời hàng loạt với Bảng điều khiển quản lý AWS được giải thích bên dưới.

  1. Tải lên tệp phương tiện mà bạn muốn chép lời âm thanh vào vùng lưu trữ Amazon S3.
  2. Chọn Tác vụ chép lời trong ngăn điều hướng bên trái. Bạn sẽ được chuyển đến danh sách các tác vụ chép lời của bạn.
  3. Chọn Tạo tác vụ và điền vào các trường trên trang Chỉ định chi tiết tác vụ.
  4. Khi bạn đã cấu hình công việc, hãy nhấp vào nút Tạo tác vụ để bắt đầu.
  5. Quay lại trang Tác vụ chép lời, tại đây, bạn có thể xem trạng thái công việc của mình.
  6. Chọn đường dẫn tệp được liên kết ở cột bên phải trong Vị trí dữ liệu đầu ra để xem bản chép lời định dạng JSON của bạn.

Lưu ý: Nếu bạn chọn vùng lưu trữ được dịch vụ quản lý cho đầu ra, bạn có thể thấy Ngăn xem trước bản chép lời trên trang thông tin tác vụ chép lời của mình, cùng với nút Tải xuống cho tệp âm thanh thành văn bản ở định dạng JSON của bạn.

Hoàn thành các trang sau trong quá trình cấu hình..

Dữ liệu đầu vào

Trong trang Dữ liệu đầu vào, Vị trí tệp đầu vào trên S3 là tệp âm thanh của bạn trong Vùng lưu trữ S3 hiện có và Dữ liệu đầu ra vùng lưu trữ S3 được dịch vụ quản lý hoặc vùng lưu trữ S3 của riêng bạn.

Định cấu hình tác vụ

Trang Cấu hình công việc cho phép bạn chọn các tùy chỉnh như nhận dạng kênh, chỉnh sửa và lọc nội dung cũng như từ vựng tùy chỉnh.

Một số khả năng chép lời bổ sung là gì?

Amazon Transcribe có một loạt các tính năng bổ sung để tạo bản sao hữu ích, an toàn và chính xác hơn khi bạn chuyển đổi các tệp âm thanh hoặc video.

Từ vựng tùy chỉnh và mô hình ngôn ngữ

Người dùng có thể tạo từ vựng tùy chỉnh và mô hình ngôn ngữ riêng để chép lời âm thanh chính xác, bao gồm các tên thương hiệu, từ viết tắt, thuật ngữ kỹ thuật và biệt ngữ chuyên ngành. Các mô hình ngôn ngữ tùy chỉnh mang lại lợi ích cho các tổ chức lớn với hệ sinh thái ngôn ngữ nội bộ phát triển mạnh hoặc các ngành công nghiệp kỹ thuật chuyên môn cao.

Từ vựng tùy chỉnh là các tệp do người dùng tạo quy định cách phát âm các từ cụ thể. Ví dụ, một dự án có tên VX02Q có thể được thêm vào từ vựng tùy chỉnh với cách phát âm V.X.-Zero-Two-Q.

Các mô hình ngôn ngữ tùy chỉnh cho phép mô hình chuyển âm thanh thành văn bản hoàn thành một “khóa đào tạo” bổ sung trên tập dữ liệu hiện có để hiểu bối cảnh của ngôn ngữ miền cụ thể. Ví dụ, nếu bạn huấn luyện mô hình của mình bằng cách tải lên các văn bản từ các bài nghiên cứu khoa học khí hậu, mô hình đó có thể học được rằng cụm từ 'ice floe' (tảng băng trôi) có khả năng đúng cao hơn so với 'ice flow' (dòng chảy băng). Tương tự, nếu bạn đang tham khảo một sản phẩm có tên 'Bzntry', tập dữ liệu tệp âm thanh có nhiều đề cập đến “bee-zen-tree” sẽ tự động khớp âm thanh với đầu ra từ.

Chuyển âm thanh sang văn bản hàng loạt và trực tiếp đều hỗ trợ từ vựng tùy chỉnh và mô hình ngôn ngữ tùy chỉnh.

Kiểm duyệt tự động

Bộ lọc từ vựng tùy chỉnh cho phép bạn che giấu, thay thế hoặc gắn thẻ (“VocabularyFilterMatch”: true) một từ hoặc kết hợp từ cụ thể trong tệp chép lời JSON đầu ra.

Ví dụ:

  • Che từ tục tĩu với ba dấu hoa thị (***)
  • Thay thế tên sản phẩm bí mật trước khi ra mắt bằng từ 'NewProduct'
  • Đếm số thẻ có nhãn “um” hoặc “như là” trong bản chép lời để giúp người nói trau dồi kỹ năng nói trước đám đông của họ

Chuyển âm thanh sang văn bản hàng loạt và trực tiếp đều hỗ trợ bộ lọc từ vựng.

Biên tập và nhận dạng PII

Thông tin nhận dạng cá nhân (PII) có thể được tự động chỉnh sửa và gắn thẻ trong bản chép lời âm thanh thành văn bản. Yếu tố này rất quan trọng để lưu trữ thông tin nhạy cảm trong các doanh nghiệp, vì PII có thể thuộc luật bảo mật nghiêm ngặt.

Các loại PII có trong Amazon Transcribe là tên, địa chỉ, địa chỉ email, số điện thoại, chi tiết số ngân hàng, mã PIN và Số An sinh Xã hội. Công cụ chuyển âm thanh thành văn bản sẽ che đi từ đó trong văn bản chính bằng ký hiệu [PII], và sẽ thống kê, phân loại những từ bị che đó trong một trường riêng của tệp JSON gọi là “redactions”.

Tạo phụ đề

Amazon Transcribe cho phép người dùng tạo các tệp phụ đề WebVTT (*.vtt) và SubRip (*.srt) để ghép nối với video, cùng với tệp JSON đầu ra thông thường. Phụ đề được hiển thị cùng lúc với văn bản được nói trong tệp âm thanh hoặc video và vẫn hiển thị cho đến khi có sự tạm dừng tự nhiên trong âm thanh hoặc loa kết thúc nói chuyện.

Phát hiện nội dung độc hại

Amazon Transcribe có thể được sử dụng để xác định và phân loại ngôn ngữ độc hại. Nội dung độc hại được gắn cờ và phân loại theo bảy loại bao gồm quấy rối tình dục, ngôn từ thù ghét, đe dọa, lạm dụng, tục tĩu, xúc phạm và phản cảm. Amazon Transcribe sử dụng các kỹ thuật nhận dạng tiên tiến, bao gồm âm điệu và cao độ, để cung cấp ngữ cảnh bổ sung cho các cuộc trò chuyện.

Phân tích cuộc gọi

Amazon Transcribe cung cấp API đặc biệt cho dịch vụ khách hàng và cuộc gọi bán hàng. Bạn có thể sử dụng nó để có được thông tin chuyên sâu về tâm lý của khách hàng và nhân viên hỗ trợ, nguyên nhân chính của cuộc gọi, các cụm từ/từ khóa được nhắc đến, thời gian chết, các gián đoạn, tốc độ nói, phát hiện sự cố theo thời gian thực và tóm tắt cuộc trò chuyện. Amazon Transcribe cũng có thể thực hiện chỉnh sửa ghi âm sau cuộc gọi, tắt âm các thông tin PII cho các cuộc gọi được lưu trữ.

Chép lời y tế

Amazon Transcribe cung cấp các giao diện lập trình ứng dụng (API) tuân thủ HIPAA, giúp chuyển đổi âm thanh ngôn ngữ y tế thành văn bản một cách chính xác từ các tệp âm thanh, đồng thời ưu tiên bảo mật và quyền riêng tư dữ liệu của bệnh nhân. Công cụ này đặc biệt hữu ích trong các buổi thăm khám giữa bác sĩ và bệnh nhân, giúp loại bỏ việc ghi chép thủ công vốn gây mất tập trung, mất thời gian và ảnh hưởng đến sự liền mạch của cuộc trao đổi.

AWS có thể hỗ trợ nhu cầu chép lời âm thanh của bạn như thế nào?

Chuyển đổi âm thanh thành văn bản biến giọng nói, vốn là một phương thức giao tiếp tức thời, thành một nguồn dữ liệu có giá trị cao, có thể lưu trữ, tìm kiếm và phân tích được. Các tổ chức sử dụng nhận dạng giọng nói để chép lời âm thanh đang tìm thấy những lợi ích đáng kể về năng suất, đào tạo, dịch vụ khách hàng, bán hàng và hơn thế nữa.

Việc nhúng trình chuyển đổi âm thanh sang văn bản Amazon Transcribe vào tổ chức của bạn sẽ đảm bảo các bản ghi âm giọng nói giữ được giá trị và gia tăng đáng kể các ứng dụng hữu ích của chúng. Hãy xem qua một loạt các giải pháp AI trên AWS để giúp bạn xây dựng và mở rộng các ứng dụng nhanh hơn và mạnh mẽ hơn.