Chuyển đến nội dung chính

Trình tạo văn bản thành giọng nói là gì?

Trình tạo văn bản thành giọng nói là phần mềm sử dụng công nghệ trí tuệ nhân tạo (AI) để chuyển đổi văn bản kỹ thuật số thành tệp âm thanh. Giao diện người dùng trong các ứng dụng hiện đại đang chuyển sang tương tác bằng giọng nói, với việc khách hàng yêu cầu ứng dụng thực hiện các tác vụ và ứng dụng phản hồi bằng lời nói. Trình tạo văn bản thành giọng nói cho phép các nhà phát triển ứng dụng tự động thêm khả năng thoại vào các ứng dụng bằng nội dung văn bản hiện có. Nó đi kèm với giọng nói chất lượng cao tích hợp có thể tạo ra các tệp âm thanh bắt chước hàng chục giọng nói, giọng nói và phương ngữ đích thực của con người.

Các trường hợp sử dụng của trình tạo văn bản thành giọng nói là gì?

Có một số trường hợp sử dụng cho kinh doanh của trình tạo văn bản thành giọng nói.

Tạo bài phát biểu bằng nhiều ngôn ngữ

Trình tạo văn bản thành giọng nói cho phép các tổ chức nhanh chóng tạo các tệp âm thanh của cùng một văn bản bằng các ngôn ngữ khác nhau. Đối với các doanh nghiệp có đối tượng toàn cầu, tính linh hoạt này giúp hỗ trợ cơ sở khách hàng đa ngôn ngữ.

Tương tác với khách hàng bằng một giọng nói tự nhiên

Công cụ chuyển văn bản thành giọng nói cho phép bạn tạo giọng nói tự nhiên và thực tế cho các đường dây dịch vụ khách hàng của mình. Thay vì âm thanh robot, giọng nói tự nhiên giúp khách hàng thoải mái và giúp họ điều hướng các hệ thống hỗ trợ khách hàng tương tác một cách liền mạch.

Tạo các tệp âm thanh tiết kiệm chi phí cho phương tiện truyền thông

Dù là tạo tệp âm thanh cho trò chơi điện tử, hoạt hình hay các loại hình truyền thông khác, công cụ chuyển văn bản thành giọng nói là một cách nhanh chóng và tiết kiệm chi phí để “thổi hồn” vào nội dung văn bản. Các doanh nghiệp có thể sử dụng SSML, một ngôn ngữ đánh dấu dựa trên XML, để sửa đổi trực quan điểm nhấn, cụm từ hoặc ngữ điệu của các tệp âm thanh.

Hỗ trợ người học có khả năng khác nhau

Một cách sử dụng khác của phần mềm tạo văn bản thành giọng nói là giúp những học sinh phải vật lộn với chứng khó đọc, khó khăn trong học tập khác hoặc khiếm thị. Bằng cách chuyển đổi bất kỳ văn bản nào thành giọng nói, các nhà giáo dục có thể làm cho tài nguyên học tập của họ dễ tiếp cận hơn. Đối với học sinh gặp khó khăn trong học tập hoặc bất kỳ khiếm thị nào, phần mềm hỗ trợ này hợp lý hóa trải nghiệm học tập.

Chuyển đổi văn bản thành giọng nói hoạt động như thế nào?

Chuyển đổi văn bản bằng TTS là một quá trình nhiều bước dựa trên phân tích ngôn ngữ, tổng hợp giọng nói và các mô hình trí tuệ nhân tạo. Mô hình AI được đào tạo trên một tập dữ liệu âm thanh lớn với các phiên âm tương ứng bằng ngôn ngữ đích. Các phương pháp chuyển văn bản thành giọng nói khác nhau có sẵn tùy thuộc vào kiến trúc mô hình.

Tổng hợp ghép nối

Phương pháp này tạo ra lời nói bằng cách kết hợp các phân đoạn lời nói của con người được ghi lại. Mô hình AI phân tích dữ liệu âm thanh đào tạo của nó để xác định âm vị (âm thanh riêng lẻ), âm vị đôi (chuyển âm từ âm vị này sang giữa âm vị tiếp theo) và âm tiết hoặc từ. Nó ánh xạ các thành phần này với các từ được viết riêng lẻ.
Khi bạn nhập văn bản, hệ thống:

  • Chuyển đổi văn bản thành biểu diễn ngữ âm.
  • Chọn các phân đoạn âm thanh phù hợp nhất để mô phỏng chuỗi âm thanh.
  • Nối hợp hoặc kết hợp các thành phần riêng lẻ để tạo thành những diễn ngôn hoàn chỉnh tương ứng với văn bản đầu vào.

Hệ thống ưu tiên chuyển tiếp trơn tru và ngữ điệu tự nhiên (cách nhấn nhá, vần điệu, trọng âm) trong quá trình nối.

Tổng hợp văn bản thành giọng nói bằng nơ-ron

Chuyển văn bản thành giọng nói bằng nơ-ron (NTTS) là một tiến bộ hơn nữa trong tổng hợp nối. Quá trình này gồm hai thành phần chính.

Mô hình trình tự sang ảnh phổ

Đây là mô hình trình tự sang trình tự biến đổi các chuỗi âm vị văn bản thành chuỗi sóng âm thanh. Mô hình này tạo ra một ảnh phổ, một biểu diễn trực quan về cách năng lượng âm thanh được phân phối trên các tần số khác nhau theo thời gian. Nó ghi lại dòng chảy và bối cảnh trong chuỗi, nhấn mạnh các đặc điểm âm thanh làm cho giọng nói nghe tự nhiên đối với tai người, như trọng âm, cao độ, nhịp điệu và ngữ điệu.

Bộ mã hóa giọng nói bằng nơ-ron

Sau khi ảnh phổ được tạo ra, đầu ra được chuyển đến bộ mã hóa nơ-ron – một mô hình học sâu chuyên dụng chuyển đổi ảnh phổ thành dạng sóng âm thanh thực tế. Bộ mã hóa này tạo ra giọng nói liên tục với độ phân giải cao, mượt mà hơn, rõ ràng hơn và nghe giống thật hơn so với phương pháp tổng hợp nối.

Chuyển văn bản thành giọng nói tạo sinh

Chuyển văn bản thành giọng nói tạo sinh sử dụng các mô hình ngôn ngữ lớn hàng tỷ tham số để tạo ra giọng nói biểu cảm, có nhận thức ngữ cảnh và mang tính đàm thoại. Mô hình này có thể học hỏi trong quá trình phát triển, điều chỉnh phong cách nói phù hợp với nội dung và mô phỏng giọng điệu thuyết phục, đồng cảm hoặc phấn khích trong quá trình trò chuyện. Mô hình cũng đại diện cho sự chuyển đổi từ văn bản sang giọng nói đến văn bản sang giọng nói có ý nghĩa, vì vậy giọng nói của AI tạo sinh nghe rất giống với giọng nói thật của con người.

Quá trình hai giai đoạn trong TTS tạo sinh hoạt động như sau:

Chuyển đổi mã văn bản thành giọng nói

Một bộ chuyển đổi chuyển văn bản thô đầu vào thành mã giọng nói trung gian. Mã giọng nói là các biểu diễn nhỏ gọn, đã được học của dữ liệu mã hóa ngữ điệu (vần điệu, trọng âm, cách nhấn nhá), cảm xúc và sắc thái ngôn ngữ. Các mã này có thể diễn giải ngữ nghĩa và mục đích của văn bản, hiểu giọng điệu, sự nhấn mạnh và thậm chí là các dấu hiệu cảm xúc.

Bộ giải mã giong nói từ mã sang dạng sóng

Các mã giọng nói sau đó được chuyển đến một bộ giải mã tích chập để biến đổi chúng thành dạng sóng âm thanh thô. Bộ giải mã này hoạt động dần dần, có nghĩa là nó có thể truyền phát giọng nói theo thời gian thực. Nó đảm bảo độ trễ thấp và cung cấp đầu ra âm thanh mượt mà, độ chân thực cao để tạo ra giọng nói AI giống thật.

Làm thế nào để bạn triển khai một trình tạo văn bản thành giọng nói?

Các trình tạo văn bản thành giọng nói hiện đại không yêu cầu bạn đào tạo các mô hình từ đầu. Bạn có thể sử dụng trình tạo văn bản thành giọng nói được xây dựng sẵn như một dịch vụ đám mây được quản lý đầy đủ thông qua API. Dưới đây là quy trình cần tuân theo khi triển khai trình tạo văn bản thành giọng nói:

Nhập văn bản của bạn

Tải lên toàn bộ văn bản mà bạn muốn chuyển đổi thành tệp âm thanh. Bạn có thể tải lên một văn bản thuần túy hoặc sử dụng định dạng SSML. Tùy chọn thứ hai là thích hợp hơn, vì SSML cho phép bạn kiểm soát các khía cạnh như cao độ, âm lượng, tốc độ giọng nói và phát âm.

Chọn một giọng nói có sẵn

Duyệt danh mục ngôn ngữ và giọng vùng miền có sẵn (có tùy chọn giọng nam và nữ) để tìm giọng nói mà bạn muốn dùng để đọc văn bản của mình. Chọn ID giọng nói này khi khởi chạy tác vụ tổng hợp giọng nói.

Tạo đầu ra âm thanh

Nhận tệp âm thanh ở định dạng phù hợp với bạn. Bạn có thể truyền phát âm thanh theo thời gian thực hoặc lưu trữ âm thanh đã tạo ở định dạng tệp để sử dụng sau này.

Bạn nên tìm kiếm những khả năng nào khi chọn trình tạo văn bản thành giọng nói?

Có một số khả năng và đặc điểm cốt lõi cần tìm kiếm khi chọn một trình tạo văn bản thành giọng nói hiệu quả.

Dễ sử dụng

Trình tạo văn bản thành giọng nói nên cung cấp các API và SDK linh hoạt để dễ dàng tích hợp với mã ứng dụng. Trình tạo văn bản thành giọng nói nên hỗ trợ công nghệ chuẩn hóa như Ngôn ngữ đánh dấu tổng hợp giọng nói (SSML), vì vậy các nhà phát triển có thể thêm các thẻ để thêm các điểm nhấn mạnh, ngữ điệu và cụm từ vào văn bản đầu vào. Điều này giúp cải thiện khả năng điều khiển giọng nói đồng thời làm cho âm thanh chân thực và tự nhiên hơn.

Khả năng tùy chỉnh

Trình tạo văn bản thành giọng nói nên hỗ trợ nhiều ngôn ngữ, giọng vùng miền và biến thể ngôn ngữ. Các tổ chức có thể có từ vựng riêng biệt do ngành hoặc khu vực mà họ hoạt động. Trình tạo văn bản thành giọng nói nên cho phép tùy chỉnh cách phát âm trong âm thanh được tạo. Nó cũng nên cho phép bạn điều chỉnh thời gian tối đa mà một cụm từ cụ thể chạy. Việc điều chỉnh các thông số này cung cấp cho các doanh nghiệp tùy chọn tùy chỉnh âm thanh của giọng văn bản thành giọng nói của họ theo những cách phù hợp nhất với trường hợp sử dụng của họ.

Tùy chọn tối ưu hóa

Một công cụ chuyển văn bản thành giọng nói nên hỗ trợ nhiều tần số lấy mẫu khác nhau, giúp doanh nghiệp tối ưu chất lượng âm thanh đồng thời quản lý hiệu quả việc sử dụng băng thông. Thay đổi tốc độ lấy mẫu sẽ thay đổi kích thước MP3, OGG và PCM của tệp.

Tích hợp với các công cụ khác

Nếu bạn muốn sử dụng phần mềm chuyển văn bản thành giọng nói song song với các hệ thống hỗ trợ khách hàng, thì khả năng tích hợp vào các công cụ trung tâm liên lạc là bắt buộc. Phần mềm tạo văn bản thành giọng nói của bạn nên có khả năng tích hợp với các công cụ hướng đến khách hàng khác để hợp lý hóa việc quản lý trải nghiệm khách hàng.

AWS có thể hỗ trợ các yêu cầu về trình tạo văn bản thành giọng nói của bạn như thế nào?

Amazon Polly là dịch vụ tạo giọng nói AI được quản lý hoàn toàn - bạn chỉ cần gửi tệp văn bản của mình đến API Amazon Polly và nó trả về luồng âm thanh ngay lập tức. Bạn có thể lưu trữ luồng âm thanh ở định dạng tệp âm thanh tiêu chuẩn hoặc phát trực tiếp.

Với Amazon Polly, bạn có thể:

  • Chuyển văn bản thành lời nói bằng hàng chục giọng nói giống như người thật và các loại ngôn ngữ, hỗ trợ tất cả các kiểu người dùng.
  • Điều chỉnh tốc độ, cao độ hoặc âm lượng của lời nói tại đầu ra khi cần thiết.
  • Lưu bộ nhớ đệm và phát lại lời nói được tạo ra mà không mất thêm chi phí.
  • Triển khai chức năng chuyển văn bản thành lời nói theo thời gian thực ở tốc độ cao và trên quy mô lớn.

Bạn cũng có thể làm việc với đội ngũ Amazon Polly để tạo giọng nói tổng hợp được sử dụng độc quyền cho tổ chức của bạn, tạo sự khác biệt cho thương hiệu của bạn với một bản sắc giọng độc đáo. Dưới đây là một bản demo ví dụ về giọng nói của Amazon Polly, Matthew.

Bắt đầu với trình tạo văn bản thành giọng nói của AWS bằng cách tạo tài khoản miễn phí ngay hôm nay.