Phần mềm chuyển văn bản thành giọng nói là gì?
Phần mềm chuyển văn bản thành tiếng nói là gì?
Từ việc đọc to nội dung trên trang web đến thu thập dữ liệu người dùng, giọng nói đang nhanh chóng trở thành chuẩn mực của giao diện người dùng hiện đại. Khách hàng ngày càng mong đợi các ứng dụng mà họ sử dụng đều có khả năng thoại. Ngoài ra, các trường hợp sử dụng chuyển văn bản thành giọng nói trong chăm sóc sức khỏe, bán hàng, tạo nội dung, dịch vụ khách hàng và các ứng dụng khác có thể đẩy nhanh quá trình tự động hóa đồng thời nâng cao trải nghiệm khách hàng. Hướng dẫn này khám phá các tính năng và khả năng của chuyển văn bản thành giọng nói và cách bắt đầu sử dụng chúng.
Phần mềm chuyển văn bản thành tiếng nói hoặc chuyển văn bản thành giọng nói (TTS) tạo ra một “giọng nói” âm thanh bằng cách tổng hợp giọng nói từ văn bản. Phần mềm này được vận hành bởi một công cụ chuyển văn bản thành giọng nói được đào tạo trên một khối lượng lớn các bản ghi âm giọng nói của con người. Nó chuyển đổi các từ sang dạng giọng nói bằng cách phân tích các dạng sóng âm thanh trong dữ liệu giọng nói.
Các giọng nói gượng gạo, nghe như robot là kết quả của các công nghệ giọng nói đã lỗi thời. Các công cụ chuyển văn bản thành giọng nói hiện đại dựa trên AI tạo sinh có thể tạo ra đầu ra gần như không thể phân biệt với giọng nói của con người. Giọng nói được tạo ra có thể bao gồm các khoảng dừng tự nhiên, nhiều giọng khác nhau, tốc độ khác nhau và ngữ điệu phản ánh cảm xúc của con người.
Các loại phần mềm chuyển văn bản thành giọng nói
Loại công cụ TTS bạn chọn tùy thuộc vào trường hợp sử dụng của bạn. Đối với các lập trình viên, gói tích hợp tất cả trong một, có thể tùy chỉnh, là lựa chọn tốt nhất cho phát triển đa ứng dụng, đa môi trường.
Các lập trình viên có thể chọn từ phần mềm TTS mã nguồn mở và thương mại với việc triển khai tự quản lý hoặc dịch vụ đám mây được quản lý tích hợp đầy đủ như Amazon Polly. Nó cho phép các ứng dụng hiện có tích hợp giọng nói như một tính năng hàng đầu, tạo cơ hội cho các danh mục sản phẩm hỗ trợ giọng nói hoàn toàn mới, từ ứng dụng di động và ô tô, đến các thiết bị và đồ gia dụng.
Amazon Polly đi kèm với bốn công cụ giọng nói dựa trên các kiến trúc mô hình AI khác nhau, phù hợp với các trường hợp sử dụng khác nhau. Để sử dụng giọng nói Amazon Polly, chỉ cần chọn công cụ, thao tác tổng hợp giọng nói và định dạng tệp đầu ra thông qua API trong mã của bạn. Sau đó cung cấp văn bản đầu vào cho công cụ để tổng hợp. Amazon Polly sẽ tạo tệp đầu ra giọng nói ở định dạng bạn yêu cầu. Những công cụ này cũng có thể được đào tạo thêm cho các yêu cầu cụ thể về giọng nói hoặc thương hiệu.
Những đặc điểm nào cần có ở một phần mềm chuyển văn bản thành giọng nói?
Amazon Polly bao gồm các tính năng chuyển văn bản thành giọng nói sau đây cần thiết cho sự phát triển giọng nói hiện đại.
Phạm vi giọng nói
Việc có tùy chọn lựa chọn nhiều ngôn ngữ, khu vực, giới tính và giọng đọc trong cùng một khu vực sẽ cung cấp một bộ sản phẩm toàn diện hơn cho việc phát triển. Amazon Polly hỗ trợ hàng chục ngôn ngữ, cùng với các biến thể và điểm nhấn dựa trên quốc gia của chúng ở cả định dạng nam và nữ.
Tích hợp dựa trên API
Kiểm tra xem phần mềm TTS của bạn có API đầy đủ chức năng và có sẵn trong nhiều ngôn ngữ lập trình, để có phạm vi tích hợp rộng nhất giữa các dự án. Amazon Polly cung cấp API Amazon Polly và các SDK dành riêng cho ngôn ngữ khác nhau. Có thể truy cập công cụ này từ Bảng điều khiển quản lý AWS và Giao diện dòng lệnh (CLI) AWS. Bạn có toàn quyền kiểm soát tất cả các khả năng của Amazon Polly, bất kể mục đích sử dụng.
Điều khiển giọng nói chính xác
Ngôn ngữ đánh dấu tổng hợp giọng nói (SSML) là một ngôn ngữ đánh dấu dựa trên XML cho phép bạn cung cấp thêm thông tin về sắc thái bài nói của bạn. Ví dụ: bạn có thể bao gồm các khoảng tạm dừng, diễn giải (ví dụ: ngày tháng, từ viết tắt), cao độ, tốc độ, âm lượng, nhấn mạnh, giọng nói nhỏ dần và các yếu tố âm thanh khác để tùy chỉnh giọng nói được tạo. SSML cho phép bạn kiểm soát hoàn toàn đầu ra giọng nói và chuyển tùy chỉnh sang các hệ thống khác.
Amazon Polly hỗ trợ cả thẻ Amazon SSML phổ biến và tùy chỉnh, chẳng hạn như khả năng tạo ra giọng nói giống như một phát thanh viên. Tính linh hoạt này giúp bạn tạo ra bài phát biểu giống như thật để thu hút và thu hút sự chú ý của khán giả.
Hook siêu dữ liệu cho hoạt ảnh được đồng bộ hóa
Một số ứng dụng, chẳng hạn như game và phương tiện truyền thông, yêu cầu hoạt ảnh với các nhân vật theo sau âm thanh, bao gồm chuyển động miệng hoặc hiện từng từ theo kiểu karaoke. Các video đào tạo đa ngôn ngữ cũng sẽ được hưởng lợi từ việc đồng bộ hóa thời gian giữa nhiều ngôn ngữ, để âm thanh của tất cả các ngôn ngữ đều khớp với video tại cùng một thời điểm.
Đối với loại ứng dụng này, các nhà phát triển cần có siêu dữ liệu để đánh dấu những yếu tố lời nói nào xuất hiện tại thời điểm nào, dưới định dạng có dấu thời gian. Amazon Polly cho phép bạn yêu cầu siêu dữ liệu bổ sung hoặc dấu giọng nói cùng với tệp giọng nói của bạn. Dấu giọng nói cung cấp thông tin như dấu thời gian của tệp âm thanh, visemes (vị trí của khuôn mặt và miệng khi nói một từ) và các chi tiết khác liên kết văn bản đã viết với đầu ra giọng nói.
Tùy chỉnh
Bạn muốn phần mềm chuyển văn bản thành giọng nói của mình hoàn toàn có thể tùy chỉnh để có tính linh hoạt tối đa. Ví dụ: đầu ra âm thanh phải được tùy chỉnh cho các định dạng và cấu hình khác nhau, bao gồm theo loại tệp (ví dụ:), kích thước tệp và chất lượng dữ liệu. Phần mềm sẽ có thể xử lý từ vựng tùy chỉnh nằm ngoài dữ liệu đào tạo của nó.
Amazon Polly hỗ trợ tùy chỉnh văn bản thành giọng nói ở mọi giai đoạn.
Từ vựng
Bạn có thể tạo một từ điển tùy chỉnh với cách phát âm được cá nhân hóa cho tên công ty, từ viết tắt, từ nước ngoài và tân ngữ. Bạn có thể yêu cầu đầu ra ở nhiều định dạng giọng nói, chẳng hạn như MP3 và WAV.
Định dạng đầu ra
Amazon Polly cũng hỗ trợ âm thanh dạng dài, chẳng hạn như đọc tài liệu, bằng giọng nói tự nhiên. Bạn có thể tạo luồng âm thanh liên tục cho các kết nối băng thông thấp hơn hoặc độ trễ thấp trong các trường hợp sử dụng thời gian thực.
Giọng nói
Chúng tôi cũng cung cấp Brand Voice – đây là một hợp đồng dịch vụ tùy chỉnh mà bạn sẽ làm việc với nhóm Amazon Polly để xây dựng giọng nói được sử dụng độc quyền cho tổ chức của bạn. Thay vì nghe giống như các ứng dụng khác, bạn có thể tạo một nhãn hiệu dựa trên giọng nói độc đáo giúp bạn nổi bật.
Làm thế nào để bắt đầu sử dụng phần mềm chuyển văn bản thành giọng nói?
Bắt đầu sử dụng phần mềm chuyển văn bản thành giọng nói của AWS rất dễ dàng. Trong hướng dẫn này, chúng tôi sẽ giới thiệu bản mẫu hướng dẫn nhanh về Amazon Polly trong bảng điều khiển.
Đầu tiên, đăng nhập vào Bảng điều khiển quản lý AWS rồi mở Bảng điều khiển Amazon Polly. Nhấp vào Try Polly để bắt đầu. Thao tác này sẽ hiển thị hộp thoại Chuyển văn bản thành giọng nói.
Bước 1 – Chọn công cụ
Trong hộp thoại Chuyển văn bản thành giọng nói, bạn có thể chọn công cụ thoại bạn muốn sử dụng. Amazon Polly hiện có bốn công cụ thoại khác nhau cho bạn lựa chọn.
- Công cụ Tiêu chuẩn sử dụng phương pháp tổng hợp nối để tạo giọng nói.
- Công cụ Thần kinh sử dụng mạng nơ-ron và bộ mã hóa giọng nói để tạo ra giọng nói tự nhiên hơn.
- Công cụ Tạo sinh sử dụng một mô hình tỷ tham số được đào tạo trên nhiều loại dữ liệu giọng nói để có giọng nói tự nhiên hơn nữa.
- Công cụ Dạng dài là một công cụ chuyển văn bản thành giọng nói với AI tạo sinh khác, được phát triển cho các bài nói dài, theo phong cách tường thuật.
Không phải tất cả các công cụ đều có sẵn ở tất cả các khu vực AWS.
Bước 2 – Chọn ngôn ngữ
Sau khi chọn công cụ giọng nói, hãy chọn Ngôn ngữ bạn muốn tạo và Giọng nam hoặc nữ từ các menu thả xuống.
Mỗi công cụ giọng nói hỗ trợ một loạt các ngôn ngữ và giọng nói AI khác nhau. Ví dụ: nếu bạn chọn Công cụ Nơ-ron, chỉ các ngôn ngữ và giọng nói hỗ trợ Chuyển văn bản thành giọng nói bằng nơ-ron (NTTS) mới có sẵn và tất cả giọng nói Tiêu chuẩn và Dạng dài sẽ bị vô hiệu hóa.
Bước 3 – Chuyển đổi văn bản thành giọng nói
Trong hộp Nhập văn bản, thay đổi văn bản mặc định thành văn bản viết của riêng bạn. Bạn có thể chọn nút Nghe để nghe kết quả đầu ra, nút Tải xuống để tải xuống tệp MP3 hoặc nút Lưu vào S3 để lưu các từ được nói vào Amazon Simple Storage Service.
Truy cập Amazon Polly thông qua API
Bạn có thể truy cập Amazon Polly thông qua bảng điều khiển, như đã nêu ở trên hoặc thông qua API của nó trong mã ứng dụng. API Amazon Polly cho phép bạn làm nhiều việc, từ dịch theo thời gian thực đến tạo phụ đề và hiện thực hóa trò chơi điện tử hoặc các nhân vật hoạt hình khác. Hãy thử một số mẫu trên GitHub để biết ví dụ về cách sử dụng API Amazon Polly trong mã.
AWS có thể hỗ trợ nhu cầu của phần mềm chuyển văn bản thành giọng nói của bạn như thế nào?
Tính năng chuyển văn bản thành giọng nói cho phép bạn tạo âm thanh dựa trên giọng nói thông qua văn bản thay vì lời nói của con người. Ban đầu tính năng này được sử dụng như một công nghệ hỗ trợ cho những người khiếm thị, nhưng hiện đang trở thành một yêu cầu trong nhiều ứng dụng và tương tác với khách hàng, từ tiện ích mở rộng trình duyệt đến trung tâm cuộc gọi và ứng dụng doanh nghiệp. Sử dụng dịch vụ được quản lý như Amazon Polly, các nhà phát triển có thể dễ dàng tích hợp một công cụ thoại hiện đại, giống như thật vào các ứng dụng thông qua các lệnh gọi API chuyển văn bản thành giọng nói. Amazon Polly thu phí dựa trên công cụ và số lượng ký tự được xử lý, đồng thời bao gồm một cấp độ miễn phí để sử dụng cá nhân.
Âm thanh giọng nói của Amazon Polly chỉ là một trong những dịch vụ AI tạo sinh mà bạn có thể tận dụng trong phát triển ứng dụng. Hãy xem qua một loạt các giải pháp AI trên AWS để giúp bạn xây dựng và điều chỉnh quy mô các ứng dụng nhanh hơn và mạnh mẽ hơn.