Apa yang Dimaksud dengan Perangkat Lunak Teks-ke-Suara?
Apa yang dimaksud dengan perangkat lunak teks-ke-suara?
Dari halaman web yang dibacakan secara lisan hingga permintaan data pengguna, suara semakin menjadi standar sebagai antarmuka pengguna modern. Pelanggan semakin mengharapkan adanya kemampuan suara di setiap aplikasi yang mereka gunakan. Selain itu, penggunaan teks-ke-suara dalam bidang kesehatan, penjualan, pembuatan konten, layanan pelanggan, dan aplikasi lain dapat mempercepat otomatisasi sambil meningkatkan pengalaman pelanggan. Panduan ini mengeksplorasi fitur dan kemampuan teks-ke-suara serta cara memulai penggunaannya.
Perangkat lunak text-to-voice atau text-to-speech (TTS) menghasilkan audio berupa ‘suara’ dengan menyintesis ucapan dari teks. Perangkat lunak ini didukung oleh mesin teks-ke-ucapan yang dilatih menggunakan sejumlah besar rekaman suara manusia. Mesin ini mengubah kata-kata tertulis menjadi bentuk ucapan dengan menganalisis gelombang suara dalam data suara.
Suara yang kaku dan terdengar seperti robot merupakan hasil dari teknologi ucapan yang sudah usang. Mesin teks-ke-ucapan modern yang didasarkan pada kecerdasan buatan generatif menghasilkan output yang hampir tidak dapat dibedakan dari ucapan manusia. Suara yang dihasilkan dapat mencakup jeda alami, berbagai aksen, kecepatan yang berbeda, dan intonasi yang mencerminkan emosi manusia.
Jenis perangkat lunak teks-ke-ucapan
Jenis alat Teks ke Ucapan yang Anda pilih tergantung pada kasus penggunaan Anda. Bagi para pengembang, paket serba ada yang dapat disesuaikan dan terintegrasi adalah pilihan terbaik untuk pengembangan multi-aplikasi dan multi-lingkungan.
Pengembang dapat memilih antara perangkat lunak TTS open-source dan komersial dengan deployment yang dikelola sendiri, atau layanan cloud terkelola sepenuhnya sepertiAmazon Polly. Hal ini memungkinkan aplikasi yang sudah ada untuk mengintegrasikan suara sebagai fitur utama, membuka peluang untuk kategori produk baru yang didukung suara, mulai dari aplikasi seluler dan mobil hingga perangkat dan peralatan rumah tangga.
Amazon Polly dilengkapi dengan empat mesin suara yang didasarkan pada arsitektur model AI yang berbeda, cocok untuk berbagai kasus penggunaan. Untuk menggunakan suara Amazon Polly, cukup pilih mesin, operasi sintesis suara, dan format file output melalui API dalam kode Anda. Lalu masukkan teks sebagai input untuk disintesis oleh mesin. Amazon Polly akan menciptakan file output suara dalam format yang Anda minta. Mesin-mesin ini juga dapat dilatih lebih lanjut untuk persyaratan suara atau merek tertentu.
Apa saja fitur-fitur yang perlu diperhatikan dalam perangkat lunak teks ke suara?
Amazon Polly mencakup fitur-fitur teks-ke-suara berikut yang esensial untuk pengembangan suara modern.
Rentang suara
Memiliki opsi untuk memilih berbagai bahasa, wilayah, jenis kelamin, dan suara dalam suatu wilayah memberikan rangkaian produk yang lebih lengkap untuk pengembangan. Amazon Polly mendukung puluhan bahasa, beserta variasi dan aksen berdasarkan negara dalam format pria dan wanita.
Integrasi berbasis API
Pastikan bahwa perangkat lunak TTS Anda memiliki API yang berfungsi sepenuhnya dan tersedia dalam berbagai bahasa pemrograman, untuk integrasi yang paling luas di berbagai proyek. Amazon Polly menyediakan Amazon Polly API dan berbagai SDK yang spesifik untuk bahasa tertentu. Ini juga dapat diakses melalui AWS Management Console dan AWS Command Line Interface (CLI). Anda memiliki kendali penuh atas semua kemampuan Amazon Polly, terlepas dari cara Anda menggunakannya.
Kontrol suara yang akurat
Speech Synthesis Markup Language (SSML) adalah bahasa markup berbasis XML yang memungkinkan Anda memberikan informasi tambahan tentang bagaimana suara ucapan Anda seharusnya terdengar. Misalnya, Anda dapat menyertakan jeda, interpretasi (misalnya, tanggal, singkatan), nada, kecepatan, volume, penekanan, pudar masuk, dan elemen audio lainnya untuk menyesuaikan suara yang dihasilkan. SSML memungkinkan Anda untuk sepenuhnya mengontrol keluaran suara dan mentransfer kustomisasi ke sistem lain.
Amazon Polly mendukung baik tag Amazon SSML umum maupun kustom, seperti kemampuan untuk membuat suara terdengar seperti pembaca berita. Fleksibilitas ini membantu Anda menciptakan ucapan yang realistis yang mampu menarik dan mempertahankan perhatian audiens.
Hook metadata untuk animasi tersinkronisasi.
Beberapa aplikasi, seperti gim dan media, memerlukan animasi dengan karakter yang mengikuti audio, termasuk gerakan mulut atau fitur mengikuti teks lagu seperti karaoke. Video pelatihan multibahasa juga akan diuntungkan dengan sinkronisasi waktu yang serentak dalam berbagai bahasa, sehingga audio dan video sejalan secara bersamaan untuk semua bahasa.
Untuk jenis aplikasi semacam ini, pengembang memerlukan metadata untuk menandai elemen-elemen ucapan yang terjadi pada waktu tertentu dalam format yang diberi cap waktu. Amazon Polly memungkinkan Anda untuk meminta metadata tambahan, atau tanda ucapan, bersama dengan berkas suara Anda. Tanda ucapan menyediakan informasi seperti cap waktu berkas audio, visemes (posisi wajah dan mulut saat mengucapkan kata), dan detail lain yang menghubungkan teks tertulis dengan keluaran suara.
Penyesuaian
Anda ingin perangkat lunak teks-ke-ucapan Anda sepenuhnya dapat disesuaikan untuk fleksibilitas maksimal. Misalnya, output audio harus dapat disesuaikan untuk berbagai format dan konfigurasi, termasuk berdasarkan jenis file (misalnya), ukuran file, dan kualitas data. Perangkat lunak harus mampu menangani kosakata khusus yang tidak termasuk dalam data pelatihan.
Amazon Polly mendukung penyesuaian teks-ke-suara di setiap tahap.
Kosakata
Anda dapat membuat kamus kustom dengan pengucapan yang disesuaikan untuk nama perusahaan, akronim, kata-kata asing, dan neologisme. Anda dapat meminta output dalam beberapa format suara, seperti MP3 dan WAV.
Format keluaran
Amazon Polly juga mendukung audio berdurasi panjang, seperti membacakan dokumen, dengan suara yang terdengar alami. Anda dapat menghasilkan aliran audio berkelanjutan untuk koneksi dengan bandwidth rendah atau latensi rendah dalam skenario penggunaan waktu nyata.
Suara
Kami juga menyediakan Brand Voice, sebuah layanan khusus di mana Anda bekerja sama dengan tim Amazon Polly untuk membangun suara yang digunakan secara eksklusif oleh organisasi Anda. Daripada terdengar seperti aplikasi lain, Anda dapat menciptakan tanda merek berbasis suara yang unik untuk membantu Anda menonjol.
Bagaimana cara Anda memulai dengan perangkat lunak text-to-voice?
Memulai penggunaan perangkat lunak teks-ke-suara AWS sangat mudah. Dalam panduan ini, kami akan memandu Anda melalui demo singkat tentang cara menggunakan Amazon Polly di konsol.
Pertama, masuk ke AWS Management Console dan bukakonsol Amazon Polly. Klik Try Polly untuk memulai. Ini akan menampilkan dialog Text-to-Speech.
Langkah 1—Pilih mesin
Dalam dialog Text-to-Speech, Anda dapat memilih mesin suara mana yang ingin Anda gunakan. Amazon Polly sekarang ini memiliki empat mesin suara yang berbeda untuk dipilih.
- Mesin Standar menggunakan metode sintesis konkatenatif sebagai penghasil suara.
- Mesin Neural menggunakan neural network dan metode vocoder untuk menghasilkan suara yang terdengar lebih alami.
- Mesin Generatif menggunakan model miliaran parameter yang dilatih pada berbagai macam data suara untuk menghasilkan ucapan yang terdengar lebih alami.
- Mesin Long-form adalah mesin text-to-speech berbasis kecerdasan buatan generatif lainnya, yang dikembangkan untuk teks naratif panjang.
Tidak semua mesin tersedia di semua wilayah AWS.
Langkah 2—Pilih bahasa
Setelah Anda memilih mesin suara, pilih bahasa yang ingin Anda gunakan dan suara pria atau wanita dari menu drop-down.
Setiap mesin suara menyediakan berbagai bahasa dan suara AI yang berbeda. Misalnya, jika Anda memilih Neural untuk Engine, hanya bahasa dan suara yang mendukung Neural Text-to-Speech (NTTS) yang tersedia, dan semua suara Standard dan Long Form dinonaktifkan.
Langkah 3—Konversi teks menjadi suara
Di kotak teks Input, ubah teks bawaan dengan teks yang Anda tulis sendiri. Anda dapat memilih tombol Dengarkan untuk mendengarkan output dibacakan secara lisan, tombol Unduh untuk mengunduh berkas MP3, atau tombol Simpan ke S3 untuk menyimpan kata-kata yang dibacakan ke Amazon Simple Storage Service.
Mengakses Amazon Polly melalui API
Anda dapat mengakses Amazon Polly melalui konsol, seperti yang dijelaskan di atas, atau melalui API-nya dalam kode aplikasi. API Amazon Polly memungkinkan Anda melakukan banyak hal, mulai dari terjemahan waktu nyata hingga pembuatan subtitle dan menghidupkan karakter dalam video gim atau animasi lainnya. Cobalah beberapa contoh di GitHub untuk melihat cara menggunakan Amazon Polly API dalam kode.
Bagaimana AWS dapat mendukung kebutuhan perangkat lunak teks-ke-suara Anda?
Teks-ke-suara memungkinkan Anda membuat audio berbasis suara menggunakan teks alih-alih ucapan manusia. Ini awalnya digunakan sebagai teknologi bantu untuk orang-orang dengan gangguan penglihatan, namun kini menjadi persyaratan dalam banyak aplikasi dan interaksi pelanggan, mulai dari ekstensi browser hingga pusat panggilan dan aplikasi perusahaan. Menggunakan layanan terkelola seperti Amazon Polly, pengembang dapat dengan mudah mengintegrasikan mesin suara modern dan realistis ke dalam aplikasi melalui panggilan API teks-ke-suara. Harga Amazon Polly didasarkan pada mesin dan jumlah karakter yang diproses, dan termasuk tingkatan gratis untuk penggunaan pribadi.
Audio lisan Amazon Polly hanyalah salah satu layanan kecerdasan buatan generatif yang dapat Anda manfaatkan dalam pengembangan aplikasi. Lihatlah berbagai solusi AI di AWS untuk membantu Anda membangun dan mengembangkan aplikasi dengan lebih cepat dan lebih kuat.