Gambaran Umum

Amazon Transcribe memungkinkan pelanggan AWS untuk menambahkan kemampuan ucapan-ke-teks di aplikasi mereka yang mendukung suara. Dengan teknologi Pengenalan Ucapan Otomatis (ASR), pelanggan dapat menggunakan Amazon Transcribe untuk berbagai aplikasi bisnis. Fitur yang disediakan oleh layanan ini meliputi pengenalan suara otomatis, diarisasi penutur, redaksi informasi pengenal pribadi (PII), dan identifikasi bahasa; lihat dokumentasi untuk detail selengkapnya. Kartu Layanan AI ini menjelaskan salah satu fitur tersebut, Transcribe – Batch (Inggris-AS), yang diterapkan oleh Transcribe::StartTranscriptionJob API. Fitur ini melakukan ASR dalam bahasa lokal en-AS pada bandwidth rendah (8kHz) atau tinggi (16kHz). Fitur ini beroperasi pada rekaman ucapan yang tersedia dari file audio statis (mode batch). Untuk ASR yang dilakukan hampir secara waktu nyata pada media streaming, lihat API Transcribe::StartStreamTranscription.

Kami menilai kualitas Ucapan Transcribe dengan mengukur seberapa baik kecocokan antara kata-kata dari transkrip ASR dengan kata-kata yang diucapkan dalam sampel ucapan, seperti yang ditranskripsikan oleh pendengar manusia. Ketika seorang penutur mengatakan "This system can really recognize speech," kami berharap transkrip berisi kata-kata yang diucapkan, bukan "This system can wreck a nice beach." Tiga jenis kesalahan yang mungkin muncul dalam transkripsi: substitusi (seperti mengenali wreck), penyisipan (kata-kata tambahan seperti "nice"), dan penghapusan (kata-kata yang hilang seperti "really"). Kata-kata yang ditranskripsikan dengan benar disebut berhasil. Metrik kualitas, seperti presisi, ingatan, F1, dan tingkat kesalahan kata (WER) bergantung pada jumlah keberhasilan dan kegagalan.

Keakuratan semua sistem ASR dipengaruhi oleh beberapa faktor. Sinyal audio input terdiri dari ucapan itu sendiri, yang bisa berubah karena berbagai faktor perancu. Kata-kata dan ucapan individu berbeda dari satu penutur dan penutur lainnya dalam hal frekuensi penggunaannya, cara kata diucapkan, dan cara kata digabungkan dengan kata-kata lain. Kata-kata yang berbeda dalam hal ejaan dan makna mungkin tidak berbeda dalam hal suara. Penutur dapat saling tumpang tindih atau mengganggu satu sama lain. Perangkat perekam berbeda dalam hal kualitas dan posisi relatif terhadap penutur (misalnya farfield vs nearfield). Lingkungan perekaman berbeda dalam hal tingkat kebisingan latar belakang, kerentanan terhadap gema, dan kehadiran penutur lain. Saluran transmisi bervariasi dalam hal tingkat kebisingan. Transcribe dirancang untuk membedakan audio untuk kata-kata yang berbeda, dan mengabaikan variasi perancu.

Kasus dan batasan penggunaan yang dimaksudkan

Transcribe – Batch (Inggris-AS) dimaksudkan untuk digunakan pada sampel audio yang berisi ucapan manusia yang terjadi secara alami. Fitur ini tidak dirancang untuk ucapan yang diubah secara mekanis atau digital, atau ucapan sintetis. Fitur ini disiapkan untuk menyalin kata-kata dalam bahasa Inggris AS; lihat Bahasa yang Didukung untuk bahasa lokal lainnya. Transcribe mendukung kosakata tujuan umum yang besar; pelanggan dapat menambahkan kosakata kustom dan model bahasa kustom untuk cakupan kata serta frasa dari domain khusus. Transcribe mendukung partisi penutur, yang juga dikenal sebagai pemisahan. Hingga 10 penutur unik dapat diidentifikasi dengan mengaktifkan partisi penutur dalam panggilan API.

Transcribe Batch (Inggris-AS) memiliki banyak kemungkinan aplikasi, seperti analitik pusat kontak (sentimen/kategorisasi/kecepatan bicara), transkripsi pesan suara, pembuatan takarir rapat, pembuatan takarir untuk konten media (audio atau video), dan pencarian/analitik/analisis kata kunci untuk media, termasuk pembuatan katalog atau pengindeksan arsip media. Aplikasi ini bervariasi dalam hal desain menurut 1/jumlah penutur, 2/jumlah penutur per saluran (yakni per perangkat perekam, seperti laptop atau ponsel), 3/gaya bicara yang dipakai oleh penutur, 4/kondisi perekaman (seperti lokasi dan peralatan), dan faktor lainnya. Misalnya aplikasi transkripsi pusat kontak mungkin melibatkan dua penutur; satu penutur per saluran; perekaman near-field (dengan mulut penutur dekat dengan mikrofon); dan kebisingan latar belakang yang tinggi dari lingkungan rumah penelepon dan lingkungan kerja operator pusat kontak. Contoh kedua adalah aplikasi untuk menambahkan teks tertutup video instruksional, titik masuk ke analisis media, pengindeksan, dan pencarian. Aplikasi ini akan melibatkan banyak penutur; satu saluran audio yang dibagikan kepada semua penutur; ucapan menurut skrip dengan lebih sedikit kata pengisi, jeda, dan disfluensi, tetapi lebih banyak jargon khusus domain; dan tingkat kebisingan latar belakang yang lebih rendah dan penyebab lain yang mengaburkan audio.

Design of Transcribe – Batch (Inggris-AS)

Machine learning: Transcribe dibuat menggunakan teknologi ML dan ASR. Cara kerjanya adalah sebagai berikut: (1) Mengidentifikasi fitur akustik yang relevan dari input audio. (2) Menghasilkan satu set rangkaian kandidat tingkat kata, berdasarkan fitur-fitur ini. (3) Menerapkan pemodelan bahasa untuk memberi peringkat kandidat dan mengembalikan transkripsi peringkat teratas. Lihat dokumentasi developer untuk detail panggilan API.

Harapan kinerja: Variasi individu dan perancu berbeda di antara aplikasi pelanggan. Artinya kinerja juga akan berbeda antaraplikasi, bahkan jika aplikasi mendukung kasus penggunaan yang sama. Pertimbangkan dua aplikasi transkripsi, yakni A dan B. Aplikasi A memungkinkan teks video untuk acara bincang-bincang TV, dan mengandung banyak suara per saluran rekaman, mikrofon boom berkualitas tinggi, dan kebisingan latar belakang yang dapat diabaikan. Aplikasi B membantu pusat kontak merekam panggilan pelanggan, dan meminta pelanggan berbicara dekat dengan mikrofon dengan satu suara per saluran rekaman dan dialog pelanggan tanpa skrip. Karena A dan B memiliki jenis input yang berbeda, keduanya kemungkinan akan memiliki tingkat kesalahan yang berbeda, bahkan dengan asumsi bahwa deploy setiap aplikasi dilakukan dengan sempurna menggunakan Transcribe.

Metodologi berbasis tes: Kami menggunakan beberapa set data untuk mengevaluasi kinerja. Tidak ada set data evaluasi tunggal yang memberikan gambaran mutlak kinerja. Alasannya set data evaluasi bervariasi berdasarkan susunan demografinya (jumlah dan jenis kelompok yang ditentukan), jumlah variasi perancu (kualitas konten, kesesuaian dengan tujuan), jenis dan kualitas label yang tersedia, dan faktor lainnya. Kami mengukur kinerja Transcribe dengan mengujinya pada set data evaluasi yang berisi rekaman audio dari beragam penutur yang mewakili populasi pengguna akhir, yang setiap rekamannya diberi label dengan transkripsi kebenaran dasar dan atribut demografis penutur. Kami menggambarkan performa secara keseluruhan pada set data dengan beberapa metrik, termasuk tingkat kesalahan kata dan F1, yaitu persentase yang secara seimbang mempertimbangkan persentase kata yang diprediksi dengan benar (presisi) terhadap persentase kata yang benar yang termasuk dalam prediksi (recall). Grup dalam set data dapat ditentukan oleh atribut demografis (seperti jenis kelamin, usia, dan keturunan), variabel perancu (seperti ragam peralatan perekam, jarak tiap penutur dari peralatan perekam, pascapemrosesan, dan suara latar belakang), atau kombinasi keduanya. Set data evaluasi yang berbeda bervariasi di antara faktor-faktor tersebut dan faktor lainnya. Karena itu, semua metrik – baik keseluruhan maupun untuk grup – bervariasi di setiap data set. Dengan mempertimbangkan variasi ini, proses pengembangan kami menyelidiki performa Transcribe dengan menggunakan beberapa set data evaluasi, mengambil langkah-langkah guna meningkatkan akurasi untuk grup yang mempunyai performa Transcribe paling buruk, berupaya untuk meningkatkan rangkaian set data evaluasi, lalu mengiterasi.

Keadilan dan bias: Tujuan kami adalah agar Transcribe – Batch (Inggris-AS) berfungsi dengan baik untuk penutur bahasa Inggris AS dalam beragam pengucapan, intonasi, kosakata, dan fitur tata bahasa yang dapat digunakan oleh para penutur tersebut. Kami mempertimbangkan komunitas penutur yang ditentukan oleh wilayah, seperti Midwest atau New York City, dan komunitas yang ditentukan oleh berbagai dimensi identitas, termasuk keturunan, usia, dan jenis kelamin. Untuk mencapainya, kami menerapkan proses pengembangan iteratif yang dijelaskan di atas. Sebagai bagian dari proses ini, kami menyusun set data untuk menangkap beragam penutur manusia di bawah berbagai faktor perancu. Kami secara rutin menguji set data yang memiliki label demografis yang dapat diandalkan. Kami menemukan bahwa Transcribe berkinerja baik di seluruh atribut demografis. Sebagai contoh, pada satu set data ucapan alami dengan 65 kelompok demografis, yang ditentukan oleh usia, keturunan, jenis kelamin, dan dialek regional (seperti Perempuan+Eropa, Pria+Di bawah usia 45), kami menemukan bahwa akurasi pengenalan kata F1 adalah 92% atau lebih tinggi untuk setiap kelompok penutur. Untuk transkripsi dengan partisi penutur (pemisahan) diaktifkan, pada set data yang sama kami menemukan bahwa akurasi pemisahan adalah 98% atau lebih tinggi untuk setiap kelompok penutur. Karena hasilnya bergantung pada Transcribe, alur kerja pelanggan, dan set data evaluasi, sebaiknya pelanggan juga menguji Transcribe pada konten mereka sendiri.

Kemampuan menjelaskan: Saat menyalin audio, Amazon Transcribe membuat versi berbeda dari transkrip yang sama dan memberikan skor kepercayaan diri untuk setiap versi. Jika pelanggan mengaktifkan transkripsi alternatif, Amazon Transcribe mengembalikan versi transkrip alternatif yang memiliki tingkat kepercayaan diri lebih rendah. Pelanggan dapat mengeksplorasi transkripsi alternatif untuk mendapatkan lebih banyak wawasan tentang kata dan frasa kandidat yang dihasilkan untuk setiap input audio.

Ketahanan: Kami memaksimalkan ketahanan dengan sejumlah teknik, termasuk menggunakan set data pelatihan besar yang menangkap berbagai jenis variasi dari banyak individu. Input audio yang ideal untuk ASR Transcribe berisi audio dengan kualitas perekaman tinggi, kebisingan latar belakang rendah, dan gema ruangan rendah. Namun, Transcribe dilatih agar tetap tangguh bahkan ketika input tidak memiliki kondisi ideal dan dapat bekerja dengan baik dalam pengaturan bising serta banyak penutur.

Privasi dan keamanan: Amazon Transcribe hanya memproses data input audio. Input audio tidak akan disertakan dalam output yang dihasilkan oleh layanan. Input dan output tidak akan dibagikan di antara pelanggan. Pelanggan dapat memilih tidak mengikuti pelatihan tentang konten pelanggan melalui AWS Organizations atau mekanisme pilihan tidak mengikuti lainnya yang mungkin kami sediakan. Lihat Bagian 50.3 dari Ketentuan Layanan AWS dan FAQ Privasi Data AWS untuk informasi selengkapnya. Untuk informasi privasi dan keamanan spesifik layanan, lihat bagian Privasi Data dari FAQ Transcribe dan dokumentasi Keamanan Amazon Transcribe.

Transparansi: Jika sesuai untuk kasus penggunaan mereka, pelanggan yang menyertakan Amazon Transcribe dalam alur kerja mereka diharapkan mempertimbangkan untuk mengungkapkan penggunaan teknologi ML dan ASR kepada pengguna akhir serta individu lain yang terkena dampak dari aplikasi, serta memungkinkan pengguna akhir mereka untuk memberikan umpan balik guna meningkatkan alur kerja. Dalam dokumentasi mereka, pelanggan juga dapat mereferensikan Kartu Layanan AI ini.

Tata kelola: Kami memiliki metodologi yang ketat untuk membangun layanan AI AWS dengan cara yang bertanggung jawab, termasuk proses pengembangan produk beralur mundur yang menggabungkan AI yang Bertanggung Jawab pada tahap desain, konsultasi desain, dan penilaian implementasi oleh pakar sains dan data khusus AI yang Bertanggung Jawab, pengujian rutin, peninjauan dengan pelanggan, pengembangan praktik terbaik, penyebaran informasi, dan pelatihan.

Praktik terbaik deployment dan pengoptimalan kinerja

Kami mendorong pelanggan untuk membangun dan mengoperasikan aplikasi mereka secara bertanggung jawab, seperti yang dijelaskan dalam panduan Penggunaan Machine Learning yang Bertanggung Jawab dari AWS. Hal ini termasuk menerapkan praktik AI yang bertanggung jawab untuk menangani dimensi utama termasuk keadilan dan bias, ketahanan, kemampuan menjelaskan, privasi dan keamanan, transparansi, dan tata kelola.
 
Desain alur kerja: Kinerja setiap aplikasi yang menggunakan Transcribe tergantung pada desain alur kerja pelanggan. Kondisi, seperti kebisingan latar belakang, peralatan perekam, dan lainnya dibahas di bagian Kasus Penggunaan yang Dimaksud. Tergantung pada aplikasinya, kondisi tersebut dapat dioptimalkan oleh pelanggan Transcribe, yang menentukan alur kerja saat audio ditangkap dari pengguna akhir. Transcribe menyediakan fitur bagi pelanggan untuk mengoptimalkan kinerja pengenalan dalam API. Fitur-fitur tersebut meliputi kondisi perekaman, tingkat sampel, kosakata kustom, model bahasa kustom, dan pemfilteran untuk kosakata atau informasi identifikasi pribadi (PII). Pengawasan manusia, konsistensi alur kerja, dan pengujian berkala untuk penyimpangan kinerja juga merupakan pertimbangan penting yang berada di bawah kendali pelanggan dan berkontribusi pada hasil yang akurat dan adil.
 
  1. Kondisi perekaman: Alur kerja harus mencakup langkah-langkah untuk mengatasi variasi dalam kondisi perekaman, seperti berbicara jauh dari mikrofon atau dalam kondisi bising. Jika variasinya tinggi, pertimbangkan untuk memberikan bantuan dan instruksi yang dapat diakses oleh semua pengguna akhir, dan pantau kualitas rekaman dengan mengambil sampel input secara berkala dan acak.

  2. Tingkat sampel: Pelanggan memiliki parameter opsional untuk menentukan laju sampel audio input, baik input bandwidth rendah (8kHz) atau broadband (16kHz).

  3. Kosakata kustom: Transcribe mengenali kosakata yang digunakan di berbagai komunitas penutur (wilayah dialek, kelompok demografis). Dalam kasus saat pelanggan ingin memberikan dukungan tambahan untuk kata-kata khusus dalam domain atau situasi mereka, seperti nama merek, kata benda, dan akronim yang tepat, pelanggan dapat menggunakan kosakata kustom untuk meningkatkan akurasi transkripsi untuk kata-kata tersebut. Untuk informasi selengkapnya, lihat dokumentasi untuk Kosakata Kustom.

  4. Model bahasa kustom: Ketika aplikasi pelanggan harus berhadapan dengan ucapan khusus domain yang lebih kompleks dari kata tunggal, pelanggan dapat menggunakan model bahasa kustom untuk meningkatkan akurasi transkripsi. Misalnya saat menyalin rekaman pembicaraan ilmu iklim, akurasi transkripsi dapat ditingkatkan dengan mempelajari konteks tempat kata-kata muncul (seperti "ice flow" vs "ice floe"). Dalam hal ini, pelanggan dapat menyiapkan model bahasa kustom untuk mengenali istilah khusus. Untuk informasi selengkapnya, lihat dokumentasi untuk Model Bahasa Kustom.

  5. Penyaringan kosakata dan redaksi PII: Pengoptimalan ini dapat meningkatkan keamanan dan privasi bahasa yang dihasilkan dalam transkripsi. Penyaringan Kosakata memungkinkan pelanggan untuk menutupi atau menghapus kata-kata yang sensitif atau tidak sesuai untuk audiens mereka dari hasil transkripsi, berdasarkan daftar yang ditentukan pelanggan. Redaksi PII memungkinkan pelanggan untuk membuat transkrip dengan PII yang telah dihapus, berdasarkan jenis PII yang diidentifikasi oleh Transcribe – Batch (Inggris-AS). PII tersebut meliputi nama, alamat, nomor kartu kredit, SSN, dan lainnya. Untuk informasi selengkapnya, termasuk daftar lengkap jenis PII dan pertimbangan tentang penggunaan penyensoran PII untuk beban kerja teregulasi, lihat dokumentasi untuk Pemfilteran Kosakata dan Penyensoran PII.

  6. Pengawasan manusia: Jika alur kerja aplikasi pelanggan melibatkan kasus penggunaan yang berisiko tinggi atau sensitif, seperti keputusan yang berdampak pada hak individu atau akses ke layanan penting, peninjauan manusia harus dimasukkan ke alur kerja aplikasi jika sesuai. Sistem ASR dapat berfungsi sebagai alat untuk mengurangi upaya dari solusi yang sepenuhnya manual, dan agar manusia dapat meninjau serta menilai konten audio.

  7. Konsistensi: Pelanggan harus menetapkan dan menegakkan kebijakan terkait jenis kustomisasi alur kerja dan input audio yang diizinkan, dan bagaimana manusia menggunakan penilaian mereka sendiri untuk menilai output Transcribe. Kebijakan ini harus konsisten di seluruh kelompok demografis. Modifikasi input audio yang tidak konsisten dapat menghasilkan hasil yang tidak adil untuk kelompok demografis yang berbeda.

  8. Penyimpangan kinerja: Perubahan jenis audio yang dikirimkan pelanggan ke Transcribe, atau perubahan pada layanan, dapat berujung pada output yang berbeda. Untuk mengatasi perubahan ini, pelanggan harus mempertimbangkan untuk menguji ulang kinerja Transcribe secara berkala dan menyesuaikan alur kerja mereka bila perlu.

Informasi lebih lanjut

Glosarium

Keadilan dan Bias merujuk pada cara sistem AI memengaruhi subpopulasi pengguna yang berbeda (misalnya berdasarkan jenis kelamin, etnis).

Kemampuan Menjelaskan merujuk pada memiliki mekanisme untuk memahami dan mengevaluasi output dari sistem AI.

Ketahanan merujuk pada memiliki mekanisme untuk memastikan sistem AI beroperasi dengan andal.

Privasi dan Keamanan merujuk pada data yang dilindungi dari pencurian dan paparan.

Tata Kelola merujuk pada proses untuk menentukan, menerapkan, dan menegakkan praktik AI yang bertanggung jawab dalam suatu organisasi.

Transparansi merujuk pada mengomunikasikan informasi tentang sistem AI sehingga pemangku kepentingan dapat membuat pilihan terbaik terkait penggunaan sistem mereka.