- Apa itu Komputasi Cloud?›
- Hub Konsep Komputasi Cloud›
- Kecerdasan Buatan
Apa yang dimaksud Transkripsi File Audio?
Apa yang dimaksud transkripsi file audio?
Organisasi membutuhkan transkripsi audio dalam skala besar untuk berbagai kasus penggunaan, mulai dari catatan rapat yang sistematis hingga penerapan di bidang perawatan kesehatan. Teknologi AI modern dapat mentranskripsikan audio ke teks, mengubah percakapan multi-aksen yang melibatkan beberapa pembicara ke dalam dokumen yang akurat dan terformat. Panduan ini menjabarkan berbagai metode untuk mentranskripsikan audio ke teks untuk kebutuhan perusahaan dan bisnis kecil.
Komunikasi berbasis ucapan sangat penting bagi manusia agar sepenuhnya memahami satu sama lain. Suara adalah metode cepat dan titik waktu untuk mengomunikasikan gagasan, informasi, instruksi, dan emosi. Merekam dan membuat transkripsi komunikasi suara melalui konverter audio-ke-teks telah menjadi penting untuk mengingat, menjaga keakuratan, dan menyelesaikan pekerjaan selanjutnya. Saat Anda mentranskripsi audio ke teks, informasi penting dapat dipertahankan, ditelusuri, dianalisis, dan dipadukan ulang untuk wawasan yang lebih cepat dan integrasi instan ke dalam proses bisnis.
Dulu, seseorang mendengarkan satu rekaman audio dan seketika mengetik isinya, menghentikannya dan kemudian mengubah kata-kata yang ada di dalamnya dan sejak itulah transkrip akurat dibuat. Firma hukum, dokter, peneliti, dan kantor profesional lainnya memakai juru ketik untuk melakukan peran manual ini dalam menyalin audio ke teks dari catatan suara.
Sekarang, mesin dapat mentranskripsikan audio secara cepat dengan bantuan konverter audio-ke-teks. Alih-alih menggunakan tenaga manusia dalam melakukan transkripsi, teknologi ucapan-ke-teks (STT) mengubah file audio menjadi teks tertulis. File teks tertulis ini dapat dibaca apa adanya, diringkas dengan menggunakan pentranskrip AI, secara otomatis bertindak dalam sistem perangkat lunak lain, dianalisis secara terpisah atau sebagai bagian dari korpus yang lebih luas, dan masih banyak lagi. Penerapan konverter audio-ke-teks tidak terbatas.
Apa yang dimaksud teknologi transkripsi file audio?
File audio mungkin berisi berbagai pembicara, aksen, dan kata-kata khusus domain. Rekaman audio juga dapat bermacam-macam dalam kualitas suara. Mengonversi kata-kata lisan menjadi teks membutuhkan pemahaman bahasa vokal dan sintaks bahasa dan pengetahuan tata bahasa untuk menghasilkan keluaran yang dapat dibaca.
Perangkat lunak konverter audio-ke-teks yang sebelumnya membuat kesalahan dan menghasilkan transkrip yang sulit dibaca, tanpa struktur yang tepat, dan kesalahan hierarki, kata, dan tata bahasa. Perangkat lunak konverter audio-ke-teks modern berkinerja jauh lebih baik, mengubah audio menjadi teks yang sangat cocok dengan kata yang diucapkan, dengan transkrip akurat yang menampilkan struktur tertulis dan tata bahasa yang tepat.
Amazon Transcribe merupakan suatu layanan terkelola sepenuhnya yang mengubah ucapan menjadi teks dengan menggunakan teknologi pengenalan ucapan (ASR) otomatis. Layanan ini dapat menangani berbagai karakteristik ucapan, termasuk variasi dalam kecepatan berbicara, nada, dan volume. Layanan ini dapat mentranskripsi lebih dari 100 bahasa, terhubung ke alur kerja pengembang dan infrastruktur AWS untuk persyaratan audio-ke-teks perusahaan.
Cara memulai melakukan transkripsi audio?
Ada dua metode utama untuk mentranskripsikan audio ke teks, menurut jenis file audio atau video. Transkripsi batch dipakai untuk menyalin file audio yang telah direkam sebelumnya, dan transkripsi streaming digunakan untuk menyalin aliran media langsung.
Amazon Transcribe mendukung audio saluran tunggal dan saluran ganda untuk jenis transkripsi audio dan video batch dan streaming.
Transkripsi audio-ke-teks batch dan streaming dihasilkan dalam format file JSON. Bidang yang ada dalam output bergantung pada fitur yang Anda sertakan dalam permintaan transkripsi Anda saat mengonversi audio. Minimal, transkrip Anda terdiri dari masing-masing kata yang diberikan, waktu mulai, waktu akhir, jenis, kecocokan filter kosakata, dan skor keyakinan untuk dapat diverifikasi. Bidang lain mencakup label pembicara, kata alternatif, saluran, dan masih banyak lagi.
Streaming Transkripsi
Transkripsi streaming digunakan untuk mentranskripsikan streaming audio secara waktu nyata. Layanan transkripsi streaming Amazon Transcribe mendukung format audio FLAC dan PCM bertanda 16-bit little-endian (bukan WAV) sebagai format pilihan, bersama dengan Ogg Opus. Tetapkan tingkat sampel yang cocok dengan file audio untuk menghindari kesalahan audio-ke-teks.
Anda dapat menggunakan Konsol Manajemen AWS, HTTP/2, WebSockets, dan beragam AWS SDK untuk streaming transkripsi, tergantung bagaimana Anda ingin menggunakan alat transkripsi.
Panduan transkripsi audio streaming menggunakan AWS Management Console dijelaskan di bawah ini.
- Pilih Transkripsi secara langsung di panel navigasi sebelah kiri.
- Pilih opsi seperti bahasa, identifikasi pembicara, penghapusan konten, dan penyesuaian sebelum streaming Anda dimulai.
- Klik tombol Mulai streaming untuk merekam langsung secara waktu nyata dan melihat output yang akan mulai membuat transkripsi di kotak output Transkripsi di bawah ini.
Setelah konversi rekaman audio selesai, Anda dapat mengeklik tombol Unduh transkrip penuh untuk mengunduh transkrip file JSON secara gratis.
Transkripsi file batch
Transkripsi batch digunakan untuk mentranskripsikan satu atau lebih file media yang ada dan yang tersimpan dalam bucket penyimpanan cloud Amazon S3. Dengan layanan batch, Anda dapat mengunggah hingga 10.000 tugas file audio dalam antrian untuk diproses dalam sistem FIFO (pertama-masuk, pertama keluar). Tugas perekaman suara dapat diproses secara bersamaan, mengonversi file audio sekaligus, tergantung pada langganan Anda.
Transkripsi batch mendukung FLAC dan WAV (dengan pengodean PCM 16-bit) sebagai format pilihan. Meski demikian, format lain seperti AMR, M4A, MP3, MP4, Ogg, dan WebM juga didukung. Pastikan untuk mengatur tingkat sampel yang cocok dengan file audio untuk menghindari kesalahan audio-ke-teks.
Anda dapat menggunakan AWS CLI, Konsol Manajemen AWS, dan berbagai AWS SDK untuk mengonversi audio menjadi teks menggunakan proses transkripsi batch.
Panduan transkripsi audio batch dengan Konsol Manajemen AWS dijelaskan di bawah ini.
- Unggah file media yang ingin Anda transkripsikan ke bucket Amazon S3.
- Pilih Tugas transkripsi di panel navigasi sebelah kiri. Ini membawa Anda ke daftar tugas transkripsi Anda.
- Pilih Buat tugas dan isi bidang pada halaman Tentukan detail pekerjaan.
- Setelah Anda mengonfigurasi pekerjaan, klik tombol Buat tugas untuk memulai.
- Kembali ke halaman Tugas transkripsi, di mana Anda dapat melihat status tugas Anda.
- Pilih jalur file yang ditautkan di kolom sebelah kanan di bawah Lokasi data keluaran untuk melihat transkripsi file JSON Anda.
Catatan: Jika Anda memilih bucket yang dikelola layanan untuk keluaran, Anda dapat melihat Panel pratinjau transkripsi di halaman informasi tugas transkripsi Anda, bersama dengan tombol Unduh untuk file audio-ke-teks JSON Anda.
Lengkapi halaman berikut ini selama konfigurasi..
Data input
Di bawah halaman Data input, lokasi file input di S3 adalah file audio Anda di Bucket S3 yang ada, dan Data output adalah bucket yang dikelola layanan S3 atau bucket S3 Anda sendiri.
Konfigurasikan tugas
Halaman Konfigurasikan tugas memungkinkan Anda memilih penyesuaian seperti identifikasi saluran, penyuntingan dan pemfilteran konten, dan kosakata khusus.
Apa saja beberapa kemampuan transkripsi tambahan lainnya?
Amazon Transcribe memiliki berbagai fitur tambahan untuk membuat transkrip yang lebih bermanfaat, aman, dan akurat saat Anda mengonversi file audio atau video.
Kosakata khusus dan model bahasa
Para pengguna dapat menambahkan kosakata khusus dan model bahasa untuk menangkap dan mentranskripsi audio secara akurat dengan nama merek khusus domain, akronim, berbagai kata teknis, dan jargon. Model bahasa khusus berguna bagi organisasi besar dengan ekosistem bahasa internal yang berkembang pesat atau industri teknis yang sangat spesifik.
Kosakata khusus adalah file yang dibuat pengguna yang menunjukkan cara melafalkan kata-kata tertentu. Misalnya, proyek bernama VX02Q dapat ditambahkan ke kosakata khusus dengan pelafalan V.X.-Zero-Two-Q.
Model bahasa khusus memungkinkan model audio-ke-teks untuk menyelesaikan pelatihan tambahan pada set data yang ada untuk memahami konteks bahasa khusus domain. Sebagai contoh, jika Anda melatih model Anda dengan unggahan teks makalah penelitian ilmu pengetahuan iklim, model Anda mungkin mengenali bahwa 'lapisan es' adalah pasangan kata yang lebih mungkin daripada 'aliran es'. Demikian pula, jika Anda mereferensikan produk bernama 'Bzntry', set data file audio dengan beberapa penyebutan “bee-zen-tree” secara otomatis akan mencocokkan audio dengan output kata.
Transkripsi audio-ke-teks batch dan streaming membantu kosakata khusus dan model bahasa khusus.
Moderasi otomatis
Filter kosakata khusus memungkinkan Anda untuk menutupi, mengganti, atau menandai (“VocabularyFilterMatch”: true) kombinasi kata atau kata tertentu dalam output transkrip JSON.
Contoh:
- Menyembunyikan kata-kata kotor dengan tiga tanda bintang (***)
- Mengganti nama produk rahasia pra-peluncuran dengan kata 'NewProduct'
- Hitung jumlah tanda berlabel “um” atau “suka” dalam transkrip untuk membantu pembicara mengasah keterampilan berbicara di depan umumnya
Transkripsi audio-ke-teks batch dan streaming kedua-duanya mendukung filter kosakata.
Penyuntingan dan identifikasi PII
Informasi identifikasi pribadi (PII) dapat secara otomatis disunting dan ditandai dalam transkrip audio-ke-teks. Menjaga kerahasiaan informasi sensitif merupakan hal penting dalam bisnis mengingat PII seringkali diatur oleh undang-undang kerahasiaan yang ketat.
Jenis PII yang dapat diidentifikasi dalam Amazon Transcribe mencakup nama, alamat, alamat email, nomor telepon, rincian nomor rekening bank, PIN, dan Nomor Jaminan Soal. Kata dalam file JSON diganti dengan [PII] di badan utama teks transkrip Anda oleh konverter audio-ke-teks. Kemudian, jumlah dan kategori yang “disunting” tersebut dicatat dan ditampilkan dalam bidang JSON.
Takarir
Amazon Transcribe memungkinkan pengguna untuk menghasilkan file takarir dalam format WebVTT (*.vtt) dan SubRip (*.srt) untuk dipasangkan dengan video, di samping output file JSON biasa. Takarir ditampilkan pada saat yang sama saat teks diucapkan dalam file audio atau video, dan tetap terlihat sampai ada jeda alami dalam audio atau saat pembicara selesai berbicara.
Deteksi toksisitas
Amazon Transcribe dapat digunakan untuk mengenali dan mengelompokkan bahasa negatif. Konten ditandai ditandai dan dikelompokkan dalam tujuh kategori, mencakup pelecehan seksual, ujaran kebencian, ancaman, pelecehan, kata-kata kotor, penghinaan, dan grafik. Amazon Transcribe menggunakan teknik identifikasi canggih, termasuk nada dan tinggi nada, untuk memberikan konteks tambahan pada percakapan.
Analitik panggilan
Amazon Transcribe menawarkan API yang dikhususkan untuk layanan pelanggan dan panggilan penjualan. Anda dapat menggunakannya untuk mendapatkan wawasan tentang sentimen pelanggan dan agen, driver panggilan, penyebutan frasa, waktu non-bicara, interupsi, kecepatan bicara, deteksi masalah waktu nyata, dan ringkasan percakapan. Amazon Transcribe juga dapat melakukan penyuntingan rekaman audio pasca-panggilan, menggantikan PII dengan diam untuk panggilan yang tersimpan.
Transkripsi medis
Amazon Transcribe menawarkan API yang sesuai dengan HIPAA dengan menyediakan transkripsi audio-ke-teks bahasa medis yang akurat dari file audio sekaligus memprioritaskan privasi dan keamanan data pasien. Hal ini berguna dalam interaksi klinik-pasien, di mana pencatatan memakan waktu, mengganggu, dan menghambat.
Bagaimana AWS dapat memenuhi kebutuhan transkripsi audio Anda?
Transkripsi audio-ke-teks membawa suara dari metode komunikasi titik waktu ke sumber data yang tersimpan, dapat ditelusuri, dapat dianalisis, dan sangat berharga. Organisasi yang menggunakan pengenalan suara untuk menyalin audio menemukan manfaat berarti dalam produktivitas, pelatihan, layanan pelanggan, penjualan, dan masih banyak lagi.
Menyematkan konverter audio-ke-teks Amazon Transcribe dalam organisasi Anda memastikan rekaman suara mempertahankan nilai dan melipatgandakan aplikasi berguna mereka. Lihatlah berbagai solusi AI di AWS untuk membantu Anda membangun dan mengembangkan aplikasi dengan lebih cepat dan lebih kuat.