ข้ามไปที่เนื้อหาหลัก

การถอดไฟล์เสียงคืออะไร

องค์กรต่าง ๆ มีเอกสารที่ต้องการถอดเสียงจำนวนมากสำหรับกรณีการใช้งานต่าง ๆ ตั้งแต่บันทึกการประชุมที่จัดระเบียบแล้วไปจนถึงแอปพลิเคชันด้านการดูแลสุขภาพ เทคโนโลยี AI สมัยใหม่สามารถถอดเสียงเป็นข้อความ โดยเปลี่ยนสำเนียงและบทสนทนาต่าง ๆ ระหว่างผู้พูดหลายคนให้กลายเป็นเอกสารที่มีรูปแบบที่ถูกต้องแม่นยำ คู่มือนี้จะให้ข้อมูลวิธีการถอดเสียงเป็นข้อความสำหรับความต้องการขององค์กรและธุรกิจขนาดเล็ก

การสื่อสารโดยใช้คำพูดเป็นสิ่งสำคัญเพื่อให้มนุษย์เข้าใจกันอย่างแท้จริง เสียงเป็นวิธีการที่รวดเร็วในการสื่อสารความคิด ข้อมูล คำแนะนำ และอารมณ์ในขณะนั้น การบันทึกและถอดเสียงการสื่อสารด้วยเสียงผ่านตัวแปลงเสียงเป็นข้อความกลายมาเป็นสิ่งสำคัญสำหรับการจดจำข้อมูล ความแม่นยำ และการทำงานต่อไป เมื่อคุณถอดเสียงเป็นข้อความ ข้อมูลสำคัญจะถูกเก็บรักษา ค้นหา วิเคราะห์ และผสมผสานเพื่อให้ได้ข้อมูลเชิงลึกที่รวดเร็วยิ่งขึ้นและผสานรวมเข้ากับกระบวนการทางธุรกิจได้ทันที

ในอดีต บุคคลหนึ่งจะฟังการบันทึกเสียงเพียงรายการเดียวและพิมพ์เนื้อหาไปพร้อม ๆ กัน โดยแปลงคำพูดด้วยการหยุดและเริ่มเพื่อสร้างสำเนาที่ถูกต้อง สำนักงานกฎหมาย แพทย์ นักวิจัย และสำนักงานมืออาชีพอื่น ๆ มีกลุ่มนักพิมพ์เพื่อทำหน้าที่คู่มือนี้ในการถอดเสียงเป็นข้อความจากบันทึกเสียง

ปัจจุบัน เครื่องจักรสามารถถอดเสียงได้ทันทีผ่านตัวแปลงเสียงเป็นข้อความ แทนที่จะต้องใช้ความพยายามของมนุษย์ในการถอดเสียง เทคโนโลยีการแปลงคำพูดเป็นข้อความ (STT) จะแปลงไฟล์เสียงเป็นไฟล์ข้อความที่เขียนขึ้น ไฟล์ข้อความที่เขียนนี้สามารถอ่านได้ตามที่เป็นอยู่ สรุปด้วยตัวถอดเสียง AI ดำเนินการโดยอัตโนมัติภายในระบบซอฟต์แวร์อื่น วิเคราะห์แยกหรือเป็นส่วนหนึ่งของคอร์ปัสที่กว้างขึ้นและอื่น ๆ อีกมากมาย การประยุกต์ใช้ตัวแปลงเสียงเป็นข้อความนั้นไร้ขีดจำกัด

เทคโนโลยีการถอดไฟล์เสียงคืออะไร

ไฟล์เสียงอาจมีผู้พูด สำเนียง และคำเฉพาะโดเมนต การบันทึกเสียงอาจมีคุณภาพเสียงที่แตกต่างกันด้วย การแปลงคำพูดเป็นข้อความต้องใช้ความเข้าใจภาษาเสียงและความรู้เกี่ยวกับไวยากรณ์ภาษาเพื่อสร้างผลลัพธ์ที่อ่านได้

ซอฟต์แวร์แปลงไฟล์เสียงเป็นข้อความรุ่นเก่ามักเกิดข้อผิดพลาดและได้ข้อความที่อ่านยาก โดยไม่มีโครงสร้างที่เหมาะสม และมีข้อผิดพลาดด้านลำดับชั้น คำ และไวยากรณ์ ซอฟต์แวร์แปลงเสียงเป็นข้อความสมัยใหม่ทำงานได้ดีขึ้นมาก โดยแปลงเสียงเป็นข้อความที่ใกล้เคียงกับคำพูดมากที่สุด พร้อมทั้งมีข้อความถอดเสียงที่แม่นยำ มีโครงสร้างการเขียนและไวยากรณ์ที่ถูกต้อง

Amazon Transcribe เป็นบริการที่มีการจัดการอย่างเต็มรูปแบบซึ่งแปลงคำพูดเป็นข้อความโดยใช้เทคโนโลยีการจดจำคำพูดอัตโนมัติ (ASR) สามารถจัดการกับลักษณะการพูดต่าง ๆ รวมถึงความแปรปรวนของอัตราการพูด เสียงสูงต่ำ และระดับเสียง สามารถถอดเสียงได้มากกว่า 100 ภาษา เชื่อมโยงเข้ากับเวิร์กโฟลว์นักพัฒนาซอฟต์แวร์และโครงสร้างพื้นฐาน AWS สำหรับความต้องการเสียงต่อข้อความขององค์กร

จะเริ่มต้นด้วยการถอดเสียงได้อย่างไร

มีสองวิธีหลักในการถอดเสียงเป็นข้อความ ซึ่งการถอดเสียงขับเคลื่อนโดยประเภทไฟล์เสียงหรือวิดีโอ การถอดเสียงแบบแบทช์ใช้สำหรับการถอดเสียงไฟล์เสียงที่บันทึกไว้ล่วงหน้า และการถอดเสียงผ่านการสตรีมใช้สำหรับการถอดเสียงสตรีมสื่อสด

Amazon Transcribe รองรับเสียงช่องสัญญาณเดียวและสองช่องสัญญาณสำหรับทั้งประเภทการถอดเสียงและวิดีโอแบบแบทช์และผ่านการสตรีม

การถอดเสียงเป็นข้อความทั้งแบบแบทช์และผ่านการสตรีมจะส่งออกในรูปแบบไฟล์ JSON ฟิลด์ที่ให้ไว้ในเอาท์พุตจะขึ้นอยู่กับฟีเจอร์ที่คุณรวมไว้ในการร้องขอการถอดเสียงเมื่อแปลงไฟล์เสียง อย่างน้อยที่สุด การถอดเสียงของคุณจะมีคำที่กำหนดแต่ละคำ เวลาเริ่มต้น เวลาสิ้นสุด ประเภท การจับคู่ตัวกรองคำศัพท์ และคะแนนความเชื่อมั่นเพื่อการตรวจสอบ ฟิลด์อื่น ๆ ได้แก่ ป้ายกำกับผู้พูด คำที่เป็นทางเลือก ช่องสัญญาณ และอื่น ๆ

การถอดเสียงผ่านการสตรีม

การถอดเสียงผ่านการสตรีมใช้ในการถอดความสตรีมเสียงแบบเรียลไทม์ บริการการถอดเสียงผ่านการสตรีมของ Amazon Transcribe รองรับไฟล์เสียงแบบ little-endian 16 บิตแบบ FLAC และ PCM (ไม่ใช่ WAV) เป็นรูปแบบที่ต้องการ พร้อมด้วย Ogg Opus ตั้งค่าอัตราการสุ่มตัวอย่างที่ตรงกับไฟล์เสียงเพื่อหลีกเลี่ยงข้อผิดพลาดจากเสียงเป็นข้อความ

คุณสามารถใช้คอนโซลการจัดการของ AWS, HTTP/2, WebSockets และ AWS SDK ต่าง ๆ สำหรับการถอดเสียงผ่านการสตรียม ขึ้นอยู่กับว่าคุณต้องการใช้เครื่องมือถอดเสียงอย่างไร

คำแนะนำการถอดเสียงผ่านการสตรีมด้วย คอนโซลการจัดการของ AWS อธิบายไว้ด้านล่าง

  1. เลือกการการถอดเสียงแบบเรียลไทม์ในบานหน้าต่างนำทางซ้าย
  2. เลือกตัวเลือก เช่น ภาษา การระบุผู้พูด การลบเนื้อหา และการปรับแต่งก่อนเริ่มสตรีมของคุณ
  3. คลิกปุ่ม เริ่มสตรีม เพื่อบันทึกโดยตรงแบบเรียลไทม์และดูเอาต์พุตที่จะเริ่มถอดเสียงในกล่องเอาต์พุตการถอดเสียงด้านล่าง

เมื่อการแปลงบันทึกเสียงเสร็จสมบูรณ์ คุณสามารถคลิกปุ่มดาวน์โหลดการถอดเสียงเต็มรูปแบบเพื่อดาวน์โหลดไฟล์ JSON ของการถอดเสียงได้ฟรี

การถอดเสียงไฟล์แบบแบทช์

การถอดเสียงแบบแบทช์ใช้เพื่อถอดเสียงไฟล์สื่อที่มีอยู่อย่างน้อยหนึ่งไฟล์ที่เก็บไว้ในบัคเก็ตเก็บข้อมูลบนคลาวด์ Amazon S3 ด้วยบริการแบบแบทช์ คุณสามารถอัปโหลดงานไฟล์เสียงได้มากถึง 10,000 งานในคิวเพื่อประมวลผลในระบบเข้าก่อนออกก่อน งานบันทึกเสียงสามารถประมวลผลพร้อมกัน แปลงไฟล์เสียงในครั้งเดียวขึ้นอยู่กับการสมัครสมาชิกของคุณ

การถอดเสียงแบบแบทช์รองรับ FLAC และ WAV (พร้อมการเข้ารหัส PCM 16 บิต) เป็นรูปแบบที่ต้องการ อย่างไรก็ตามรูปแบบอื่น ๆ เช่น AMR, M4A, MP3, MP4, Ogg และ WebM ก็ได้รับการรองรับเช่นกัน ตรวจสอบให้แน่ใจว่าได้ตั้งค่าอัตราการสุ่มตัวอย่างที่ตรงกับไฟล์เสียงเพื่อหลีกเลี่ยงข้อผิดพลาดในการแปลงเสียงเป็นข้อความ

คุณสามารถใช้ AWS CLI, คอนโซลการจัดการของ AWS และ AWS SDK ต่าง ๆ เพื่อแปลงเสียงเป็นข้อความโดยใช้กระบวนการถอดเสียงแบบแบทช์

คำแนะนำการถอดเสียงแบบแบทช์ด้วย คอนโซลการจัดการของ AWS อธิบายไว้ด้านล่าง

  1. อัปโหลดไฟล์สื่อที่คุณต้องการถอดเสียงลงในบัคเก็ต Amazon S3
  2. เลือก งานการถอดเสียง ในหน้าต่างนำทางด้านซ้าย สิ่งนี้จะนำคุณไปยังรายการงานถอดเสียงของคุณ
  3. เลือก สร้างงาน และกรอกข้อมูลในฟิลด์บนหน้า ระบุรายละเอียดงาน
  4. เมื่อคุณกำหนดค่างานแล้ว ให้คลิกปุ่ม สร้างงาน เพื่อเริ่มต้น
  5. กลับไปที่หน้า งานการถอดเสียง ซึ่งคุณสามารถดูสถานะของงานของคุณ
  6. เลือกพาธไฟล์ที่เชื่อมโยงในคอลัมน์ด้านขวาภายใต้ ตำแหน่งข้อมูลเอาต์พุต เพื่อดูไฟล์ JSON สำหรับการถอดเสียงของคุณ

หมายเหตุ: หากคุณเลือกบัคเก็ตที่จัดการด้วยบริการสำหรับเอาต์พุต คุณจะเห็น หน้าต่างแสดงตัวอย่าง การถอดเสียงบนหน้าข้อมูลงานการถอดความ พร้อมกับปุ่มดาวน์โหลดสำหรับไฟล์ JSON สำหรับเสียงเป็นข้อความของคุณ

กรอกหน้าต่อไปนี้ในระหว่างการกำหนดค่า..

ข้อมูลอินพุต

ภายใต้หน้า ข้อมูลอินพุต ต่ำแหน่งไฟล์อินพุตบน S3 คือไฟล์เสียงของคุณในบัคเก็ต S3 ที่มีอยู่ และ ข้อมูลเอาต์พุต เป็นบัคเก็ตที่จัดการโดยบริการ S3 หรือบัคเก็ต S3 ของคุณเอง

กำหนดค่างาน

หน้า กำหนดค่างาน ช่วยให้คุณสามารถเลือกการปรับแต่งได้ เช่น การระบุช่องสัญญาณ การแก้ไขและการกรองเนื้อหา และคำศัพท์ที่กำหนดเอง

ความสามารถในการถอดเสียงเพิ่มเติมมีอะไรบ้าง

Amazon Transcribe มีฟีเจอร์เพิ่มเติมมากมายสำหรับการสร้างการถอดเสียงที่มีประโยชน์ ปลอดภัย และแม่นยำยิ่งขึ้นเมื่อคุณแปลงไฟล์เสียงหรือวิดีโอ

คำศัพท์และโมเดลภาษาที่กำหนดเอง

ผู้ใช้สามารถสร้างคำศัพท์และโมเดลภาษาที่กำหนดเองเพื่อบันทึกและถอดเสียงได้อย่างแม่นยำด้วยชื่อแบรนด์ คำย่อ คำศัพท์ทางเทคนิค และศัพท์เฉพาะทางเฉพาะโดเมนได้อย่างแม่นยำ โมเดลภาษาที่กำหนดเองเป็นประโยชน์ต่อองค์กรขนาดใหญ่ที่มีระบบนิเวศภาษาภายในที่ก้าวหน้าหรืออุตสาหกรรมเฉพาะทางทางเทคนิคสูง

คำศัพท์ที่กำหนดเอง เป็นไฟล์ที่ผู้ใช้สร้างขึ้นซึ่งแสดงให้เห็นถึงวิธีการออกเสียงคำเฉพาะ ตัวอย่างเช่นโครงการชื่อ VX02Q สามารถเพิ่มลงในคำศัพท์ที่กำหนดเองโดยออกเสียงว่า V.X.-zero-two-Q

โมเดลภาษาที่กำหนดเอง ช่วยให้โมเดลการแปลงเสียงเป็นข้อความสามารถทำการฝึกเพิ่มเติมบนชุดข้อมูลที่มีอยู่เพื่อทำความเข้าใจบริบทของภาษาเฉพาะโดเมน ตัวอย่างเช่น หากคุณฝึกโมเดลของคุณด้วยการอัปโหลดข้อความของเอกสารวิจัยด้านวิทยาศาสตร์เกี่ยวกับสภาพอากาศ โมเดลของคุณอาจเรียนรู้ว่า 'ice floe' เป็นคู่คำที่น่าจะเป็นไปได้มากกว่า 'ice flow' ในทำนองเดียวกัน หากคุณกำลังพูดถึงผลิตภัณฑ์ชื่อ 'Bzntry' ชุดข้อมูลไฟล์เสียงที่มีการกล่าวถึง "bee-zen-tree" หลายครั้งจะจับคู่เสียงกับคำเอาต์พุตโดยอัตโนมัติ

การถอดเสียงเป็นข้อความแบบแบทช์และผ่านการสตรีมรองรับทั้งคำศัพท์ที่กำหนดเองและโมเดลภาษาที่กำหนดเอง

การควบคุมอัตโนมัติ

ตัวกรองคำศัพท์แบบกำหนดเองช่วยให้คุณสามารถปิดบัง แทนที่ หรือแท็ก ("vocabularyFilterMatch": true) คำเฉพาะหรือชุดคำใน JSON เอาต์พุตการถอดเสียง

ตัวอย่าง

  • ปิดบังคำหยาบคายด้วยเครื่องหมายดอกจันสามตัว (***)
  • แทนที่ชื่อผลิตภัณฑ์ที่เป็นความลับก่อนเปิดตัวด้วยคำว่า 'ผลิตภัณฑ์ใหม่'
  • นับจำนวนแท็กที่มีป้ายกำกับว่าว่า “อืม” หรือ “อย่างเช่น” ในบันทึกการสนทนาเพื่อช่วยให้ผู้พูดพัฒนาทักษะการพูดในที่สาธารณะ

การถอดเสียงเสียงเป็นข้อความแบบแบทช์และผ่านการสตรีมทั้งสองรองรับตัวกรองคำศัพท์

การแก้ไขและการระบุราย PII

ข้อมูลการระบุตัวบุคคล (PII) สามารถแก้ไขและติดแท็กโดยอัตโนมัติในถอดเสียงเป็นข้อความ สิ่งนี้มีความสำคัญสำหรับการจัดเก็บข้อมูลที่ละเอียดอ่อนในธุรกิจ เนื่องจาก PII อาจอยู่ภายใต้กฎหมายการรักษาความลับที่เข้มงวด

ประเภท PII ที่รวมอยู่ใน Amazon Transcribe ได้แก่ ชื่อ ที่อยู่ ที่อยู่อีเมล หมายเลขโทรศัพท์ รายละเอียดหมายเลขธนาคาร PIN และหมายเลขประกันสังคม คำในไฟล์ JSON จะถูกแทนที่ด้วย [PII] ในเนื้อหาข้อความหลักของการถอดเสียงของคุณโดยตัวแปลงเสียงเป็นข้อความ และถูกนับและจัดหมวดหมู่ตามประเภทในฟิลด์ JSON “การแก้ไข”

คำบรรยาย

Amazon Transcribe ช่วยให้ผู้ใช้สามารถสร้างไฟล์คำบรรยาย WebVTT (*.vtt) และ SubRip (*.srt) เพื่อจับคู่กับวิดีโอพร้อมกับเอาต์พุตปกติในแบบไฟล์ JSON คำบรรยายจะแสดงในเวลาเดียวกับข้อความที่พูดในไฟล์เสียงหรือวิดีโอ และยังคงมองเห็นได้จนกว่าจะมีการหยุดชั่วคราวตามธรรมชาติในเสียงหรือผู้พูดพูดเสร็จสิ้น

การตรวจจับความเป็นพิษ

Amazon Transcribe สามารถใช้ระบุและจำแนกภาษาที่เป็นพิษได้ เนื้อหาที่ไม่เหมาะสามจะถูกระบุและจำแนกเป็นเจ็ดหมวดหมู่ ได้แก่ การล่วงละเมิดทางเพศ คำพูดเกลียดชัง การคุกคาม การล่วงละเมิด การหยาบคาย การดูถูกและกราฟิก Amazon Transcribe ใช้เทคนิคการระบุขั้นสูง รวมถึงน้ำเสียงและระดับเสียง เพื่อมอบบริบทเพิ่มเติมให้กับบทสนทนา

การวิเคราะห์การโทร

Amazon Transcribe เสนอ API พิเศษสำหรับการบริการลูกค้าและการโทรสำหรับงานขาย คุณสามารถใช้เพื่อรับข้อมูลเชิงลึกเกี่ยวกับความรู้สึกของลูกค้าและตัวแทน ผู้ขับเคลื่อนการโทร การกล่าวถึงวลีการพูดคุย การหยุดชะงัก ความเร็วในการสนทนา การตรวจจับปัญหาแบบเรียลไทม์ และการสรุปการสนทนา Amazon Transcribe ยังสามารถดำเนินการแก้ไขการบันทึกเสียงหลังการโทร โดยแทนที่ PII ด้วยความเงียบสำหรับการโทรที่เก็บไว้

การถอดเสียงทางการแพทย์

Amazon Transcribe มอบ API ที่สอดคล้องกับ HIPAA ซึ่งให้การถอดเสียงเป็นข้อความในภาษาทางการแพทย์ที่ถูกต้องจากไฟล์เสียงในขณะที่ให้ความสำคัญกับความเป็นส่วนตัวและความปลอดภัยของข้อมูลผู้ป่วย ระบบนี้มีประโยชน์ในการโต้ตอบของแพทย์กับผู้ป่วย ซึ่งการจดบันทึกจะใช้เวลานาน เป็นการก่อกวน และรบกวน

AWS สามารถรองรับความต้องการการถอดเสียงของคุณได้อย่างไร

การถอดเสียงเป็นข้อความจะนำเสียงจากวิธีการสื่อสาร ณ จุดใดจุดหนึ่งไปเป็นแหล่งที่มาของข้อมูลที่มีคุณค่าสูงซึ่งสามารถจัดเก็บ ค้นหา วิเคราะห์ได้ องค์กรต่าง ๆ ใช้การจดจำคำพูดเพื่อถอดเสียงกำลังพบประโยชน์อย่างมีนัยสำคัญในด้านผลผลิต การฝึกอบรม การบริการลูกค้า การขาย และอื่น ๆ

การฝังตัวแปลงเสียงเป็นข้อความของ Amazon Transcribe ภายในองค์กรของคุณช่วยให้มั่นใจได้ว่าการบันทึกเสียงยังคงคุณค่าและเพิ่มจำนวนแอปพลิเคชันที่มีประโยชน์ ลองดูโซลูชัน AI บน AWS ที่หลากหลายเพื่อช่วยให้คุณสร้างและปรับขนาดแอปได้เร็วขึ้นและแข็งแกร่งขึ้น