ข้ามไปที่เนื้อหาหลัก

ซอฟต์แวร์แปลงข้อความเป็นเสียงคืออะไร

ซอฟต์แวร์แปลงข้อความเป็นเสียงคืออะไร

ตั้งแต่การอ่านเว็บเพจออกเสียงไปจนถึงการร้องขอข้อมูลผู้ใช้ เสียงกำลังกลายเป็นบรรทัดฐานสำหรับอินเทอร์เฟซผู้ใช้สมัยใหม่ ลูกค้าคาดหวังความสามารถทางเสียงมากขึ้นในทุกแอปพลิเคชันที่พวกเขามีปฏิสัมพันธ์ด้วย นอกจากนี้ กรณีการใช้งานการแปลงข้อความเป็นเสียงในด้านการดูแลสุขภาพ การขาย การสร้างเนื้อหา การบริการลูกค้า และแอปพลิเคชันอื่น ๆ สามารถเร่งการทำงานอัตโนมัติได้พร้อมทั้งปรับปรุงประสบการณ์ของลูกค้าให้ดีขึ้น คู่มือนี้จะให้ข้อมูลเกี่ยวกับฟีเจอร์และความสามารถของการแปลงข้อความเป็นเสียง รวมถึงวิธีเริ่มต้นใช้งาน

ซอฟต์แวร์แปลงข้อความเป็นเสียงหรือแปลงข้อความเป็นคำพูด (TTS) สร้าง "เสียง" โดยการสังเคราะห์คำพูดจากข้อความ ซอฟต์แวร์ดังกล่าวขับเคลื่อนด้วยกลไกแปลงข้อความเป็นเสียงซึ่งได้รับการฝึกจากการบันทึกเสียงมนุษย์จำนวนมาก ซอฟต์แวร์นี้จะแปลงคำเขียนเป็นรูปแบบคำพูดโดยการวิเคราะห์รูปคลื่นเสียงในข้อมูลเสียง

เสียงที่ฟังดูแข็งทื่อเหมือนหุ่นยนต์เป็นผลมาจากเทคโนโลยีการพูดที่ล้าสมัย กลไกแปลงข้อความเป็นเสียงสมัยใหม่ที่ใช้ AI ช่วยสร้างจะสร้างผลลัพธ์ที่แทบจะแยกแยะจากคำพูดของมนุษย์ไม่ได้ เสียงที่สร้างขึ้นสามารถประกอบด้วยช่วงหยุดตามธรรมชาติ สำเนียงต่าง ๆ ความเร็วที่แตกต่างกัน และระดับเสียงที่สะท้อนถึงอารมณ์ของมนุษย์

ประเภทของซอฟต์แวร์แปลงข้อความเป็นเสียง

ประเภทของเครื่องมือ TTS ที่คุณเลือกขึ้นอยู่กับกรณีการใช้งานของคุณ สำหรับนักพัฒนา แพ็คเกจการผสานรวมที่ปรับแต่งได้และครบวงจรถือเป็นตัวเลือกที่ดีที่สุดสำหรับการพัฒนาแอปหลายตัวและหลายสภาพแวดล้อม

นักพัฒนาสามารถเลือกได้จากซอฟต์แวร์ TTS โอเพนซอร์สและเชิงพาณิชย์พร้อมการปรับใช้ที่จัดการด้วยตนเอง หรือบริการคลาวด์ที่ได้รับการจัดการแบบผสานรวมเต็มรูปแบบ เช่น Amazon Polly บริการนี้ทำให้แอปพลิเคชันที่มีอยู่สามารถรวมการพูดเป็นฟีเจอร์ชั้นยอด สร้างโอกาสให้กับผลิตภัณฑ์ประเภทใหม่ที่เปิดใช้งานการพูด ไม่ว่าจะเป็นแอปบนมือถือและรถยนต์ ไปจนถึงอุปกรณ์และเครื่องใช้ไฟฟ้า

Amazon Polly มาพร้อมกับกลไกเสียงสี่ตัวที่ใช้สถาปัตยกรรมโมเดล AI ที่แตกต่างกัน ซึ่งเหมาะกับกรณีการใช้งานที่หลากหลาย เพื่อใช้เสียง Amazon Polly เพียงเลือกกลไก การดำเนินการสังเคราะห์เสียง และรูปแบบไฟล์เอาต์พุตผ่าน API ในโค้ดของคุณ จากนั้นให้ข้อความอินพุตสำหรับกลไกที่จะสังเคราะห์ Amazon Polly จะสร้างไฟล์เอาต์พุตเสียงในรูปแบบที่คุณร้องขอ กลไกเหล่านี้ยังสามารถฝึกเพิ่มเติมสำหรับความต้องการเสียงหรือแบรนด์ที่เฉพาะเจาะจง

ฟีเจอร์ที่ต้องมองหาในซอฟต์แวร์แปลงข้อความเป็นเสียงมีอะไรบ้าง

Amazon Polly มีฟีเจอร์แปลงข้อความเป็นเสียงต่อไปนี้ที่จำเป็นสำหรับการพัฒนาเสียงที่ทันสมัย

ช่วงของเสียงต่าง ๆ

การมีตัวเลือกในการเลือกภาษา ภูมิภาค เพศ และเสียงที่แตกต่างกันภายในภูมิภาคทำให้มีชุดผลิตภัณฑ์สำหรับการพัฒนาที่ครอบคลุมมากขึ้น Amazon Polly รองรับภาษาหลายสิบภาษารวมถึงรูปแบบและสำเนียงตามประเทศทั้งในรูปแบบชายและหญิง

การผสานรวมที่ใช้ API

ตรวจสอบว่าซอฟต์แวร์ TTS ของคุณมี API ที่ทำงานได้เต็มรูปแบบและพร้อมใช้งานในภาษาการเขียนโปรแกรมหลายภาษา สำหรับการบผสานรวมที่ครอบคลุมที่สุดในโครงการต่าง ๆ Amazon Polly ให้ Amazon Polly API และ SDK เฉพาะภาษาต่าง ๆ ที่หลากหลาย นอกจากนี้ยังสามารถเข้าถึงได้จากคอนโซลการจัดการของ AWS และ AWS Command Line Interface (CLI) คุณควบคุมความสามารถทั้งหมดของ Amazon Polly ได้อย่างสมบูรณ์ไม่ว่าคุณจะใช้งานมันอย่างไรก็ตาม

การควบคุมด้วยเสียงที่แม่นยำ

ภาษามาร์กอัปการสังเคราะห์คำพูด (SSML) เป็นภาษาการมาร์กอัปที่ใช้ XML ช่วยให้คุณสามารถระบุข้อมูลเพิ่มเติมเกี่ยวกับเสียงพูดของคุณได้ ตัวอย่างเช่น คุณสามารถรวมการหยุดชั่วคราว การตีความ (เช่น วันที่ คำย่อ) ความสูงต่ำของเสียง อัตราความเร็ว ระดับเสียง การเน้น การเฟดอิน และองค์ประกอบเสียงอื่น ๆ เพื่อปรับแต่งเสียงที่สร้างขึ้น SSML ช่วยให้คุณสามารถควบคุมเอาต์พุตเสียงได้อย่างเต็มที่และพอร์ตการปรับแต่งไปยังระบบอื่นได้  

Amazon Polly รองรับทั้งแท็ก Amazon SSML ทั่วไปและแบบกำหนดเอง เช่น ความสามารถในการทำให้เสียงพูดเหมือนผู้ประกาศข่าว ความยืดหยุ่นนี้ช่วยให้คุณสร้างเสียงพูดที่เหมือนจริงซึ่งดึงดูดและรักษาความสนใจของผู้ฟังได้

การเชื่อมต่อข้อมูลเมตาสำหรับแอนิเมชันแบบซิงโครไนซ์

แอปพลิเคชันบางอย่าง เช่น เกมและสื่อ ต้องใช้แอนิเมชันที่มีตัวละครที่เคลื่อนไหวตามเสียง เช่น การเคลื่อนไหวของปากหรือคำพูดตามแบบคาราโอเกะ วิดีโอการฝึกอบรมที่มีหลายภาษาจะได้รับประโยชน์จากการจับเวลาที่ซิงโครไนซ์กันในหลายภาษา ดังนั้นเสียงจะตรงกับวิดีโอในเวลาเดียวกันสำหรับทุกภาษา

สำหรับแอปพลิเคชันประเภทดังกล่าว นักพัฒนาจำเป็นต้องมีข้อมูลเมตาเพื่อทำเครื่องหมายว่าองค์ประกอบคำพูดใดจะเกิดขึ้นในเวลาที่กำหนดในรูปแบบที่มีประทับเวลา Amazon Polly อนุญาตให้คุณขอข้อมูลเมตา ทำเครื่องหมายคำพูดเพิ่มเติมพร้อมกับไฟล์เสียงของคุณ เครื่องหมายคำพูดให้ข้อมูลเช่นการประทับเวลาของไฟล์เสียง, ไวซีม (ตำแหน่งของใบหน้าและปากเมื่อพูดคำ) และรายละเอียดอื่น ๆ ที่เชื่อมโยงข้อความที่เขียนกับเอาต์พุตเสียง

การปรับแต่ง

คุณต้องการให้ซอฟต์แวร์แปลงข้อความเป็นเสียงของคุณปรับแต่งได้อย่างเต็มที่เพื่อความยืดหยุ่นสูงสุด ตัวอย่างเช่น เอาต์พุตเสียงควรปรับแต่งได้ตามรูปแบบและการกำหนดค่าที่แตกต่างกัน รวมถึงตามประเภทไฟล์ (เช่น) ขนาดไฟล์ และคุณภาพข้อมูล ซอฟต์แวร์ดังกล่าวควรสามารถจัดการคำศัพท์ที่กำหนดเองซึ่งอยู่นอกเหนือข้อมูลการฝึกอบรมได้

Amazon Polly รองรับการปรับแต่งแปลงข้อความเป็นเสียงในทุกขั้นตอน

คำศัพท์

คุณสามารถสร้างพจนานุกรมแบบกำหนดเองพร้อมการออกเสียงเฉพาะสำหรับชื่อบริษัท คำย่อ คำต่างประเทศ และคำศัพท์ใหม่ คุณสามารถขอเอาต์พุตในรูปแบบเสียงหลายรูปแบบเช่น MP3 และ WAV

รูปแบบเอาต์พุต

Amazon Polly ยังรองรับเสียงรูปแบบยาวเช่นการอ่านเอกสารด้วยเสียงที่ฟังเป็นธรรมชาติ คุณสามารถสร้างสตรีมเสียงต่อเนื่องสำหรับการเชื่อมต่อแบนด์วิดท์ต่ำหรือเวลาแฝงต่ำในกรณีการใช้งานแบบเรียลไทม์

เสียง

นอกจากนี้ เรายังให้บริการ Brand Voice ซึ่งเป็นการมีส่วนร่วมแบบกำหนดเอง โดยคุณจะทำงานร่วมกับทีม Amazon Polly เพื่อสร้างเสียงสำหรับการใช้งานเฉพาะขององค์กรของคุณ แทนที่จะฟังดูเหมือนแอปอื่น ๆ คุณสามารถสร้างเครื่องหมายแบรนด์ที่ใช้เสียงที่ไม่เหมือนใครซึ่งช่วยให้คุณโดดเด่นได้

คุณจะเริ่มต้นใช้งานซอฟต์แวร์แปลงข้อความเป็นเสียงได้อย่างไร

การเริ่มต้นใช้งานซอฟต์แวร์แปลงข้อความเป็นเสียงของ AWS นั้นทำได้ง่าย ในคู่มือนี้ เราจะสาธิตการใช้งาน Amazon Polly อย่างรวดเร็วในคอนโซล

ขั้นแรก ลงชื่อเข้าใช้คอนโซลการจัดการของ AWSและเปิดคอนโซล Amazon Polly คลิกที่ Try Polly เพื่อเริ่มต้น การดำเนินการนี้จะเปิดกล่องโต้ตอบการแปลงข้อความเป็นคำพูด

ขั้นตอนที่ 1 - เลือกกลไก

ในกล่องโต้ตอบการแปลงข้อความเป็นคำพูด คุณสามารถเลือกเครื่องมือเสียงที่ต้องการใช้ได้ ปัจจุบัน Amazon Polly มีกลไกเสียงที่แตกต่างกันสี่รายการให้เลือก

  • กลไกมาตรฐานใช้วิธีการสังเคราะห์แบบผสมผสานเป็นเครื่องกำเนิดเสียง
  • กลไกนิวรัลใช้นิวรัลเน็ตเวิร์กและวิธีการแปลงเสียงเพื่อสร้างคำพูดที่ฟังดูเป็นธรรมชาติมากขึ้น
  • กลไกช่วยสร้างใช้โมเดลพารามิเตอร์หลายพันล้านพารามิเตอร์ที่ได้รับการฝึกเกี่ยวกับข้อมูลเสียงที่หลากหลายเพื่อการพูดที่มีเสียงตามธรรมชาติยิ่งขึ้น
  • กลไกรูปแบบยาวเป็นอีกกลไกในแปลงข้อความเป็นเสียงแบบ AI ช่วยสร้างอีกชนิดหนึ่งที่พัฒนาขึ้นสำหรับการพูดแบบบรรยายยาว ๆ

ไม่ใช่กลไกทั้งหมดที่จะมีให้บริการในทุก AWS Region

ขั้นตอนที่ 2—เลือกภาษา

เมื่อคุณเลือกกลไกเสียงแล้ว ให้เลือกภาษาที่คุณต้องการสร้างและเสียงชายหรือหญิง จากเมนูดรอปดาวน์

แต่ละกลไกเสียงรองรับภาษาและเสียง AI ที่แตกต่างกัน ตัวอย่างเช่น หากคุณเลือกนิวรัลเป็นกลไกจะมีเฉพาะภาษาและเสียงที่รองรับ Neural Text-to-Speech (NTTS) เท่านั้น และเสียงแบบมาตรฐานและรูปแบบยาวทั้งหมดจะถูกปิดใช้งาน

ขั้นตอนที่ 3—แปลงข้อความเป็นคำพูด

ในกล่องข้อความป้อนข้อมูล ให้เปลี่ยนข้อความเริ่มต้นเป็นป้อนข้อความที่คุณเขียนขึ้นเพื่อป้อนเอง คุณสามารถเลือกปุ่มฟังเพื่อฟังเอาต์พุตที่อ่านออกเสียงปุ่มดาวน์โหลดเพื่อดาวน์โหลดไฟล์ MP3 หรือปุ่มบันทึกเป็น S3 เพื่อบันทึกคำที่พูดไว้ใน Amazon Simple Storage Service

การเข้าถึง Amazon Polly ผ่าน API

คุณสามารถเข้าถึง Amazon Polly ผ่านคอนโซลข้างต้นหรือผ่าน API ในโค้ดแอปพลิเคชัน Amazon Polly API ช่วยให้คุณทำหลายสิ่งตั้งแต่การแปลแบบเรียลไทม์ไปจนถึงการสร้างคำบรรยายและทำให้วิดีโอเกมหรือตัวละครแอนิเมชั่นมีชีวิตชีวา ลองใช้ตัวอย่างบางส่วนบน GitHub เพื่อดูตัวอย่างวิธีใช้ Amazon Polly API ในโค้ด

AWS สามารถสนับสนุนความต้องการซอฟต์แวร์แปลงข้อความเป็นเสียงของคุณได้อย่างไร

การแปลงข้อความเป็นเสียงช่วยให้คุณสามารถสร้างเสียงผ่านทางข้อความแทนการพูดของมนุษย์ เดิมทีใช้เป็นเทคโนโลยีช่วยเหลือผู้ที่มีความบกพร่องทางสายตา แต่ปัจจุบันกลายเป็นสิ่งจำเป็นในแอปพลิเคชันและการโต้ตอบกับลูกค้ามากมาย ตั้งแต่การเป็นส่วนขยายเบราว์เซอร์ไปจนถึงการใช้ในศูนย์บริการสายด่วนและแอปพลิเคชันสำหรับองค์กร ด้วยการใช้บริการที่มีการจัดการเช่น Amazon Polly นักพัฒนาสามารถรวมกลไกเสียงที่ทันสมัยและสมจริงเข้ากับแอปพลิเคชันได้อย่างง่ายดายผ่านการเรียกใช้ API การแปลงข้อความเป็นเสียง การกำหนดราคา Amazon Polly ขึ้นอยู่กับกลไกและจำนวนอักขระที่ประมวลผลและรวมถึง Free Tier สำหรับการใช้งานส่วนตัว

เสียงพูดของ Amazon Polly เป็นเพียงหนึ่งในบริการ AI ช่วยสร้างที่คุณสามารถใช้ประโยชน์ในการพัฒนาแอปพลิเคชัน ลองดูโซลูชัน AI บน AWS ที่หลากหลายเพื่อช่วยให้คุณสร้างและปรับขนาดแอปได้เร็วขึ้นและแข็งแกร่งขึ้น