ซอฟต์แวร์แปลงข้อความเป็นเสียงคืออะไร

ตั้งแต่การอ่านเว็บเพจออกเสียงไปจนถึงการร้องขอข้อมูลผู้ใช้ เสียงกำลังกลายเป็นบรรทัดฐานสำหรับอินเทอร์เฟซผู้ใช้สมัยใหม่ ลูกค้าคาดหวังความสามารถทางเสียงมากขึ้นในทุกแอปพลิเคชันที่พวกเขามีปฏิสัมพันธ์ด้วย นอกจากนี้ กรณีการใช้งานการแปลงข้อความเป็นเสียงในด้านการดูแลสุขภาพ การขาย การสร้างเนื้อหา การบริการลูกค้า และแอปพลิเคชันอื่น ๆ สามารถเร่งการทำงานอัตโนมัติได้พร้อมทั้งปรับปรุงประสบการณ์ของลูกค้าให้ดีขึ้น คู่มือนี้จะให้ข้อมูลเกี่ยวกับฟีเจอร์และความสามารถของการแปลงข้อความเป็นเสียง รวมถึงวิธีเริ่มต้นใช้งาน

ซอฟต์แวร์แปลงข้อความเป็นเสียงหรือแปลงข้อความเป็นคำพูด (TTS) สร้าง "เสียง" โดยการสังเคราะห์คำพูดจากข้อความ ซอฟต์แวร์ดังกล่าวขับเคลื่อนด้วยกลไกแปลงข้อความเป็นเสียงซึ่งได้รับการฝึกจากการบันทึกเสียงมนุษย์จำนวนมาก ซอฟต์แวร์นี้จะแปลงคำเขียนเป็นรูปแบบคำพูดโดยการวิเคราะห์รูปคลื่นเสียงในข้อมูลเสียง

เสียงที่ฟังดูแข็งทื่อเหมือนหุ่นยนต์เป็นผลมาจากเทคโนโลยีการพูดที่ล้าสมัย กลไกแปลงข้อความเป็นเสียงสมัยใหม่ที่ใช้ AI ช่วยสร้างจะสร้างผลลัพธ์ที่แทบจะแยกแยะจากคำพูดของมนุษย์ไม่ได้ เสียงที่สร้างขึ้นสามารถประกอบด้วยช่วงหยุดตามธรรมชาติ สำเนียงต่าง ๆ ความเร็วที่แตกต่างกัน และระดับเสียงที่สะท้อนถึงอารมณ์ของมนุษย์

ประเภทของซอฟต์แวร์แปลงข้อความเป็นเสียง

ประเภทของเครื่องมือ TTS ที่คุณเลือกขึ้นอยู่กับกรณีการใช้งานของคุณ สำหรับนักพัฒนา แพ็คเกจการผสานรวมที่ปรับแต่งได้และครบวงจรถือเป็นตัวเลือกที่ดีที่สุดสำหรับการพัฒนาแอปหลายตัวและหลายสภาพแวดล้อม

นักพัฒนาสามารถเลือกได้จากซอฟต์แวร์ TTS โอเพนซอร์สและเชิงพาณิชย์พร้อมการปรับใช้ที่จัดการด้วยตนเอง หรือบริการคลาวด์ที่ได้รับการจัดการแบบผสานรวมเต็มรูปแบบ เช่น Amazon Polly บริการนี้ทำให้แอปพลิเคชันที่มีอยู่สามารถรวมการพูดเป็นฟีเจอร์ชั้นยอด สร้างโอกาสให้กับผลิตภัณฑ์ประเภทใหม่ที่เปิดใช้งานการพูด ไม่ว่าจะเป็นแอปบนมือถือและรถยนต์ ไปจนถึงอุปกรณ์และเครื่องใช้ไฟฟ้า

Amazon Polly มาพร้อมกับกลไกเสียงสี่ตัวที่ใช้สถาปัตยกรรมโมเดล AI ที่แตกต่างกัน ซึ่งเหมาะกับกรณีการใช้งานที่หลากหลาย เพื่อใช้เสียง Amazon Polly เพียงเลือกกลไก การดำเนินการสังเคราะห์เสียง และรูปแบบไฟล์เอาต์พุตผ่าน API ในโค้ดของคุณ จากนั้นให้ข้อความอินพุตสำหรับกลไกที่จะสังเคราะห์ Amazon Polly จะสร้างไฟล์เอาต์พุตเสียงในรูปแบบที่คุณร้องขอ กลไกเหล่านี้ยังสามารถฝึกเพิ่มเติมสำหรับความต้องการเสียงหรือแบรนด์ที่เฉพาะเจาะจง

ฟีเจอร์ที่ต้องมองหาในซอฟต์แวร์แปลงข้อความเป็นเสียงมีอะไรบ้าง

Amazon Polly มีฟีเจอร์แปลงข้อความเป็นเสียงต่อไปนี้ที่จำเป็นสำหรับการพัฒนาเสียงที่ทันสมัย

ช่วงของเสียงต่าง ๆ

การมีตัวเลือกในการเลือกภาษา ภูมิภาค เพศ และเสียงที่แตกต่างกันภายในภูมิภาคทำให้มีชุดผลิตภัณฑ์สำหรับการพัฒนาที่ครอบคลุมมากขึ้น Amazon Polly รองรับภาษาหลายสิบภาษารวมถึงรูปแบบและสำเนียงตามประเทศทั้งในรูปแบบชายและหญิง

การผสานรวมที่ใช้ API

ตรวจสอบว่าซอฟต์แวร์ TTS ของคุณมี API ที่ทำงานได้เต็มรูปแบบและพร้อมใช้งานในภาษาการเขียนโปรแกรมหลายภาษา สำหรับการบผสานรวมที่ครอบคลุมที่สุดในโครงการต่าง ๆ Amazon Polly ให้ Amazon Polly API และ SDK เฉพาะภาษาต่าง ๆ ที่หลากหลาย นอกจากนี้ยังสามารถเข้าถึงได้จากคอนโซลการจัดการของ AWS และ AWS Command Line Interface (CLI) คุณควบคุมความสามารถทั้งหมดของ Amazon Polly ได้อย่างสมบูรณ์ไม่ว่าคุณจะใช้งานมันอย่างไรก็ตาม

การควบคุมด้วยเสียงที่แม่นยำ

ภาษามาร์กอัปการสังเคราะห์คำพูด (SSML) เป็นภาษาการมาร์กอัปที่ใช้ XML ช่วยให้คุณสามารถระบุข้อมูลเพิ่มเติมเกี่ยวกับเสียงพูดของคุณได้ ตัวอย่างเช่น คุณสามารถรวมการหยุดชั่วคราว การตีความ (เช่น วันที่ คำย่อ) ความสูงต่ำของเสียง อัตราความเร็ว ระดับเสียง การเน้น การเฟดอิน และองค์ประกอบเสียงอื่น ๆ เพื่อปรับแต่งเสียงที่สร้างขึ้น SSML ช่วยให้คุณสามารถควบคุมเอาต์พุตเสียงได้อย่างเต็มที่และพอร์ตการปรับแต่งไปยังระบบอื่นได้

Amazon Polly รองรับทั้งแท็ก Amazon SSML ทั่วไปและแบบกำหนดเอง เช่น ความสามารถในการทำให้เสียงพูดเหมือนผู้ประกาศข่าว ความยืดหยุ่นนี้ช่วยให้คุณสร้างเสียงพูดที่เหมือนจริงซึ่งดึงดูดและรักษาความสนใจของผู้ฟังได้

การเชื่อมต่อข้อมูลเมตาสำหรับแอนิเมชันแบบซิงโครไนซ์

แอปพลิเคชันบางอย่าง เช่น เกมและสื่อ ต้องใช้แอนิเมชันที่มีตัวละครที่เคลื่อนไหวตามเสียง เช่น การเคลื่อนไหวของปากหรือคำพูดตามแบบคาราโอเกะ วิดีโอการฝึกอบรมที่มีหลายภาษาจะได้รับประโยชน์จากการจับเวลาที่ซิงโครไนซ์กันในหลายภาษา ดังนั้นเสียงจะตรงกับวิดีโอในเวลาเดียวกันสำหรับทุกภาษา

สำหรับแอปพลิเคชันประเภทดังกล่าว นักพัฒนาจำเป็นต้องมีข้อมูลเมตาเพื่อทำเครื่องหมายว่าองค์ประกอบคำพูดใดจะเกิดขึ้นในเวลาที่กำหนดในรูปแบบที่มีประทับเวลา Amazon Polly อนุญาตให้คุณขอข้อมูลเมตา ทำเครื่องหมายคำพูดเพิ่มเติมพร้อมกับไฟล์เสียงของคุณ เครื่องหมายคำพูดให้ข้อมูลเช่นการประทับเวลาของไฟล์เสียง, ไวซีม (ตำแหน่งของใบหน้าและปากเมื่อพูดคำ) และรายละเอียดอื่น ๆ ที่เชื่อมโยงข้อความที่เขียนกับเอาต์พุตเสียง

การปรับแต่ง

คุณต้องการให้ซอฟต์แวร์แปลงข้อความเป็นเสียงของคุณปรับแต่งได้อย่างเต็มที่เพื่อความยืดหยุ่นสูงสุด ตัวอย่างเช่น เอาต์พุตเสียงควรปรับแต่งได้ตามรูปแบบและการกำหนดค่าที่แตกต่างกัน รวมถึงตามประเภทไฟล์ (เช่น) ขนาดไฟล์ และคุณภาพข้อมูล ซอฟต์แวร์ดังกล่าวควรสามารถจัดการคำศัพท์ที่กำหนดเองซึ่งอยู่นอกเหนือข้อมูลการฝึกอบรมได้

Amazon Polly รองรับการปรับแต่งแปลงข้อความเป็นเสียงในทุกขั้นตอน

คำศัพท์

คุณสามารถสร้างพจนานุกรมแบบกำหนดเองพร้อมการออกเสียงเฉพาะสำหรับชื่อบริษัท คำย่อ คำต่างประเทศ และคำศัพท์ใหม่ คุณสามารถขอเอาต์พุตในรูปแบบเสียงหลายรูปแบบเช่น MP3 และ WAV

รูปแบบเอาต์พุต

Amazon Polly ยังรองรับเสียงรูปแบบยาวเช่นการอ่านเอกสารด้วยเสียงที่ฟังเป็นธรรมชาติ คุณสามารถสร้างสตรีมเสียงต่อเนื่องสำหรับการเชื่อมต่อแบนด์วิดท์ต่ำหรือเวลาแฝงต่ำในกรณีการใช้งานแบบเรียลไทม์

เสียง

นอกจากนี้ เรายังให้บริการ Brand Voice ซึ่งเป็นการมีส่วนร่วมแบบกำหนดเอง โดยคุณจะทำงานร่วมกับทีม Amazon Polly เพื่อสร้างเสียงสำหรับการใช้งานเฉพาะขององค์กรของคุณ แทนที่จะฟังดูเหมือนแอปอื่น ๆ คุณสามารถสร้างเครื่องหมายแบรนด์ที่ใช้เสียงที่ไม่เหมือนใครซึ่งช่วยให้คุณโดดเด่นได้

คุณจะเริ่มต้นใช้งานซอฟต์แวร์แปลงข้อความเป็นเสียงได้อย่างไร

การเริ่มต้นใช้งานซอฟต์แวร์แปลงข้อความเป็นเสียงของ AWS นั้นทำได้ง่าย ในคู่มือนี้ เราจะสาธิตการใช้งาน Amazon Polly อย่างรวดเร็วในคอนโซล

ขั้นแรก ลงชื่อเข้าใช้คอนโซลการจัดการของ AWSและเปิดคอนโซล Amazon Polly คลิกที่ Try Polly เพื่อเริ่มต้น การดำเนินการนี้จะเปิดกล่องโต้ตอบการแปลงข้อความเป็นคำพูด

ขั้นตอนที่ 1 - เลือกกลไก

ในกล่องโต้ตอบการแปลงข้อความเป็นคำพูด คุณสามารถเลือกเครื่องมือเสียงที่ต้องการใช้ได้ ปัจจุบัน Amazon Polly มีกลไกเสียงที่แตกต่างกันสี่รายการให้เลือก

กลไกมาตรฐานใช้วิธีการสังเคราะห์แบบผสมผสานเป็นเครื่องกำเนิดเสียง
กลไกนิวรัลใช้นิวรัลเน็ตเวิร์กและวิธีการแปลงเสียงเพื่อสร้างคำพูดที่ฟังดูเป็นธรรมชาติมากขึ้น
กลไกช่วยสร้างใช้โมเดลพารามิเตอร์หลายพันล้านพารามิเตอร์ที่ได้รับการฝึกเกี่ยวกับข้อมูลเสียงที่หลากหลายเพื่อการพูดที่มีเสียงตามธรรมชาติยิ่งขึ้น
กลไกรูปแบบยาวเป็นอีกกลไกในแปลงข้อความเป็นเสียงแบบ AI ช่วยสร้างอีกชนิดหนึ่งที่พัฒนาขึ้นสำหรับการพูดแบบบรรยายยาว ๆ

ไม่ใช่กลไกทั้งหมดที่จะมีให้บริการในทุก AWS Region

ขั้นตอนที่ 2—เลือกภาษา

เมื่อคุณเลือกกลไกเสียงแล้ว ให้เลือกภาษาที่คุณต้องการสร้างและเสียงชายหรือหญิง จากเมนูดรอปดาวน์

แต่ละกลไกเสียงรองรับภาษาและเสียง AI ที่แตกต่างกัน ตัวอย่างเช่น หากคุณเลือกนิวรัลเป็นกลไกจะมีเฉพาะภาษาและเสียงที่รองรับ Neural Text-to-Speech (NTTS) เท่านั้น และเสียงแบบมาตรฐานและรูปแบบยาวทั้งหมดจะถูกปิดใช้งาน

ขั้นตอนที่ 3—แปลงข้อความเป็นคำพูด

ในกล่องข้อความป้อนข้อมูล ให้เปลี่ยนข้อความเริ่มต้นเป็นป้อนข้อความที่คุณเขียนขึ้นเพื่อป้อนเอง คุณสามารถเลือกปุ่มฟังเพื่อฟังเอาต์พุตที่อ่านออกเสียงปุ่มดาวน์โหลดเพื่อดาวน์โหลดไฟล์ MP3 หรือปุ่มบันทึกเป็น S3 เพื่อบันทึกคำที่พูดไว้ใน Amazon Simple Storage Service

การเข้าถึง Amazon Polly ผ่าน API

คุณสามารถเข้าถึง Amazon Polly ผ่านคอนโซลข้างต้นหรือผ่าน API ในโค้ดแอปพลิเคชัน Amazon Polly API ช่วยให้คุณทำหลายสิ่งตั้งแต่การแปลแบบเรียลไทม์ไปจนถึงการสร้างคำบรรยายและทำให้วิดีโอเกมหรือตัวละครแอนิเมชั่นมีชีวิตชีวา ลองใช้ตัวอย่างบางส่วนบน GitHub เพื่อดูตัวอย่างวิธีใช้ Amazon Polly API ในโค้ด

AWS สามารถสนับสนุนความต้องการซอฟต์แวร์แปลงข้อความเป็นเสียงของคุณได้อย่างไร

การแปลงข้อความเป็นเสียงช่วยให้คุณสามารถสร้างเสียงผ่านทางข้อความแทนการพูดของมนุษย์ เดิมทีใช้เป็นเทคโนโลยีช่วยเหลือผู้ที่มีความบกพร่องทางสายตา แต่ปัจจุบันกลายเป็นสิ่งจำเป็นในแอปพลิเคชันและการโต้ตอบกับลูกค้ามากมาย ตั้งแต่การเป็นส่วนขยายเบราว์เซอร์ไปจนถึงการใช้ในศูนย์บริการสายด่วนและแอปพลิเคชันสำหรับองค์กร ด้วยการใช้บริการที่มีการจัดการเช่น Amazon Polly นักพัฒนาสามารถรวมกลไกเสียงที่ทันสมัยและสมจริงเข้ากับแอปพลิเคชันได้อย่างง่ายดายผ่านการเรียกใช้ API การแปลงข้อความเป็นเสียง การกำหนดราคา Amazon Polly ขึ้นอยู่กับกลไกและจำนวนอักขระที่ประมวลผลและรวมถึง Free Tier สำหรับการใช้งานส่วนตัว

เสียงพูดของ Amazon Polly เป็นเพียงหนึ่งในบริการ AI ช่วยสร้างที่คุณสามารถใช้ประโยชน์ในการพัฒนาแอปพลิเคชัน ลองดูโซลูชัน AI บน AWS ที่หลากหลายเพื่อช่วยให้คุณสร้างและปรับขนาดแอปได้เร็วขึ้นและแข็งแกร่งขึ้น

ขั้นตอนต่อไปบน AWS

ดูแหล่งข้อมูลเกี่ยวกับผลิตภัณฑ์เพิ่มเติม

เรียนรู้เพิ่มเติม

ลงชื่อสมัครใช้บัญชีฟรี

รับสิทธิ์การเข้าถึง AWS Free Tier ได้ทันที

ลงชื่อสมัครใช้งาน

เริ่มต้นสร้างใน Console

เริ่มต้นสร้างด้วย AWS ในคอนโซลการจัดการของ AWS

ลงชื่อเข้าใช้

Browse all cloud computing concepts

Browse all cloud computing concepts content here:

กำลังโหลด

Did you find what you were looking for today?

Let us know so we can improve the quality of the content on our pages

ซอฟต์แวร์แปลงข้อความเป็นเสียงคืออะไร