- การประมวลผลบนคลาวด์คืออะไร›
- ฮับแนวคิดการประมวลผลบนคลาวด์›
- ปัญญาประดิษฐ์
ซอฟต์แวร์แปลงข้อความเป็นเสียงคืออะไร
ซอฟต์แวร์แปลงข้อความเป็นเสียงคืออะไร
ตั้งแต่การอ่านเว็บเพจออกเสียงไปจนถึงการร้องขอข้อมูลผู้ใช้ เสียงกำลังกลายเป็นบรรทัดฐานสำหรับอินเทอร์เฟซผู้ใช้สมัยใหม่ ลูกค้าคาดหวังความสามารถทางเสียงมากขึ้นในทุกแอปพลิเคชันที่พวกเขามีปฏิสัมพันธ์ด้วย นอกจากนี้ กรณีการใช้งานการแปลงข้อความเป็นเสียงในด้านการดูแลสุขภาพ การขาย การสร้างเนื้อหา การบริการลูกค้า และแอปพลิเคชันอื่น ๆ สามารถเร่งการทำงานอัตโนมัติได้พร้อมทั้งปรับปรุงประสบการณ์ของลูกค้าให้ดีขึ้น คู่มือนี้จะให้ข้อมูลเกี่ยวกับฟีเจอร์และความสามารถของการแปลงข้อความเป็นเสียง รวมถึงวิธีเริ่มต้นใช้งาน
ซอฟต์แวร์แปลงข้อความเป็นเสียงหรือแปลงข้อความเป็นคำพูด (TTS) สร้าง "เสียง" โดยการสังเคราะห์คำพูดจากข้อความ ซอฟต์แวร์ดังกล่าวขับเคลื่อนด้วยกลไกแปลงข้อความเป็นเสียงซึ่งได้รับการฝึกจากการบันทึกเสียงมนุษย์จำนวนมาก ซอฟต์แวร์นี้จะแปลงคำเขียนเป็นรูปแบบคำพูดโดยการวิเคราะห์รูปคลื่นเสียงในข้อมูลเสียง
เสียงที่ฟังดูแข็งทื่อเหมือนหุ่นยนต์เป็นผลมาจากเทคโนโลยีการพูดที่ล้าสมัย กลไกแปลงข้อความเป็นเสียงสมัยใหม่ที่ใช้ AI ช่วยสร้างจะสร้างผลลัพธ์ที่แทบจะแยกแยะจากคำพูดของมนุษย์ไม่ได้ เสียงที่สร้างขึ้นสามารถประกอบด้วยช่วงหยุดตามธรรมชาติ สำเนียงต่าง ๆ ความเร็วที่แตกต่างกัน และระดับเสียงที่สะท้อนถึงอารมณ์ของมนุษย์
ประเภทของซอฟต์แวร์แปลงข้อความเป็นเสียง
ประเภทของเครื่องมือ TTS ที่คุณเลือกขึ้นอยู่กับกรณีการใช้งานของคุณ สำหรับนักพัฒนา แพ็คเกจการผสานรวมที่ปรับแต่งได้และครบวงจรถือเป็นตัวเลือกที่ดีที่สุดสำหรับการพัฒนาแอปหลายตัวและหลายสภาพแวดล้อม
นักพัฒนาสามารถเลือกได้จากซอฟต์แวร์ TTS โอเพนซอร์สและเชิงพาณิชย์พร้อมการปรับใช้ที่จัดการด้วยตนเอง หรือบริการคลาวด์ที่ได้รับการจัดการแบบผสานรวมเต็มรูปแบบ เช่น Amazon Polly บริการนี้ทำให้แอปพลิเคชันที่มีอยู่สามารถรวมการพูดเป็นฟีเจอร์ชั้นยอด สร้างโอกาสให้กับผลิตภัณฑ์ประเภทใหม่ที่เปิดใช้งานการพูด ไม่ว่าจะเป็นแอปบนมือถือและรถยนต์ ไปจนถึงอุปกรณ์และเครื่องใช้ไฟฟ้า
Amazon Polly มาพร้อมกับกลไกเสียงสี่ตัวที่ใช้สถาปัตยกรรมโมเดล AI ที่แตกต่างกัน ซึ่งเหมาะกับกรณีการใช้งานที่หลากหลาย เพื่อใช้เสียง Amazon Polly เพียงเลือกกลไก การดำเนินการสังเคราะห์เสียง และรูปแบบไฟล์เอาต์พุตผ่าน API ในโค้ดของคุณ จากนั้นให้ข้อความอินพุตสำหรับกลไกที่จะสังเคราะห์ Amazon Polly จะสร้างไฟล์เอาต์พุตเสียงในรูปแบบที่คุณร้องขอ กลไกเหล่านี้ยังสามารถฝึกเพิ่มเติมสำหรับความต้องการเสียงหรือแบรนด์ที่เฉพาะเจาะจง
ฟีเจอร์ที่ต้องมองหาในซอฟต์แวร์แปลงข้อความเป็นเสียงมีอะไรบ้าง
Amazon Polly มีฟีเจอร์แปลงข้อความเป็นเสียงต่อไปนี้ที่จำเป็นสำหรับการพัฒนาเสียงที่ทันสมัย
ช่วงของเสียงต่าง ๆ
การมีตัวเลือกในการเลือกภาษา ภูมิภาค เพศ และเสียงที่แตกต่างกันภายในภูมิภาคทำให้มีชุดผลิตภัณฑ์สำหรับการพัฒนาที่ครอบคลุมมากขึ้น Amazon Polly รองรับภาษาหลายสิบภาษารวมถึงรูปแบบและสำเนียงตามประเทศทั้งในรูปแบบชายและหญิง
การผสานรวมที่ใช้ API
ตรวจสอบว่าซอฟต์แวร์ TTS ของคุณมี API ที่ทำงานได้เต็มรูปแบบและพร้อมใช้งานในภาษาการเขียนโปรแกรมหลายภาษา สำหรับการบผสานรวมที่ครอบคลุมที่สุดในโครงการต่าง ๆ Amazon Polly ให้ Amazon Polly API และ SDK เฉพาะภาษาต่าง ๆ ที่หลากหลาย นอกจากนี้ยังสามารถเข้าถึงได้จากคอนโซลการจัดการของ AWS และ AWS Command Line Interface (CLI) คุณควบคุมความสามารถทั้งหมดของ Amazon Polly ได้อย่างสมบูรณ์ไม่ว่าคุณจะใช้งานมันอย่างไรก็ตาม
การควบคุมด้วยเสียงที่แม่นยำ
ภาษามาร์กอัปการสังเคราะห์คำพูด (SSML) เป็นภาษาการมาร์กอัปที่ใช้ XML ช่วยให้คุณสามารถระบุข้อมูลเพิ่มเติมเกี่ยวกับเสียงพูดของคุณได้ ตัวอย่างเช่น คุณสามารถรวมการหยุดชั่วคราว การตีความ (เช่น วันที่ คำย่อ) ความสูงต่ำของเสียง อัตราความเร็ว ระดับเสียง การเน้น การเฟดอิน และองค์ประกอบเสียงอื่น ๆ เพื่อปรับแต่งเสียงที่สร้างขึ้น SSML ช่วยให้คุณสามารถควบคุมเอาต์พุตเสียงได้อย่างเต็มที่และพอร์ตการปรับแต่งไปยังระบบอื่นได้
Amazon Polly รองรับทั้งแท็ก Amazon SSML ทั่วไปและแบบกำหนดเอง เช่น ความสามารถในการทำให้เสียงพูดเหมือนผู้ประกาศข่าว ความยืดหยุ่นนี้ช่วยให้คุณสร้างเสียงพูดที่เหมือนจริงซึ่งดึงดูดและรักษาความสนใจของผู้ฟังได้
การเชื่อมต่อข้อมูลเมตาสำหรับแอนิเมชันแบบซิงโครไนซ์
แอปพลิเคชันบางอย่าง เช่น เกมและสื่อ ต้องใช้แอนิเมชันที่มีตัวละครที่เคลื่อนไหวตามเสียง เช่น การเคลื่อนไหวของปากหรือคำพูดตามแบบคาราโอเกะ วิดีโอการฝึกอบรมที่มีหลายภาษาจะได้รับประโยชน์จากการจับเวลาที่ซิงโครไนซ์กันในหลายภาษา ดังนั้นเสียงจะตรงกับวิดีโอในเวลาเดียวกันสำหรับทุกภาษา
สำหรับแอปพลิเคชันประเภทดังกล่าว นักพัฒนาจำเป็นต้องมีข้อมูลเมตาเพื่อทำเครื่องหมายว่าองค์ประกอบคำพูดใดจะเกิดขึ้นในเวลาที่กำหนดในรูปแบบที่มีประทับเวลา Amazon Polly อนุญาตให้คุณขอข้อมูลเมตา ทำเครื่องหมายคำพูดเพิ่มเติมพร้อมกับไฟล์เสียงของคุณ เครื่องหมายคำพูดให้ข้อมูลเช่นการประทับเวลาของไฟล์เสียง, ไวซีม (ตำแหน่งของใบหน้าและปากเมื่อพูดคำ) และรายละเอียดอื่น ๆ ที่เชื่อมโยงข้อความที่เขียนกับเอาต์พุตเสียง
การปรับแต่ง
คุณต้องการให้ซอฟต์แวร์แปลงข้อความเป็นเสียงของคุณปรับแต่งได้อย่างเต็มที่เพื่อความยืดหยุ่นสูงสุด ตัวอย่างเช่น เอาต์พุตเสียงควรปรับแต่งได้ตามรูปแบบและการกำหนดค่าที่แตกต่างกัน รวมถึงตามประเภทไฟล์ (เช่น) ขนาดไฟล์ และคุณภาพข้อมูล ซอฟต์แวร์ดังกล่าวควรสามารถจัดการคำศัพท์ที่กำหนดเองซึ่งอยู่นอกเหนือข้อมูลการฝึกอบรมได้
Amazon Polly รองรับการปรับแต่งแปลงข้อความเป็นเสียงในทุกขั้นตอน
คำศัพท์
คุณสามารถสร้างพจนานุกรมแบบกำหนดเองพร้อมการออกเสียงเฉพาะสำหรับชื่อบริษัท คำย่อ คำต่างประเทศ และคำศัพท์ใหม่ คุณสามารถขอเอาต์พุตในรูปแบบเสียงหลายรูปแบบเช่น MP3 และ WAV
รูปแบบเอาต์พุต
Amazon Polly ยังรองรับเสียงรูปแบบยาวเช่นการอ่านเอกสารด้วยเสียงที่ฟังเป็นธรรมชาติ คุณสามารถสร้างสตรีมเสียงต่อเนื่องสำหรับการเชื่อมต่อแบนด์วิดท์ต่ำหรือเวลาแฝงต่ำในกรณีการใช้งานแบบเรียลไทม์
เสียง
นอกจากนี้ เรายังให้บริการ Brand Voice ซึ่งเป็นการมีส่วนร่วมแบบกำหนดเอง โดยคุณจะทำงานร่วมกับทีม Amazon Polly เพื่อสร้างเสียงสำหรับการใช้งานเฉพาะขององค์กรของคุณ แทนที่จะฟังดูเหมือนแอปอื่น ๆ คุณสามารถสร้างเครื่องหมายแบรนด์ที่ใช้เสียงที่ไม่เหมือนใครซึ่งช่วยให้คุณโดดเด่นได้
คุณจะเริ่มต้นใช้งานซอฟต์แวร์แปลงข้อความเป็นเสียงได้อย่างไร
การเริ่มต้นใช้งานซอฟต์แวร์แปลงข้อความเป็นเสียงของ AWS นั้นทำได้ง่าย ในคู่มือนี้ เราจะสาธิตการใช้งาน Amazon Polly อย่างรวดเร็วในคอนโซล
ขั้นแรก ลงชื่อเข้าใช้คอนโซลการจัดการของ AWSและเปิดคอนโซล Amazon Polly คลิกที่ Try Polly เพื่อเริ่มต้น การดำเนินการนี้จะเปิดกล่องโต้ตอบการแปลงข้อความเป็นคำพูด
ขั้นตอนที่ 1 - เลือกกลไก
ในกล่องโต้ตอบการแปลงข้อความเป็นคำพูด คุณสามารถเลือกเครื่องมือเสียงที่ต้องการใช้ได้ ปัจจุบัน Amazon Polly มีกลไกเสียงที่แตกต่างกันสี่รายการให้เลือก
- กลไกมาตรฐานใช้วิธีการสังเคราะห์แบบผสมผสานเป็นเครื่องกำเนิดเสียง
- กลไกนิวรัลใช้นิวรัลเน็ตเวิร์กและวิธีการแปลงเสียงเพื่อสร้างคำพูดที่ฟังดูเป็นธรรมชาติมากขึ้น
- กลไกช่วยสร้างใช้โมเดลพารามิเตอร์หลายพันล้านพารามิเตอร์ที่ได้รับการฝึกเกี่ยวกับข้อมูลเสียงที่หลากหลายเพื่อการพูดที่มีเสียงตามธรรมชาติยิ่งขึ้น
- กลไกรูปแบบยาวเป็นอีกกลไกในแปลงข้อความเป็นเสียงแบบ AI ช่วยสร้างอีกชนิดหนึ่งที่พัฒนาขึ้นสำหรับการพูดแบบบรรยายยาว ๆ
ไม่ใช่กลไกทั้งหมดที่จะมีให้บริการในทุก AWS Region
ขั้นตอนที่ 2—เลือกภาษา
เมื่อคุณเลือกกลไกเสียงแล้ว ให้เลือกภาษาที่คุณต้องการสร้างและเสียงชายหรือหญิง จากเมนูดรอปดาวน์
แต่ละกลไกเสียงรองรับภาษาและเสียง AI ที่แตกต่างกัน ตัวอย่างเช่น หากคุณเลือกนิวรัลเป็นกลไกจะมีเฉพาะภาษาและเสียงที่รองรับ Neural Text-to-Speech (NTTS) เท่านั้น และเสียงแบบมาตรฐานและรูปแบบยาวทั้งหมดจะถูกปิดใช้งาน
ขั้นตอนที่ 3—แปลงข้อความเป็นคำพูด
ในกล่องข้อความป้อนข้อมูล ให้เปลี่ยนข้อความเริ่มต้นเป็นป้อนข้อความที่คุณเขียนขึ้นเพื่อป้อนเอง คุณสามารถเลือกปุ่มฟังเพื่อฟังเอาต์พุตที่อ่านออกเสียงปุ่มดาวน์โหลดเพื่อดาวน์โหลดไฟล์ MP3 หรือปุ่มบันทึกเป็น S3 เพื่อบันทึกคำที่พูดไว้ใน Amazon Simple Storage Service
การเข้าถึง Amazon Polly ผ่าน API
คุณสามารถเข้าถึง Amazon Polly ผ่านคอนโซลข้างต้นหรือผ่าน API ในโค้ดแอปพลิเคชัน Amazon Polly API ช่วยให้คุณทำหลายสิ่งตั้งแต่การแปลแบบเรียลไทม์ไปจนถึงการสร้างคำบรรยายและทำให้วิดีโอเกมหรือตัวละครแอนิเมชั่นมีชีวิตชีวา ลองใช้ตัวอย่างบางส่วนบน GitHub เพื่อดูตัวอย่างวิธีใช้ Amazon Polly API ในโค้ด
AWS สามารถสนับสนุนความต้องการซอฟต์แวร์แปลงข้อความเป็นเสียงของคุณได้อย่างไร
การแปลงข้อความเป็นเสียงช่วยให้คุณสามารถสร้างเสียงผ่านทางข้อความแทนการพูดของมนุษย์ เดิมทีใช้เป็นเทคโนโลยีช่วยเหลือผู้ที่มีความบกพร่องทางสายตา แต่ปัจจุบันกลายเป็นสิ่งจำเป็นในแอปพลิเคชันและการโต้ตอบกับลูกค้ามากมาย ตั้งแต่การเป็นส่วนขยายเบราว์เซอร์ไปจนถึงการใช้ในศูนย์บริการสายด่วนและแอปพลิเคชันสำหรับองค์กร ด้วยการใช้บริการที่มีการจัดการเช่น Amazon Polly นักพัฒนาสามารถรวมกลไกเสียงที่ทันสมัยและสมจริงเข้ากับแอปพลิเคชันได้อย่างง่ายดายผ่านการเรียกใช้ API การแปลงข้อความเป็นเสียง การกำหนดราคา Amazon Polly ขึ้นอยู่กับกลไกและจำนวนอักขระที่ประมวลผลและรวมถึง Free Tier สำหรับการใช้งานส่วนตัว
เสียงพูดของ Amazon Polly เป็นเพียงหนึ่งในบริการ AI ช่วยสร้างที่คุณสามารถใช้ประโยชน์ในการพัฒนาแอปพลิเคชัน ลองดูโซลูชัน AI บน AWS ที่หลากหลายเพื่อช่วยให้คุณสร้างและปรับขนาดแอปได้เร็วขึ้นและแข็งแกร่งขึ้น