Passa al contenuto principale

Cos’è il software di sintesi vocale?

Da pagine web lette ad alta voce alla richiesta di dati degli utenti, la voce sta rapidamente diventando la normalità come interfaccia utente moderna. I clienti si aspettano sempre più spesso funzionalità vocali in ogni applicazione con cui interagiscono. Inoltre, i casi d’uso di sintesi vocale per sanità, vendite, creazione di contenuti, servizio clienti e altre applicazioni possono accelerare l’automazione e migliorare al contempo l’esperienza utente. Questa guida illustra le funzionalità e capacità di sintesi vocale e spiega come iniziare a utilizzarle.

Il software di sintesi vocale produce un audio “vocale” tramite la sintesi di un output vocale a partire da testo. Il software è alimentato da un motore di sintesi vocale addestrato su un ampio volume di registrazioni vocali umane. Converte le parole scritte in forma vocale analizzando le forme d’onda sonore nei dati vocali.

Le voci innaturali e robotiche sono il risultato di tecnologie vocali obsolete. I motori di sintesi vocali moderni basati sull’IA generativa producono output quasi indistinguibili dal linguaggio umano. La voce generata può includere pause naturali, vari accenti, diverse velocità e intonazioni che riflettono le emozioni umane.

Tipi di software di sintesi vocale

Il tipo di strumento di sintesi vocale scelto dipende dal caso d’uso. Per gli sviluppatori, la scelta migliore è un pacchetto completo, personalizzabile e integrativo per consentire uno sviluppo multi-app e multi-ambiente.

Gli sviluppatori possono scegliere tra software di sintesi vocale open source e commerciali con implementazioni gestite autonomamente o un servizio cloud gestito completamente integrato come Amazon Polly. Questo strumento consente alle applicazioni esistenti di integrare output vocali in piena regola, offrendo l’opportunità di creare categorie completamente nuove di prodotti con funzionalità vocali, dalle applicazioni per dispositivi mobili e automobili, a dispositivi ed elettrodomestici.

Amazon Polly è dotato di quattro motori vocali basati su modelli di IA con diverse architetture, adatti a vari casi d’uso. Per utilizzare una voce Amazon Polly, basta selezionare il motore, l’operazione di sintesi vocale e il formato del file di output tramite l’API nel codice e poi fornire il testo di input che il motore dovrà sintetizzare. Amazon Polly genererà il file di output vocale nel formato richiesto. Questi motori possono essere ulteriormente addestrati in base ai requisiti di voce o di marchio specifici.

Quali sono le funzionalità da ricercare in un software di sintesi vocale?

Amazon Polly include le seguenti funzionalità di sintesi vocale essenziali per lo sviluppo vocale moderno.

Gamma di voci

Grazie alla possibilità di selezionare diverse lingue, aree geografiche, generi e voci all’interno di una regione, è possibile usufruire di una suite di prodotti più completa per lo sviluppo. Amazon Polly supporta decine di lingue, nonché le varianti e gli accenti nazionali, in formati sia maschili che femminili.

Integrazione basata su API

Verifica che il software di sintesi vocale disponga di un’API completamente funzionale disponibile in più linguaggi di programmazione, al fine di poter disporre della gamma più ampia di integrazioni possibile tra diversi progetti. Amazon Polly offre l’API Amazon Polly e diversi Software Development Kit (SDK) specifici per lingua. È possibile accedervi anche dalla Console di gestione AWS e dall’interfaccia a riga di comando (CLI) AWS. Hai il controllo completo su tutte le funzionalità di Amazon Polly, indipendentemente da come lo usi.

Controllo vocale preciso

Speech Synthesis Markup Language (SSML) è un linguaggio di markup basato su XML che consente di fornire ulteriori informazioni su come dovrebbe suonare l’output vocale. Per esempio, è possibile includere pause, interpretazioni (per es. date, acronimi), tonalità, velocità, volume, enfasi, dissolvenza e altri elementi audio per personalizzare la voce generata. SSML consente di controllare completamente gli output vocali e importare la personalizzazione in altri sistemi.  

Amazon Polly supporta tag Amazon SSML sia comuni che personalizzati, come la possibilità di far suonare una voce come un giornalista. Grazie a questo livello di flessibilità, è possibile creare voci estremamente verosimili che catturano e mantengono l’attenzione degli utenti.

Hook di metadati per animazioni sincronizzate

Alcune applicazioni, come giochi e contenuti multimediali, richiedono che le animazioni dei personaggi seguano l’audio, compresi i movimenti della bocca o di testo visualizzato sullo schermo in stile karaoke. Anche i video di formazione multilingue potrebbero trarre vantaggio dalla sincronizzazione dei tempi in più lingue, in modo che l’audio sia in linea con il video contemporaneamente per tutte le lingue.

Per questo genere di applicazioni, gli sviluppatori hanno bisogno di metadati per contrassegnare quali elementi del discorso avvengono in un determinato momento in un formato con timestamp. Amazon Polly consente di richiedere questi metadati aggiuntivi, o contrassegni vocali, insieme al file vocale. I contrassegni vocali offrono informazioni come il timestamp del file audio, il viseme (la posizione del volto e della bocca quando viene pronunciata una parola) e altri dettagli che collegano il testo scritto all’output vocale.

Personalizzazione

Il software di sintesi vocale deve essere completamente personalizzabile per garantire la massima flessibilità. Per esempio, l’output audio deve essere personalizzabile per diversi formati e configurazioni, compresi il tipo di file, la dimensione del file e la qualità dei dati. Il software deve poter gestire il vocabolario personalizzato che non rientra nei dati di addestramento.

Amazon Polly supporta la personalizzazione della sintesi vocale in ogni fase.

Vocabolario

È possibile creare un dizionario su misura con pronunce personalizzate per nomi di aziende, acronimi, parole straniere e neologismi. È possibile richiedere output in più formati vocali, come MP3 e WAV.

Formato di output

Amazon Polly supporta anche audio di lunga durata, come la lettura di documenti, in voce naturale. È possibile generare flussi audio continui per connessioni con larghezze di banda inferiori o bassa latenza in casi d’uso in tempo reale.

Voce

Offriamo anche Brand Voice, un coinvolgimento personalizzato che consente di collaborare con il team di Amazon Polly per costruire una voce a uso esclusivo della tua organizzazione. Invece di offrire un’app uguale alle altre, puoi creare un marchio basato sulla voce per distinguerti.

Come si inizia a usare un software di sintesi vocale?

Iniziare a usare il software di sintesi vocale di AWS è facile. In questa guida, offriamo un’introduzione a una demo pratica veloce di Amazon Polly nella console.

Per prima cosa, accedi alla Console di gestione AWS e apri la console Amazon Polly. Fai clic su Prova Polly per iniziare. Verrà visualizzata la finestra di dialogo Sintesi vocale.

Fase 1: scegliere un motore

Nella finestra di dialogo Sintesi vocale, puoi selezionare il motore vocale che desideri utilizzare. Al momento, Amazon Polly dispone di quattro diversi motori vocali tra cui scegliere.

  • Il motore Standard utilizza il metodo di sintesi concatenativa come generatore vocale.
  • Il motore Neurale utilizza una rete neurale e il metodo vocoder per produrre un linguaggio più naturale.
  • Il motore Generativo utilizza un modello di un miliardo di parametri addestrato su una vasta gamma di dati vocali per un linguaggio ancora più naturale.
  • Il motore Long-form è un altro motore di sintesi vocale basato sull’IA generativa sviluppato per generare discorsi lunghi in stile narrativo.

Non tutti i motori sono disponibili in tutte le Regioni AWS.

Fase 2: scegliere una lingua

Dopo aver selezionato un motore, scegli la lingua in cui desideri generare contenuti e una voce maschile o femminile dal menu a discesa.

Ogni motore vocale supporta una gamma diversa di lingue e di voci di IA. Per esempio, se selezioni il motore Neurale, saranno disponibili solo le lingue e le voci che supportano la sintesi vocale neurale e tutte le voci Standard e Long-form saranno disabilitate.

Fase 3: eseguire la sintesi vocale

Nella casella Testo di input, cambia il testo predefinito con il tuo input in testo scritto. Puoi selezionare il pulsante Ascolta per sentire la lettura ad alta voce dell’output, il pulsante Scarica per scaricare il file MP3 o il pulsante Salva in S3 per salvare le parole pronunciate su Amazon Simple Storage Service.

Accedere ad Amazon Polly tramite l’API

Puoi accedere ad Amazon Polly tramite la console, come descritto sopra, oppure tramite l’API nel codice dell’applicazione. L’API Amazon Polly consente di eseguire molte operazioni, dalla traduzione in tempo reale alla generazione di sottotitoli e al portare in vita i personaggi di videogiochi o di altri contenuti animati. Prova alcuni esempi su GitHub per scoprire come utilizzare l’API Amazon Polly nel codice.

In che modo AWS può supportare le esigenze di software di sintesi vocale?

La sintesi vocale consente di creare audio a basati sulla voce tramite testo anziché linguaggio umano. Inizialmente veniva utilizzata come tecnologia assistiva per persone con disabilità visive, ma ora sta diventando un requisito per molte applicazioni e interazioni con i clienti, dalle estensioni browser ai call center, fino alle applicazioni aziendali. Utilizzando un servizio gestito come Amazon Polly, gli sviluppatori possono integrare facilmente un motore vocale moderno e realistico nelle applicazioni tramite chiamate API di sintesi vocale. I prezzi di Amazon Polly si basano sul motore e sul numero di caratteri elaborati e includono un piano gratuito per uso personale.

L’audio vocale di Amazon Polly è solo uno dei tanti servizi di IA generativa disponibili per lo sviluppo di applicazioni. Dai un’occhiata alla gamma di soluzioni di IA su AWS per creare e scalare app in modo più rapido ed efficace.