Panoramica

Amazon Transcribe consente ai clienti AWS di aggiungere funzionalità di riconoscimento vocale nelle proprie applicazioni abilitate alle funzionalità vocali. Utilizzando la tecnologia di riconoscimento vocale automatico (ASR), i clienti possono utilizzare Amazon Transcribe per una varietà di applicazioni aziendali. Le funzionalità fornite dal servizio includono il riconoscimento vocale automatico, la diarizzazione di chi parla, la redazione delle informazioni di identificazione personale (PII) e l'identificazione della lingua; consulta la documentazione per ulteriori dettagli. Questa scheda dei servizi di IA descrive una di queste funzionalità, Transcribe - Batch (inglese-USA), implementata dall'API Transcribe::StartTranscriptionJob. Questa funzionalità esegue l'ASR in inglese americano con larghezza di banda bassa (8 kHz) o alta (16 kHz). Funziona sulla voce registrata disponibile da un file audio statico (modalità batch). Per l'ASR quasi in tempo reale su contenuti multimediali in streaming, consulta l'API Transcribe::StartStreamTranscription.

Valutiamo la qualità del linguaggio di Transcribe misurando la corrispondenza tra le parole di una trascrizione ASR e le parole pronunciate nell'esempio vocale, trascritte da un ascoltatore umano. Quando una persona dice "Questo sistema è davvero in grado di riconoscere la voce", ci aspettiamo che la trascrizione contenga le parole pronunciate e non "Questo sistema è in grado di far crescere la noce". In una trascrizione possono comparire tre tipi di errori: sostituzioni (come "crescere" invece di "riconoscere"), aggiunte (parole extra come "far") ed eliminazioni (parole mancanti come "davvero"). Le parole trascritte correttamente si chiamano hit. I parametri di qualità come precisione, recupero, F1 e tasso di errore delle parole (WER) dipendono dal numero di hit ed errori.

Numerosi fattori influiscono sulla precisione di qualsiasi sistema ASR. Il segnale audio di input è costituito dalla voce stessa, modificata da una serie di fattori confondenti. Le singole parole e gli enunciati differiscono da persona a persona per la frequenza con cui vengono utilizzati, il modo in cui vengono pronunciati e come vengono combinati con altre parole. Le parole che differiscono nell'ortografia e nel significato potrebbero non differire nel suono. Le persone che parlano possono sovrapporsi o interrompersi l'un l'altra. I dispositivi di registrazione differiscono per qualità e posizione rispetto alla persona che parla (ad esempio, campo lontano e vicino). Gli ambienti di registrazione si differenziano per il livello di rumore di sottofondo, la predisposizione all'eco e la presenza di altre persone che parlano. Le linee di trasmissione variano in base al livello di rumore. Transcribe è progettato per distinguere l'audio di parole diverse e ignorare le variazioni confondenti.

Casi d'uso e limitazioni previsti

Transcribe - Batch (inglese-USA) è destinato all'uso su campioni audio che contengono una voce umana naturale. Non è progettato per la voce trasformata meccanicamente, digitalmente o sintetizzata. Ha lo scopo di trascrivere parole in inglese americano; consulta Supported Languages per altre lingue. Transcribe supporta un ampio vocabolario generico; i clienti possono aggiungere vocabolari personalizzati e modelli di linguaggio personalizzati per la copertura di parole e frasi di domini specializzati. Transcribe supporta il partizionamento degli altoparlanti, noto anche come diarizzazione. È possibile identificare fino a 10 altoparlanti unici abilitando il partizionamento degli altoparlanti nella chiamata API.

Transcribe Batch (inglese-USA) ha molte possibili applicazioni, come l'analisi dei contact center (sentimento/categorizzazione/velocità di conversazione), la trascrizione di messaggi vocali, i sottotitoli delle riunioni, i sottotitoli per i contenuti multimediali (audio o video) e la ricerca/analisi/analisi delle parole chiave per i contenuti multimediali, inclusa la catalogazione o l'indicizzazione degli archivi multimediali. Queste applicazioni variano nella loro progettazione in base a: (1) il numero di persone che parlano, (2) il numero di persone che parlano per canale (ad esempio, per dispositivo di registrazione come un laptop o un telefono cellulare), (3) il modo di parlare utilizzato dalle persone, (4) le condizioni di registrazione (come posizione e apparecchiature), e altri fattori. Ad esempio, un'applicazione di trascrizione di un contact center potrebbe prevedere due persone che parlano, una per canale; una registrazione in campo vicino (con la bocca della persona vicino al microfono) e un elevato rumore di sottofondo sia dall'ambiente domestico del chiamante che dall'ambiente di lavoro dell'operatore del contact center. Un secondo esempio è un'applicazione per la creazione di sottotitoli codificati di video didattici, un punto di accesso all'analisi dei contenuti multimediali, all'indicizzazione e alla ricerca. Questa applicazione prevede più persone che parlano; un canale audio condiviso da tutte le persone; un discorso scritto con meno parole di riempimento, pause e disfluenze, ma un gergo più specifico del dominio; livelli inferiori di rumore di sottofondo e altre interferenze acustiche.

Progettazione di Transcribe - Batch (inglese-USA)

Machine learning: Transcribe è realizzato utilizzando la tecnologia ML e ASR. Funziona nel seguente modo: (1) Identifica le caratteristiche acustiche pertinenti dell'input audio. (2) Genera una serie di stringhe candidate a livello di parola, in base a queste funzionalità. (3) Applica la modellazione linguistica per classificare le stringhe candidate e restituire la trascrizione con il punteggio più alto. Consulta la documentazione per gli sviluppatori per i dettagli sulle chiamate API.

Aspettative prestazionali: le variazioni individuali e confondenti differiscono in base alle applicazioni del cliente. Ciò significa che anche le prestazioni variano in base alle applicazioni, sebbene supportino lo stesso caso d'uso. Prendiamo in considerazione due applicazioni di trascrizione A e B. L'applicazione A consente la creazione di sottotitoli video per un talk show televisivo e dispone di più voci per canale di registrazione, microfoni ad asta di alta qualità e rumore di sottofondo trascurabile. L'applicazione B aiuta i contact center a registrare le chiamate dei clienti e consente a questi ultimi di parlare vicino al microfono, una voce per canale di registrazione e dialoghi non scritti con i clienti. Poiché A e B hanno diversi tipi di input, probabilmente avranno tassi di errore diversi, anche supponendo che ciascuna applicazione sia implementata perfettamente utilizzando Transcribe.

Metodologia basata sui test: utilizziamo più set di dati per valutare le prestazioni. Nessun singolo set di dati di valutazione fornisce un quadro completo delle prestazioni. Questo perché i set di dati di valutazione variano in base alla loro composizione demografica (il numero e il tipo di gruppi definiti), alla quantità di variazioni confondenti (qualità del contenuto, idoneità per il caso d'uso), ai tipi e alla qualità delle etichette disponibili e ad altri fattori. Misuriamo le prestazioni di Transcribe testandole su set di dati di valutazione contenenti registrazioni audio di una varietà di parlanti rappresentativi della popolazione degli utenti finali, in cui ogni registrazione è etichettata con trascrizioni reali e attributi demografici di chi parla. Rappresentiamo le prestazioni complessive su un set di dati mediante diversi parametri, tra cui il tasso di errore delle parole e F1, una percentuale che bilancia in modo uniforme la percentuale di parole previste corrette (precisione) con la percentuale di parole corrette incluse nella previsione (recupero). I gruppi in un set di dati possono essere definiti in base ad attributi demografici (come genere, età e ascendenza), variabili confondenti (come la varietà delle apparecchiature di registrazione, la distanza di ciascuna persona dall'apparecchiatura di registrazione, la post-elaborazione e i rumori di sottofondo) o una combinazione di entrambi. I diversi set di dati di valutazione variano in base a questi e ad altri fattori. Per questo motivo tutti i parametri, sia complessivi che per gruppi, variano a seconda del set di dati. Tenendo conto di questa variazione, il nostro processo di sviluppo esamina le prestazioni di Transcribe utilizzando più set di dati di valutazione, adotta misure per aumentare la precisione per i gruppi in cui Transcribe ha ottenuto risultati meno buoni, lavora per migliorare la suite di set di dati di valutazione e quindi esegue le iterazioni.

Equità e bias: il nostro obiettivo è che Transcribe - Batch (inglese-USA) funzioni bene per chi parla l'inglese americano nelle varie pronunce, intonazioni, vocabolari e caratteristiche grammaticali che queste persone possono utilizzare. Consideriamo i gruppi di parlanti definiti per regioni, come il Midwest o New York City, e le comunità definite da molteplici dimensioni dell'identità, tra cui ascendenza, età e genere. Per raggiungere questo obiettivo, utilizziamo il processo di sviluppo iterativo descritto in precedenza. Come parte di questo processo, creiamo set di dati per acquisire una vasta gamma di persone che parlano in un'ampia gamma di fattori confondenti. Effettuiamo regolarmente test su set di dati per i quali disponiamo di etichette demografiche affidabili. Abbiamo riscontrato che Transcribe ha ottime prestazioni in tutti gli attributi demografici. Ad esempio, su un set di dati di linguaggio naturale con 65 gruppi demografici, definiti per età, ascendenza, sesso e dialetto regionale (come Femminile+Europeo, Maschile+ Meno di 45 anni), troviamo che la precisione del riconoscimento delle parole F1 è del 92% o superiore per ogni gruppo di parlanti. Per le trascrizioni con il partizionamento degli altoparlanti (diarizzazione) abilitato, sullo stesso set di dati troviamo che la precisione della diarizzazione è del 98% o superiore per ogni gruppo di parlanti. Poiché i risultati dipendono da Transcribe, dal flusso di lavoro del cliente e dal set di dati di valutazione, consigliamo ai clienti di testare Transcribe anche sui propri contenuti.

Spiegabilità: quando Amazon Transcribe trascrive l'audio, crea versioni diverse della stessa trascrizione e assegna un punteggio di affidabilità a ciascuna versione. Se i clienti abilitano trascrizioni alternative, Amazon Transcribe restituisce versioni alternative della trascrizione con livelli di affidabilità inferiori. I clienti possono esplorare trascrizioni alternative per ottenere maggiori informazioni sulle parole e le frasi candidate generate per ciascun input audio.

Solidità: massimizziamo la solidità con una serie di tecniche, incluso l'utilizzo di grandi set di dati di formazione che acquisiscono molti tipi di variazioni tra più individui. Gli input audio ideali per l'ASR di Transcribe contengono audio con alta qualità di registrazione, basso rumore di sottofondo e basso riverbero ambientale. Tuttavia, Transcribe è addestrato per essere resiliente anche quando gli input variano dalle condizioni ideali e può funzionare bene in ambienti rumorosi e con più persone che parlano.

Privacy e sicurezza: Amazon Transcribe elabora solo i dati di input audio. Gli input audio non sono mai inclusi nell'output restituito dal servizio. Gli input e gli output non vengono mai condivisi tra i clienti. I clienti possono scegliere di non partecipare alla formazione sui contenuti dei clienti tramite AWS Organizations o altri meccanismi di rifiuto che potremmo fornire. Per ulteriori informazioni, consulta la sezione 50.3 dei Termini di servizio AWS e le domande frequenti sulla privacy dei dati in AWS. Per informazioni sulla privacy e sulla sicurezza specifiche del servizio, consulta la sezione sulla privacy dei dati delle domande frequenti di Transcribe e la documentazione della Sicurezza di Amazon Transcribe.

Trasparenza: laddove appropriato per il loro caso d'uso, i clienti che integrano Amazon Transcribe nel proprio flusso di lavoro sono invitati a divulgare l'uso delle tecnologie di ML e ASR agli utenti finali e ad altre persone interessate dall'applicazione, e a offrire ai propri utenti finali la possibilità di fornire feedback per migliorare i flussi di lavoro. Nella propria documentazione, i clienti possono anche fare riferimento a questa scheda dei servizi di IA.

Governance: disponiamo di metodologie rigorose per creare i nostri servizi di IA di AWS in modo responsabile, tra cui un processo di sviluppo del prodotto funzionante a ritroso che include l'IA responsabile nella fase di progettazione, consulenze di progettazione e valutazioni di implementazione da parte di esperti di IA responsabile e dei relativi dati, test di routine, revisioni con i clienti e sviluppo, diffusione e formazione delle best practice.

Best practice per l'implementazione e l'ottimizzazione delle prestazioni

Incoraggiamo i clienti a creare e utilizzare le proprie applicazioni in modo responsabile, come descritto nella guida AWS Responsible Use of Machine Learning. Ciò include l'implementazione di pratiche di IA responsabile per affrontare aspetti chiave, tra cui equità e bias, solidità, spiegabilità, privacy e sicurezza, trasparenza e governance.
 
Progettazione del flusso di lavoro: le prestazioni di qualsiasi applicazione che utilizza Transcribe dipendono dalla progettazione del flusso di lavoro del cliente. Condizioni come il rumore di sottofondo, le apparecchiature di registrazione e altre sono discusse nella sezione Casi d'uso previsti. A seconda dell'applicazione, queste condizioni possono essere ottimizzate dai clienti Transcribe, che definiscono il flusso di lavoro in cui l'audio degli utenti finali viene acquisito. Transcribe offre ai clienti funzionalità per ottimizzare le prestazioni di riconoscimento all'interno dell'API. Queste funzionalità includono condizioni di registrazione, frequenze di campionamento, vocabolari personalizzati, modelli di linguaggio personalizzati e filtri per il vocabolario o informazioni di identificazione personale (PII). La supervisione umana, la coerenza del flusso di lavoro e i test periodici per verificare la deviazione delle prestazioni sono anch'essi considerazioni critiche che sono sotto il controllo dei clienti e che contribuiscono a ottenere risultati accurati ed equi.
 
  1. Condizioni di registrazione: i flussi di lavoro devono includere misure per affrontare le variazioni nelle condizioni di registrazione, come parlare lontano dal microfono o in condizioni rumorose. Se la variazione è elevata, valuta la possibilità di fornire assistenza e istruzioni accessibili a tutti gli utenti finali e monitora la qualità della registrazione campionando periodicamente e in modo casuale gli input.

  2. Frequenze di campionamento: i clienti dispongono di un parametro opzionale per specificare la frequenza di campionamento dell'audio in ingresso, che si tratti di input a larghezza di banda inferiore (8 kHz) o a banda larga (16 kHz).

  3. Vocabolari personalizzati: Transcribe riconosce il vocabolario utilizzato in una varietà di comunità di parlanti (regioni dialettali, gruppi demografici). Nei casi in cui i clienti desiderino fornire ulteriore supporto per parole specifiche del loro dominio o situazione, come nomi di marchi o nomi e acronimi propri, possono utilizzare vocabolari personalizzati per migliorare l'accuratezza della trascrizione di tali parole. Per ulteriori informazioni, consulta la documentazione per Custom Vocabularies.

  4. Modelli di linguaggio personalizzati: quando un'applicazione del cliente deve gestire un discorso di un dominio specifico che è più complesso di semplici parole, i clienti possono utilizzare modelli di linguaggio personalizzati per migliorare l'accuratezza della trascrizione. Ad esempio, quando si trascrivono le registrazioni di discorsi sulla climatologia, potrebbe essere possibile aumentare l'accuratezza della trascrizione imparando il contesto in cui appaiono le parole (come "flusso di ghiaccio" e "lastrone di ghiaccio"). In questo caso, i clienti possono addestrare un modello di linguaggio personalizzato per riconoscere termini specializzati. Per ulteriori informazioni, consulta la documentazione per Custom Language Models.

  5. Applicazione di un filtro al vocabolario e redazione delle PII: queste ottimizzazioni possono migliorare la sicurezza e la privacy della lingua prodotta nelle trascrizioni. L'applicazione di un filtro al vocabolario consente ai clienti di mascherare o rimuovere parole sensibili oppure non adatte al proprio pubblico dai risultati della trascrizione, in base a un elenco definito dal cliente. La redazione delle PII consente ai clienti di generare una trascrizione in cui le informazioni di identificazione personale sono state rimosse, in base ai tipi di PII identificati da Transcribe - Batch (inglese-USA). Queste includono nome, indirizzo, numero di carta di credito, SSN e altri dati. Per ulteriori informazioni, incluso un elenco completo dei tipi di PII e considerazioni sull'utilizzo della redazione delle PII per carichi di lavoro regolamentati, consulta la documentazione per l'applicazione di filtri al vocabolario e la redazione delle PII.

  6. Supervisione umana: se il flusso di lavoro dell'applicazione di un cliente comporta un caso d'uso sensibile o ad alto rischio, come una decisione che influisce sui diritti di un individuo o sull'accesso ai servizi essenziali, la revisione umana deve essere inclusa nel flusso di lavoro dell'applicazione, ove appropriato. I sistemi ASR possono fungere da strumenti per ridurre lo sforzo richiesto da soluzioni completamente manuali e per consentire alle persone di esaminare e valutare rapidamente i contenuti audio.

  7. Coerenza: i clienti devono stabilire e applicare le policy relative ai tipi di personalizzazione del flusso di lavoro, agli input audio consentiti e al modo in cui le persone utilizzano il proprio giudizio per valutare gli output di Transcribe. Queste policy dovrebbero essere coerenti tra i gruppi demografici. La modifica incoerente degli input audio potrebbe comportare risultati non equi per diversi gruppi demografici.

  8. Variazione delle prestazioni: una modifica del tipo di audio che un cliente invia a Transcribe o una modifica al servizio possono produrre output diversi. Per ovviare a queste modifiche, i clienti dovrebbero valutare di ripetere periodicamente il test delle prestazioni di Transcribe e modificare il flusso di lavoro, se necessario.

Ulteriori informazioni

Glossario

Equità e bias si riferiscono al modo in cui un sistema di IA influisce su diverse sottopopolazioni di utenti (ad esempio, per genere, etnia).

Spiegabilità si riferisce alla disponibilità di meccanismi per comprendere e valutare gli output di un sistema di IA.

Solidità si riferisce alla disponibilità di meccanismi per garantire che un sistema di IA funzioni in modo affidabile.

Privacy e sicurezza si riferiscono alla protezione dei dati dal furto e dall'esposizione.

Governance si riferisce ai processi per definire, implementare e applicare pratiche di IA responsabile all'interno di un'organizzazione.

Trasparenza si riferisce alla comunicazione di informazioni su un sistema di IA in modo che le parti interessate possano prendere scelte ponderate sul proprio utilizzo del sistema.