Cos’è la trascrizione di file audio?

Crea un account AWS

Cos’è la trascrizione di file audio?

Le organizzazioni richiedono trascrizioni audio su larga scala per vari casi d’uso, che vanno dagli appunti organizzati delle riunioni alle applicazioni per l’assistenza sanitaria. Le moderne tecnologie di IA possono trascrivere l’audio in testo, trasformando vari accenti e conversazioni tra più oratori in documenti accurati e formattati. Questa guida esplora i metodi per trascrivere l’audio in testo per esigenze di piccole e grandi aziende.

La comunicazione basata sul linguaggio è fondamentale per consentire agli esseri umani di comprendersi appieno l’un l’altro. La voce è un metodo rapido e puntuale per comunicare idee, informazioni, istruzioni ed emozioni. La registrazione e la trascrizione delle comunicazioni vocali tramite convertitori da audio a testo sono diventate essenziali per aiutare a ricordare qualcosa e aumentare la precisione e la produttività. Quando trascrivi l’audio in testo, le informazioni importanti possono essere conservate, ricercate, analizzate e remixate per approfondimenti più rapidi e un’integrazione istantanea nei processi aziendali.

In passato, una persona ascoltava una singola registrazione audio e contemporaneamente ne digitava il contenuto, convertendo le parole pronunciate e arrestando e riavviando più volte il file audio per produrre una trascrizione accurata. Studi legali, medici, ricercatori e altri studi professionali disponevano di pool di dattilografi per svolgere questo ruolo manuale nella trascrizione dell’audio in testo dalle note vocali.

Ora, le macchine possono trascrivere l’audio istantaneamente tramite un convertitore da audio a testo. Invece dello sforzo umano nel lavoro di trascrizione, la tecnologia speech-to-text (STT) converte i file audio in file di testo scritti. Questo file di testo scritto può essere letto così com’è, riassunto con uno strumento di trascrizione IA, utilizzato automaticamente all’interno di altri sistemi software, analizzato isolatamente o come parte di un corpus più ampio e molto altro ancora. Le applicazioni degli strumenti di conversione da audio a testo sono illimitate.

Cosa sono le tecnologie di trascrizione dei file audio?

I file audio possono contenere più oratori, accenti e parole specifiche del dominio. Le registrazioni audio possono anche variare nella qualità del suono. La conversione di parole pronunciate in testo richiede la comprensione del linguaggio vocale e la conoscenza della sintassi e della grammatica della lingua per produrre un output leggibile.

Il software di conversione da audio a testo precedente commetteva errori e produceva trascrizioni difficili da leggere, senza una struttura adeguata ed errori gerarchici, verbali e grammaticali. Il moderno software di conversione da audio a testo offre prestazioni molto migliori, convertendo l’audio in testo in modo molto simile alla parola pronunciata, con trascrizioni accurate e struttura e grammatica corrette.

Amazon Transcribe è un servizio di conversione da audio a testo che usa il riconoscimento vocale automatico (ASR) completamente gestito. È in grado di gestire varie caratteristiche del parlato, comprese le variazioni della velocità, del tono e del volume della voce. Può trascrivere in oltre 100 lingue, collegandosi ai flussi di lavoro degli sviluppatori e all’infrastruttura AWS per i requisiti di conversione da audio a testo aziendali.

Come iniziare a usare la trascrizione audio?

Esistono due metodi principali per trascrivere l’audio in testo, in base al tipo di file audio o video. La trascrizione in batch viene usata per i file audio preregistrati, invece la trascrizione in streaming viene utilizzata per i flussi multimediali in diretta.

Amazon Transcribe supporta l’audio a canale singolo e doppio per i tipi di trascrizione audio e video in batch e in streaming.

L’output della trascrizione da audio a testo in batch e in streaming è nel formato di file JSON. I campi forniti nell’output dipendono dalle funzionalità incluse nella richiesta di trascrizione durante la conversione dell’audio. La trascrizione contiene almeno ogni parola data, l’ora di inizio, l’ora di fine, il tipo, la corrispondenza del filtro del vocabolario e il punteggio di affidabilità per la verificabilità. Altri campi includono etichette degli oratori, parole alternative, canali e altro ancora.

Trascrizioni in streaming

La trascrizione in streaming viene usata per trascrivere flussi audio in tempo reale. Il servizio di trascrizione in streaming di Amazon Transcribe supporta l’audio little-endian a 16 bit firmato FLAC e PCM (non WAV) come formati preferiti, insieme a Ogg Opus. Imposta una frequenza di campionamento che corrisponda al file audio per evitare errori di conversione da audio a testo.

Puoi usare la Console di gestione AWS, HTTP/2, WebSocket e vari SDK AWS per le trascrizioni in streaming, a seconda di come desideri utilizzare lo strumento.

Di seguito viene illustrata una procedura dettagliata di trascrizione audio in streaming con la Console di gestione AWS.

Seleziona Trascrizione in tempo reale nel pannello di navigazione a sinistra.
Seleziona opzioni come lingua, identificazione dell’oratore, rimozione dei contenuti e personalizzazioni prima di iniziare la trasmissione.
Fai clic sul pulsante Inizia trasmissione per registrare direttamente in tempo reale e osserva come avviene la trascrizione nella casella di output Trascrizione in basso.

Una volta completata la conversione della registrazione audio, puoi fare clic sul pulsante Scarica trascrizione completa per scaricare gratuitamente la trascrizione del file JSON.

Trascrizione di file in batch

La trascrizione in batch viene usata per trascrivere uno o più file multimediali esistenti archiviati in un bucket di archiviazione nel cloud Amazon S3. Con il servizio in batch, puoi caricare fino a 10.000 processi di file audio in una coda per l’elaborazione in un sistema basato sull’ordine di inserimento. I processi di registrazione vocale possono essere elaborati simultaneamente, convertendo i file audio contemporaneamente, a seconda dell’abbonamento.

La trascrizione in batch supporta FLAC e WAV (con codifica PCM a 16 bit) come formati preferiti. Tuttavia, sono supportati anche altri formati come AMR, M4A, MP3, MP4, Ogg e WebM. Assicurati di impostare una frequenza di campionamento che corrisponda al file audio per evitare errori di conversione da audio a testo.

Puoi usare l’AWS CLI, la Console di gestione AWS e vari SDK AWS per convertire l’audio in testo utilizzando il processo di trascrizione in batch.

Di seguito viene illustrata una procedura dettagliata di trascrizione audio in batch con la Console di gestione AWS.

Carica il file multimediale che desideri trascrivere in un bucket Amazon S3.
Seleziona Processi di trascrizione nel pannello di navigazione a sinistra. Si aprirà un elenco dei processi di trascrizione.
Seleziona Crea processo e compila i campi nella pagina Specifica i dettagli del processo.
Dopo aver configurato il processo, fai clic sul pulsante Crea processo per iniziare.
Torna alla pagina Processi di trascrizione, dove puoi vedere lo stato del tuo processo.
Seleziona il percorso del file collegato nella colonna di destra in Posizione dei dati di output per visualizzare la trascrizione del file JSON.

Nota: se hai scelto un bucket gestito dal servizio per l’output, puoi visualizzare un pannello di anteprima nella pagina delle informazioni del processo di trascrizione, insieme a un pulsante Scarica per il tuo file da audio a testo JSON.

Completa le seguenti pagine durante la configurazione.

Inserisci dati

Nella pagina Inserisci dati, Posizione del file di input su S3 è il file audio nel bucket S3 esistente e Dati di output è un bucket gestito dal servizio S3 o il tuo bucket S3 personale.

Configura processo

La pagina Configura processo consente di selezionare personalizzazioni come l’identificazione del canale, l’oscuramento e il filtro dei contenuti e il vocabolario personalizzato.

Quali sono alcune funzionalità di trascrizione aggiuntive?

Amazon Transcribe offre una serie di funzionalità aggiuntive per creare trascrizioni più utili, sicure e accurate durante la conversione di file audio o video.

Vocabolari e modelli linguistici personalizzati

Gli utenti possono creare vocabolari e modelli linguistici personalizzati per acquisire e trascrivere con precisione l’audio con nomi di marchi, acronimi, parole tecniche e gergo specifici del dominio. I modelli linguistici personalizzati avvantaggiano le grandi organizzazioni con ecosistemi linguistici interni in crescita o settori tecnici altamente specializzati.

I vocabolari personalizzati sono file creati dagli utenti che dimostrano come pronunciare parole specifiche. Ad esempio, un progetto chiamato VX02Q può essere aggiunto a un vocabolario personalizzato con la pronuncia V.X.-zero-due-Q.

I modelli linguistici personalizzati consentono al modello di conversione da audio a testo di completare un addestramento aggiuntivo su un set di dati esistente per comprendere il contesto del linguaggio specifico del dominio. Ad esempio, se addestri il tuo modello caricando articoli di ricerca sulla climatologia, il modello potrebbe apprendere che “lastra di ghiaccio” è una coppia di parole più probabile rispetto ad “asta di ghiaccio”. Allo stesso modo, se fai riferimento a un prodotto denominato “Bzntry”, un set di dati di file audio con più menzioni di “bi-zen-tri” abbinerà automaticamente l’audio con la parola di output.

La trascrizione da audio a testo in batch e in streaming supporta sia vocabolari personalizzati che modelli linguistici personalizzati.

Moderazione automatica

Un filtro del vocabolario personalizzato consente di mascherare, sostituire o etichettare (“vocabularyFilterMatch”: true) una parola o una combinazione di parole specifica nell’output della trascrizione JSON.

Esempi:

Maschera le parole profane con tre asterischi (***)
Sostituisci il nome segreto di un prodotto pre-lancio con la parola “NuovoProdotto”
Conta il numero di tag etichettati “ehm” o “cioè” in una trascrizione per aiutare un oratore ad affinare le proprie capacità di parlare in pubblico

La trascrizione da audio a testo in batch e in streaming supporta entrambi i filtri del vocabolario.

Identificazione e oscuramento delle informazioni di identificazione personale (PII)

Le informazioni di identificazione personale (PII) possono essere automaticamente oscurate e contrassegnate nelle trascrizioni da audio a testo. Questo procedimento è importante per l’archiviazione di informazioni sensibili nelle aziende, poiché le PII possono rientrare in rigide leggi sulla riservatezza.

I tipi di PII inclusi in Amazon Transcribe sono nomi, indirizzi, indirizzi e-mail, numeri di telefono, coordinate bancarie, PIN e codici fiscali. La parola nel file JSON viene sostituita con [PII] nel corpo del testo principale della trascrizione dal convertitore da audio a testo e viene contata e classificata per tipo nel campo JSON “oscuramenti”.

Sottotitolazione

Amazon Transcribe consente agli utenti di generare file di sottotitoli WebVTT (*.vtt) e SubRip (*.srt) da abbinare ai video, oltre al normale file JSON di output. I sottotitoli vengono visualizzati contemporaneamente alla pronuncia del testo nel file audio o video e rimangono visibili fino a quando non si verifica una pausa naturale nell’audio o l’oratore finisce di parlare.

Rilevamento di contenuti inappropriati

Amazon Transcribe può essere usato per identificare e classificare un linguaggio non appropriato. I contenuti non appropriati sono segnalati e classificati in sette categorie, tra cui molestie sessuali, incitamento all’odio, minacce, abusi, parolacce, insulti e immagini. Amazon Transcribe usa tecniche di identificazione avanzate, tra cui timbro e intonazione, per fornire un contesto aggiuntivo alle conversazioni.

Analisi delle chiamate

Amazon Transcribe offre un’API speciale per il servizio clienti e le chiamate di vendita. Puoi utilizzarlo per ottenere informazioni sul sentiment di clienti e agenti, sui driver di chiamata, sulle frasi citate, sui tempi di non conversazione, sulle interruzioni, sulla velocità di conversazione, sul rilevamento dei problemi in tempo reale e sul riepilogo delle conversazioni. Amazon Transcribe può anche eseguire l’oscuramento della registrazione audio post-chiamata, sostituendo le informazioni personali con il silenzio per le chiamate archiviate.

Trascrizione medica

Amazon Transcribe offre API conformi a HIPAA che forniscono trascrizioni accurate in linguaggio medico dai file audio, dando priorità alla privacy e alla sicurezza dei dati dei pazienti. È utile nelle interazioni medico-paziente, in cui prendere appunti richiede tempo, distrae e può esser di disturbo.

In che modo AWS supporta le esigenze di trascrizione audio?

La trascrizione da audio a testo porta la voce da un metodo di comunicazione point-in-time a un’origine dati archiviata, ricercabile, analizzabile e di grande valore. Le organizzazioni che usano il riconoscimento vocale per trascrivere l’audio stanno riscontrando vantaggi significativi in termini di produttività, formazione, assistenza clienti, vendite e altro ancora.

L’integrazione dello strumento di conversione da audio a testo Amazon Transcribe all’interno della tua organizzazione garantisce che le registrazioni vocali conservino il valore e moltiplichino le loro applicazioni utili. Dai un’occhiata alla gamma di soluzioni di IA su AWS per creare e scalare app in modo più rapido ed efficace.

Passaggi successivi su AWS

Scopri ulteriori risorse correlate al prodotto

Ulteriori informazioni

Registrati per creare un account gratuito

Ottieni l'accesso immediato al piano gratuito AWS.

Registrati

Inizia subito nella console

Inizia subito a sviluppare con AWS nella Console di gestione AWS.

Accedi

Browse all cloud computing concepts

Browse all cloud computing concepts content here:

Caricamento in corso

Did you find what you were looking for today?

Let us know so we can improve the quality of the content on our pages

Cos’è la trascrizione di file audio?