Erstellen eines Audio-Transkripts

mit Amazon Transcribe

In diesem Tutorial erfahren Sie Schritt für Schritt, wie Sie mit Amazon Transcribe ein Transkript einer aufgezeichneten Audiodatei in der AWS-Managementkonsole erstellen. Amazon Transcribe ist ein Service für die automatische Spracherkennung (Automatic Speech Recognition, ASR), mit dem Entwickler ihre Anwendungen ganz einfach um Sprache-zu-Text-Funktionen erweitern können. Mithilfe der Amazon Transcribe-API können Sie in Amazon Simple Storage Service (S3) gespeicherte Audiodateien analysieren und eine Textdatei mit einem Transkript des Gesprochenen erstellen lassen.

Für Entwickler stellt die Erstellung von Transkripten von Kundendienstanrufen oder von Untertiteln für Audio- und Videoinhalte häufig eine Herausforderung dar, für die Sprache-zu-Text-Funktionen unerlässlich sind. Sie können diese Herausforderung meistern, indem Sie Ihre eigenen Machine-Learning-Modelle von Grund auf selbst erstellen. Diese Möglichkeit ist jedoch zeitaufwendig, kostspielig und erfordert Erfahrung mit Machine Learning. Amazon Transcribe bietet eine hervorragende Alternative zu diesem steinigen Weg. Dabei handelt es sich um einen vortrainierten und vollständig verwalteten Service, mit dem hochwertige Transkripte schnell erstellt werden können.

In diesem Tutorial werden Sie eine Beispiel-Audiodatei herunterladen und diese in einen selbst erstellten S3-Bucket hochladen. Anschließend erstellen Sie mithilfe von Amazon Transcribe in der AWS-Managementkonsole ein Transkript des Beispiel-Audioclips.

In diesem Tutorial werden die Funktionen vorgestellt, die bei Verwendung der AWS CLI oder der Amazon Transcribe-API verfügbar sind. Für die Implementierung in einer Produktivumgebung oder für Machbarkeitsnachweise wird empfohlen, diese programmgesteuerten Schnittstellen anstelle der Amazon Transcribe-Konsole zu verwenden.

Für dieses Tutorial ist ein AWS-Konto erforderlich.

Mit dem kostenlosen Kontingent für Amazon Transcribe ist der Einstieg ganz einfach. Transkribieren Sie jeden Monat Audiodateien mit einer Länge von bis zu 60 Minuten. Die ersten 12 Monate ab der Erstellung Ihres AWS-Kontos sind dabei kostenlos.

Weitere Informationen zum kostenlosen Kontingent >>


Schritt 1: Erstellen eines S3-Buckets und Hochladen einer Beispiel-Audiodatei

In diesem Schritt laden Sie eine Beispiel-Audiodatei herunter, erstellen einen S3-Bucket und laden die Beispieldatei anschließend in den S3-Bucket hoch. Transcribe greift ausschließlich über S3-Buckets auf zu transkribierende Audio- und Videodateien zu.


a.  Klicken Sie hier, um die Beispiel-Audiodatei herunterzuladen, die später im Tutorial transkribiert wird. Der Dateiname lautet transcribe-sample.mp3.


b.  Klicken Sie hier, um die AWS-Managementkonsole in einem neuen Browserfenster zu öffnen, sodass Sie diese Schritt-für-Schritt-Anleitung geöffnet lassen können. Wenn der Bildschirm vollständig geladen ist, geben Sie Ihren Benutzernamen und das Passwort ein, um zu beginnen. Wählen Sie im Dropdown-Menü Region eine Region aus, in der Amazon Transcribe verfügbar ist.

Zum Zeitpunkt der Erstellung dieses Tutorials war Amazon Transcribe in folgenden Regionen verfügbar: USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Oregon), Asien-Pazifik (Sydney) Kanada (Zentral) und EU (Irland).

create-audio-transcript-transcribe-step-1b
create-audio-transcript-transcribe-step-1b

(Zum Vergrößern klicken)


c. Geben Sie dann in die Suchleiste S3 ein und wählen Sie S3 aus, um die Konsole zu öffnen.

create-audio-transcript-transcribe-step-1c
create-audio-transcript-transcribe-step-1c

(Zum Vergrößern klicken)


d.  Klicken Sie auf dem S3-Dashboard auf Bucket erstellen.

Wenn Sie zum ersten Mal einen Bucket erstellen, wird ein Bildschirm ähnlich dem in dieser Abbildung angezeigt.

Wenn Sie bereits S3-Buckets erstellt haben, werden auf Ihrem S3-Dashboard alle von Ihnen bisher erstellten Buckets angezeigt.

create-audio-transcript-transcribe-step-1d
create-audio-transcript-transcribe-step-1d

(Zum Vergrößern klicken)


e.  Geben Sie einen eindeutigen Namen für den Bucket ein. Bucket-Namen müssen unter allen in Amazon S3 vorhandenen Bucket-Namen eindeutig sein. Es gibt zudem einige andere Einschränkungen für Namen von S3-Buckets. Wählen Sie dann die Region aus, in der Ihr Bucket erstellt werden soll.

Klicken Sie auf Weiter.

create-audio-transcript-transcribe-step-1e
create-audio-transcript-transcribe-step-1e

(Zum Vergrößern klicken)


f.  Für Ihren S3-Bucket stehen Ihnen zahlreiche nützliche Optionen zur Verfügung, z. B. für die Versionsverwaltung, die Erstellung von Protokollen zu Serverzugriffen, die Verwendung von Tags, die Protokollierung auf Objektebene und die standardmäßige Verschlüsselung. Für dieses Tutorial werden wir diese Funktionen nicht aktivieren.

Klicken Sie auf Weiter.

create-audio-transcript-transcribe-step-1f
create-audio-transcript-transcribe-step-1f

(Zum Vergrößern klicken)


g.  In diesem Schritt können Sie während der Erstellung des S3-Buckets die Berechtigungen für diesen S3-Bucket anpassen.

Behalten Sie die Standardwerte bei und wählen Sie Weiter.

create-audio-transcript-transcribe-step-1g
create-audio-transcript-transcribe-step-1g

(Zum Vergrößern klicken)


h.  Überprüfen Sie Ihre Konfigurationseinstellungen und wählen Sie Bucket erstellen aus.

create-audio-transcript-transcribe-step-1h
create-audio-transcript-transcribe-step-1h

(Zum Vergrößern klicken)


i.  Ihr neuer Bucket wird in der S3-Konsole angezeigt. Klicken Sie auf den Bucket-Namen, um den Bucket zu öffnen. Der Name Ihres Buckets wird sich von dem im Screenshot auf der rechten Seite unterscheiden.

create-audio-transcript-transcribe-step-1i
create-audio-transcript-transcribe-step-1i

(Zum Vergrößern klicken)


j. Dies ist die Startseite Ihres Buckets.

Klicken Sie auf Hochladen.

create-audio-transcript-transcribe-step-1j
create-audio-transcript-transcribe-step-1j

(Zum Vergrößern klicken)


k.  Laden Sie die Datei transcribe-sample.mp3 hoch, indem Sie auf Dateien hinzufügen klicken und die Datei auswählen. Alternativ können Sie die Datei transcribe-sample.mp3 per Drag-and-Drop in das Upload-Feld ziehen.

Klicken Sie auf Hochladen.

create-audio-transcript-transcribe-step-1k
create-audio-transcript-transcribe-step-1k

(Zum Vergrößern klicken)


l.  Aktivieren Sie in Ihrem Bucket das Kontrollkästchen neben der Datei transcribe-sample.mp3. Daraufhin wird für die Datei "transcribe-sample.mp3" ein Fenster mit Details angezeigt. Kopieren Sie den Link zur Datei und speichern Sie ihn zur späteren Verwendung in diesem Tutorial.

create-audio-transcript-transcribe-step-1l
create-audio-transcript-transcribe-step-1l

(Zum Vergrößern klicken)


Schritt 2: Erstellen einer Transkriptionsaufgabe

In diesem Schritt erstellen Sie in der Amazon Transcribe-Konsole eine Transkriptionsaufgabe und führen sie aus.


a.  Klicken Sie in der Menüleiste am oberen Bildschirmrand auf Services und geben Sie in der Suchleiste Transcribe ein. Klicken Sie anschließend auf Amazon Transcribe, um die Servicekonsole zu öffnen.

create-audio-transcript-transcribe-step-2a
create-audio-transcript-transcribe-step-2a

(Zum Vergrößern klicken)


b.  Öffnen Sie auf der Hauptseite der Amazon Transcribe-Konsole den Navigationsbereich und klicken Sie auf Transkriptionsaufgaben.

c. Klicken Sie auf der Seite Transkriptionsaufgaben auf Aufgabe erstellen.

create-audio-transcript-transcribe-step-2b
create-audio-transcript-transcribe-step-2b

(Zum Vergrößern klicken)


d.  Geben Sie auf der Seite Transkriptionsaufgabe erstellen in das Feld Name den Namen sample-transcription-job ein.

Behalten Sie unter Sprache den Standardwert Englisch bei.

Fügen Sie in das Feld Dateispeicherort in S3 einfügen den Link zur Beispieldatei im S3-Bucket ein. Der Link zu Ihrer Beispieldatei wird anders aussehen als der im Screenshot rechts.  

Behalten Sie unter Format den Standardwert mp3 bei.

Mithilfe der Funktion Benutzerdefiniertes Vokabular können Sie Amazon Translate bei der Erkennung von Wörtern und Satzteilen unterstützen, die für Ihre Anwendung spezifisch sind. Dazu gehören unter anderem fremdsprachige Namen wie Etienne. Diese Funktion kommt in diesem Tutorial nicht zum Einsatz.

create-audio-transcript-transcribe-step-2c
create-audio-transcript-transcribe-step-2c

(Zum Vergrößern klicken)


e.  Behalten Sie unter Datenspeicherort die Einstellung Amazon-Standard bei.

Bei Aktivierung der Kanalerkennung können von Amazon Transcribe Audio- und Videodateien verarbeitet werden, bei denen die einzelnen Sprecher auf verschiedenen Kanälen aufgezeichnet wurden. Anschließend kann daraus ein einziges Transkript mit Kennzeichnungen für die jeweiligen Kanäle erstellt werden.

Bei Aktivierung der Option Sprechererkennung erkennt Amazon Transcribe, wann welcher Sprecher redet und ordnet den transkribierten Text entsprechend zu.

Keine dieser Optionen kommt in diesem Tutorial zum Einsatz.

Wählen Sie Erstellen, um die Transkriptionsaufgabe zu starten.  

create-audio-transcript-transcribe-step-2d
create-audio-transcript-transcribe-step-2d

(Zum Vergrößern klicken)


Schritt 3: Überprüfen der Transkriptionsergebnisse

In diesem Schritt erfahren Sie, wie Sie den Transkriptionsfortschritt verfolgen und die Ergebnisse der Transkriptionsaufgabe überprüfen.


a.  Nachdem Sie auf die Schaltfläche Erstellen geklickt haben, wird der Bildschirm Transkriptionsaufgaben geöffnet. Auf diesem wird der Status der Transkriptionsaufgabe sample-transcription-job angezeigt. Der Status kann In Bearbeitung, Abgeschlossen oder Fehlgeschlagen lauten.

Sobald der Status zu Abgeschlossenwechselt, können Sie auf den Link sample-transcription-job in der Spalte Name klicken, um die Transkriptionsergebnisse anzuzeigen.

create-audio-transcript-transcribe-step-3a
create-audio-transcript-transcribe-step-3a

(Zum Vergrößern klicken)


b.   Als Nächstes zeigen Sie die Details zur Transkriptionsaufgabe sample-transcription-job an. Blättern Sie nach unten zum Bereich Transkription, um die Ausgabe der Transkriptionsaufgabe anzuzeigen. Im Bereich JSON können Sie die Transkriptionsergebnisse anzeigen, die von der Transcribe-API oder der AWS CLI ausgegeben werden.

create-audio-transcript-transcribe-step-3b
create-audio-transcript-transcribe-step-3b

(Zum Vergrößern klicken)


Schritt 4: Beenden der Ressourcen

In diesem Schritt löschen Sie die Beispieldatei aus Ihrem S3-Bucket, um unnötige Kosten zu vermeiden.


a.  Klicken Sie im oberen Navigationsmenü auf Services und geben Sie in die Suchleiste S3 ein. Wählen Sie dann S3 aus, um die Konsole zu öffnen.

create-audio-transcript-transcribe-step-4a
create-audio-transcript-transcribe-step-4a

(Zum Vergrößern klicken)


b.  Blättern Sie durch Ihre S3-Buckets und navigieren Sie zu dem Bucket, den Sie zuvor in diesem Tutorial erstellt haben. Klicken Sie auf den Namen dieses Buckets, um dessen Inhalt anzuzeigen. Der Name Ihres Buckets wird sich von dem im Screenshot auf der rechten Seite unterscheiden.

create-audio-transcript-transcribe-step-4b
create-audio-transcript-transcribe-step-4b

(Zum Vergrößern klicken)


c.  Wählen Sie in Ihrem Bucket die Datei transcribe-sample.mp3 aus und klicken Sie im Menü Aktionen auf Löschen. Bestätigen Sie den Löschvorgang.

create-audio-transcript-transcribe-step-4c
create-audio-transcript-transcribe-step-4c

(Zum Vergrößern klicken)


Herzlichen Glückwunsch!

Wie Sie in diesem Tutorial erfahren haben, ermöglicht Amazon Transcribe die Umwandlung von gesprochenen Inhalten zu Text im großen Maßstab. Mit Amazon Transcribe kann eine Vielzahl unterschiedlicher Audio- oder Videodateien verarbeitet werden. Dazu gehören unter anderem Kundendienstanrufe, geschäftliche Besprechungen, Fernsehübertragungen und On-Demand-Videos.

 

Weitere Informationen zur Übersetzung von Text in großem Maßstab

In diesem 10-minütigen Tutorial erfahren Sie, wie Sie transkribierte Texte mit Amazon Translate in eine andere Sprache übersetzen.

Erste Schritte mit der Transcribe-API und der Befehlszeilenschnittstelle

In diesem Tutorial erfahren Sie, wie Sie die Amazon Transcribe-API und die Befehlszeilenschnittstelle verwenden.

Amazon Comprehend entdecken

In diesem 10-minütigen Tutorial erfahren Sie, wie Sie mit Amazon Comprehend die Stimmung in Texten analysieren.