Was ist die Transkription von Audiodateien?
Was ist die Transkription von Audiodateien?
Unternehmen benötigen Audiotranskriptionen in großem Umfang für verschiedene Anwendungsfälle, von organisierten Besprechungsnotizen bis hin zu Anwendungen im Gesundheitswesen. Moderne KI-Technologien können Audio in Text transkribieren und verschiedene Akzente und Gespräche zwischen mehreren Sprechern in präzise, formatierte Dokumente umwandeln. Dieser Leitfaden befasst sich mit Methoden zur Transkription von Audio in Text für Unternehmen und kleine Unternehmen.
Sprachbasierte Kommunikation ist für Menschen entscheidend, um einander vollständig zu verstehen. Die Stimme ist ein schnelles, zeitpunktbezogenes Mittel, um Ideen, Informationen, Anweisungen und Emotionen zu vermitteln. Die Aufzeichnung und Transkription von Sprachkommunikation mithilfe von Audio-zu-Text-Konvertern ist für die Wiederauffindbarkeit, Genauigkeit und weitere Bearbeitung unverzichtbar geworden. Wenn Sie Audio in Text umwandeln, können wichtige Informationen beibehalten, durchsucht, analysiert und neu zusammengestellt werden, um schnellere Erkenntnisse zu gewinnen und sie sofort in Geschäftsprozesse zu integrieren.
Früher hörte sich eine Person eine einzelne Audioaufnahme an und tippte gleichzeitig deren Inhalt mit, wobei sie die gesprochenen Worte durch Anhalten und Starten in ein genaues Transkript umwandelte. Anwaltskanzleien, Ärzte, Forscher und andere professionelle Büros verfügten über Schreibkräfte, die diese manuelle Aufgabe der Transkription von Audio in Text aus Sprachnotizen übernahmen.
Jetzt können Maschinen Audioaufnahmen mithilfe eines Audio-zu-Text-Konverters sofort transkribieren. Anstelle von menschlicher Arbeit bei der Transkription wandelt die Speech-to-Text (STT)-Technologie Audiodateien in schriftliche Textdateien um. Diese schriftliche Textdatei kann unverändert gelesen, mit einem KI-Transkriptionsprogramm zusammengefasst, automatisch in anderen Softwaresystemen verarbeitet, isoliert oder als Teil eines größeren Korpus analysiert werden und vieles mehr. Die Einsatzmöglichkeiten von Audio-zu-Text-Konvertern sind grenzenlos.
Welche Technologien gibt es für die Transkription von Audiodateien?
Audiodateien können verschiedene Sprecher, Akzente und Domain-spezifische Wörter enthalten. Audioaufnahmen können auch in der Klangqualität variieren. Die Umwandlung gesprochener Worte in Text erfordert Sprachverständnis sowie Kenntnisse der Sprachsyntax und Grammatik, um eine lesbare Ausgabe zu erzielen.
Ältere Audio-zu-Text-Konvertierungssoftware machte Fehler und erzeugte schwer lesbare Transkripte ohne richtige Struktur und mit Hierarchie-, Wort- und Grammatikfehlern. Moderne Audio-zu-Text-Konvertierungssoftware leistet weitaus Besseres und wandelt Audio in Text um, der dem gesprochenen Wort sehr nahe kommt, und zwar mit genauen Transkripten, die eine korrekte schriftliche Struktur und Grammatik aufweisen.
Amazon Transcribe ist ein vollständig verwalteter Service, der Sprache mithilfe der automatischen Spracherkennungstechnologie (ASR) in Text umwandelt. Es kann verschiedene Sprachmerkmale verarbeiten, darunter Variationen in Sprechgeschwindigkeit, Tonhöhe und Lautstärke. Es kann in über 100 Sprachen transkribieren und lässt sich in Entwickler-Workflows und die AWS-Infrastruktur für Audio-zu-Text-Anforderungen in Unternehmen integrieren.
Wie fängt man mit der Audiotranskription an?
Es gibt zwei Hauptmethoden zur Umwandlung von Audio in Text, abhängig vom Typ der Audio- oder Videodatei. Die Batch-Transkription wird für die Transkription vorab aufgezeichneter Audiodateien verwendet, während die Streaming-Transkription für die Transkription von Live-Medienstreams eingesetzt wird.
Amazon Transcribe unterstützt Einkanal- und Zweikanal-Audio sowohl für die Batch- als auch für die Streaming-Transkription von Audio- und Videodateien.
Sowohl die Batch- als auch die Streaming-Transkription von Audio zu Text werden im JSON-Dateiformat ausgegeben. Die in der Ausgabe bereitgestellten Felder hängen von den Features ab, die Sie bei der Konvertierung von Audio in Ihrer Transkriptionsanfrage angeben. Ihr Transkript enthält mindestens jedes angegebene Wort, dessen Start- und Endzeit, Typ, Übereinstimmung mit dem Vokabularfilter und den Konfidenzwert für die Überprüfbarkeit. Weitere Felder sind Sprecher-Label, alternative Wörter, Kanäle und mehr.
Streaming-Transkriptionen
Die Streaming-Transkription wird verwendet, um Audiostreams in Echtzeit zu transkribieren. Der Streaming-Transkriptionsservice Amazon Transcribe unterstützt FLAC- und PCM-signiertes 16-Bit-Little-Endian-Audio (nicht WAV) als bevorzugte Formate, zusammen mit Ogg Opus. Legen Sie eine Samplerate fest, die mit der Audiodatei übereinstimmt, um Fehler bei der Audio-zu-Text-Umwandlung zu vermeiden.
Je nachdem, wie Sie das Transkriptionstool verwenden möchten, können Sie die AWS-Managementkonsole, HTTP/2, WebSockets und verschiedene AWS SDKs für Streaming-Transkriptionen verwenden.
Im Folgenden wird eine Schritt-für-Schritt-Anleitung zur Streaming-Audio-Transkription mit der AWS-Managementkonsole erläutert.
- Wählen Sie im linken Navigationsbereich Echtzeit-Transkription aus.
- Wählen Sie Optionen wie Sprache, Identifizierung von Sprechern, Entfernen von Inhalten und Anpassungen aus, bevor Sie Ihren Stream starten.
- Klicken Sie auf die Schaltfläche Streaming starten, um direkt in Echtzeit aufzunehmen und die Ausgabe anzuzeigen, die im Feld Transkriptionsausgabe unten transkribiert wird.
Sobald die Konvertierung der Audioaufnahme abgeschlossen ist, können Sie auf die Schaltfläche Vollständiges Transkript herunterladen klicken, um das JSON-Datei mit dem Transkript kostenlos herunterzuladen.
Batch-Datei-Transkription
Die Batch-Transkription wird verwendet, um eine oder mehrere vorhandene Mediendateien zu transkribieren, die in einem Amazon-S3-Cloud-Speicher-Bucket gespeichert sind. Mit dem Batch-Service können Sie bis zu 10 000 Audiodateiaufträge in eine Warteschlange hochladen, die nach dem First-in-First-out-Prinzip verarbeitet werden. Sprachaufzeichnungsaufträge können gleichzeitig verarbeitet werden, wobei Audiodateien je nach Ihrem Abonnement gleichzeitig konvertiert werden.
Die Batch-Transkription unterstützt FLAC und WAV (mit PCM-16-Bit-Kodierung) als bevorzugte Formate. Es werden jedoch auch andere Formate wie AMR, M4A, MP3, MP4, Ogg und WebM unterstützt. Stellen Sie sicher, dass Sie eine Samplerate festlegen, die mit der Audiodatei übereinstimmt, um Fehler bei der Audio-zu-Text-Umwandlung zu vermeiden.
Sie können die AWS CLI, AWS-Managementkonsole, und verschiedene AWS SDKs verwenden, um Audio mithilfe des Batch-Transkriptionsprozesses in Text umzuwandeln.
Im Folgenden wird eine Schritt-für-Schritt-Anleitung zur Batch-Audio-Transkription mit der AWS-Managementkonsole erläutert.
- Laden Sie die Mediendatei, die Sie transkribieren möchten, in einen Amazon-S3-Bucket hoch.
- Wählen Sie im linken Navigationsbereich Transkriptionsaufträge aus. Dadurch gelangen Sie zu einer Liste Ihrer Transkriptionsaufträge.
- Wählen Sie Auftrag erstellen aus und füllen Sie die Felder auf der Seite Auftragsdetails angeben aus.
- Nachdem Sie den Auftrag konfiguriert haben, klicken Sie auf die Schaltfläche Auftrag erstellen, um zu beginnen.
- Kehren Sie zur Seite mit den Transkriptionsaufträgen zurück, auf der Sie den Status Ihres Auftrags sehen können.
- Wählen Sie den verknüpften Dateipfad in der rechten Spalte unter Speicherort der Ausgabedaten aus, um Ihr JSON-Datei mit der Transkript anzuzeigen.
Hinweis: Wenn Sie einen vom Service verwalteten Bucket für die Ausgabe ausgewählt haben, wird auf der Informationsseite Ihres Transkriptionsauftrags ein Vorschaufenster für die Transkription sowie eine Schaltfläche zum Herunterladen Ihrer JSON-Audio-zu-Text-Datei angezeigt.
Füllen Sie während der Konfiguration die folgenden Seiten aus.
Eingabedaten
Auf der Seite Eingabedaten ist Speicherort der Eingabedatei auf S3 Ihre Audiodatei im vorhandenen S3-Bucket, und Ausgabedaten sind ein vom S3-Service verwalteter Bucket oder Ihr eigener S3-Bucket.
Auftrag konfigurieren
Auf der Seite Auftrag konfigurieren können Sie Anpassungen wie Kanalidentifikation, Inhaltsbearbeitung und -filterung sowie benutzerdefiniertes Vokabular auswählen.
Welche zusätzlichen Transkriptionsfunktionen gibt es?
Amazon Transcribe bietet eine Reihe zusätzlicher Features, mit denen Sie bei der Konvertierung von Audio- oder Videodateien nützlichere, sicherere und genauere Transkripte erstellen können.
Benutzerdefiniertes Vokabular und Sprachmodelle
Benutzer können benutzerdefinierte Vokabulare und Sprachmodelle erstellen, um Audio mit Domain-spezifischen Markennamen, Akronymen, Fachbegriffen und Jargon genau zu erfassen und zu transkribieren. Benutzerdefinierte Sprachmodelle kommen großen Unternehmen mit florierenden internen Sprachökosystemen oder hochspezialisierten, technischen Branchen zugute.
Benutzerdefinierte Vokabulare sind vom Benutzer erstellte Dateien, die zeigen, wie bestimmte Wörter ausgesprochen werden. Beispielsweise kann ein Projekt namens VX02Q mit der Aussprache V.X.-zero-two-Q zu einem benutzerdefinierten Vokabular hinzugefügt werden.
Benutzerdefinierte Sprachmodelle ermöglichen es dem Audio-zu-Text-Modell, zusätzliches Training an einem vorhandenen Datensatz durchzuführen, um den Kontext der Domain-spezifischen Sprache zu verstehen. Wenn Sie Ihr Modell beispielsweise mit einem Text-Upload von klimawissenschaftlichen Forschungsarbeiten trainieren, könnte Ihr Modell lernen, dass „Eisscholle” ein wahrscheinlicheres Wortpaar ist als „Eisfluss”. Wenn Sie sich auf ein Produkt namens „Bzntry“ beziehen, gleicht ein Audiodatei-Datensatz mit mehreren Erwähnungen von „bee-zen-tree“ das Audio ebenfalls automatisch der Wortausgabe zu.
Sowohl die Batch- als auch die Streaming-Transkription von Audio zu Text unterstützen benutzerdefinierte Vokabulare und benutzerdefinierte Sprachmodelle.
Automatische Moderation
Mit einem benutzerdefinierten Vokabularfilter können Sie ein bestimmtes Wort oder eine bestimmte Wortkombination in der JSON-Transkriptausgabe maskieren, ersetzen oder markieren („vocabularyFilterMatch”: true).
Beispiele:
- Vulgäre Wörter mit drei Sternchen (***) maskieren
- Geheimen Produktnamen vor der Markteinführung durch das Wort „NeuesProdukt“ ersetzen
- Anzahl der Tags mit der Kennzeichnung „ähm“ oder „also“ in einem Transkript zählen, um einem Sprecher dabei zu helfen, seine Fähigkeiten im öffentlichen Sprechen zu verbessern
Sowohl die Batch- als auch die Streaming-Transkription von Audio zu Text unterstützen Vokabularfilter.
Bearbeitung und Identifizierung von PII
Persönlich identifizierbare Daten (PII) können in Audio-zu-Text-Transkripten automatisch bearbeitet und gekennzeichnet werden. Dies ist wichtig für die Speicherung sensibler Informationen in Unternehmen, da PII strengen Vertraulichkeitsgesetzen unterliegen können.
Zu den in Amazon Transcribe enthaltenen Arten von persönlich identifizierbaren Daten gehören Namen, Adressen, E-Mail-Adressen, Telefonnummern, Banknummern, PINs und Sozialversicherungsnummern. Das Wort in der JSON-Datei wird im Haupttext Ihres Transkripts durch den Audio-zu-Text-Konverter durch [PII] ersetzt und im JSON-Feld „Bearbeitungen“ nach Typ gezählt und kategorisiert.
Untertitelung
Mit Amazon Transcribe können Benutzer neben der regulären JSON-Ausgabedatei auch WebVTT (*.vtt)- und SubRip (*.srt)-Untertiteldateien erstellen, die mit Videos gekoppelt werden können. Untertitel werden gleichzeitig mit dem gesprochenen Text in der Audio- oder Videodatei angezeigt und bleiben sichtbar, bis eine natürliche Pause im Audio auftritt oder der Sprecher zu Ende gesprochen hat.
Toxizitätserkennung
Amazon Transcribe kann verwendet werden, um toxische Sprache zu identifizieren und zu klassifizieren. Toxische Inhalte werden gekennzeichnet und in 7 Kategorien eingeteilt, darunter sexuelle Belästigung, Hassreden, Bedrohung, Missbrauch, Obszönität, Beleidigung und explizite Inhalte. Amazon Transcribe nutzt fortschrittliche Identifizierungstechniken, darunter Tonfall und Tonhöhe, um zusätzliche Kontextinformationen zu Konversationen zu liefern.
Aufruf-Analytik
Amazon Transcribe bietet eine spezielle API für Kundenservice und Verkaufsgespräche. Mit ihr können Sie Einblicke in die Stimmung von Kunden und Kundendienstmitarbeitern, Anrufmotive, erwähnte Ausdrücke, Gesprächspausen, Unterbrechungen, Sprechgeschwindigkeit, Echtzeit-Problemerkennung und Gesprächszusammenfassungen gewinnen. Amazon Transcribe kann auch Audioaufzeichnungen nach dem Anruf bearbeiten und persönlich identifizierbare Daten in gespeicherten Anrufen durch Stille ersetzen.
Medizinische Transkription
Amazon Transcribe bietet HIPAA-konforme APIs, die präzise Audio-zu-Text-Transkriptionen von Audiodateien unter Verwendung medizinischer Fachsprache liefern und dabei den Datenschutz und die Sicherheit der Patientendaten in den Vordergrund stellen. Dies ist besonders nützlich bei Interaktionen zwischen Ärzten und Patienten, bei denen das Aufzeichnen von Notizen zeitaufwendig, ablenkend und störend ist.
Wie kann AWS Sie bei Ihren Anforderungen an die Audiotranskription unterstützen?
Die Audio-zu-Text-Transkription verwandelt Sprache von einer zeitpunktbezogenen Kommunikationsmethode in eine gespeicherte, durchsuchbare, analysierbare und äußerst wertvolle Datenquelle. Unternehmen, die Spracherkennung zur Transkription von Audio einsetzen, profitieren von erheblichen Vorteilen in den Bereichen Produktivität, Schulung, Kundenservice, Vertrieb und mehr.
Durch die Integration des Audio-zu-Text-Konverters Amazon Transcribe in Ihr Unternehmen stellen Sie sicher, dass Sprachaufzeichnungen ihren Wert behalten und ihre nützlichen Anwendungsmöglichkeiten vervielfachen. Sehen Sie sich die verschiedenen KI-Lösungen in AWS an, mit denen Sie Anwendungen schneller und leistungsfähiger entwickeln und skalieren können.