Übersicht

Amazon Transcribe ermöglicht es AWS-Kunden, ihren sprachgesteuerten Anwendungen Sprache-zu-Text-Funktionen hinzuzufügen. Mithilfe der automatischen Spracherkennungstechnologie (ASR) können Kunden Amazon Transcribe für eine Vielzahl von Geschäftsanwendungen verwenden. Zu den Funktionen des Service gehören automatische Spracherkennung, Sprecherdiarisierung, Schwärzen personenbezogener Daten (PII) und Spracherkennung. Weitere Informationen finden Sie in der Dokumentation. Diese AI Service Card beschreibt eine dieser Funktionen, Transcribe – Batch (Englisch-US), implementiert von der Transcribe::StartTranscriptionJob-API. Diese Funktion führt ASR im Gebietsschema en-US bei niedriger (8 kHz) oder hoher (16 kHz) Bandbreite durch. Es arbeitet mit aufgezeichneter Sprache, die aus einer statischen Audiodatei verfügbar ist (Batch-Modus). Informationen zu ASR nahezu in Echtzeit auf Streaming-Medien finden Sie in der Transcribe::StartStreamTranscription-API.

Wir beurteilen die Qualität von Transcribe Speech, indem wir messen, wie gut die Wörter aus einem ASR-Transkript mit den in der Sprachsample gesprochenen Wörtern übereinstimmen, wie sie von einem menschlichen Zuhörer transkribiert wurden. Wenn ein Sprecher sagt: „Dieses System kann wirklich Sprache erkennen“, erwarten wir, dass das Protokoll die gesprochenen Worte enthält, nicht „Dieses System kann einen schönen Strand ruinieren“. Drei Arten von Fehlern können in einer Transkription auftreten: Ersetzungen (wie ein für kein), Einfügungen (zusätzliche Wörter wie „nett“) und Löschungen (fehlende Wörter wie „wirklich“). Korrekt transkribierte Wörter werden als Treffer bezeichnet. Qualitätskennzahlen wie Präzision, Erinnerungsvermögen, F1 und Wortfehlerrate (WER) hängen von der Anzahl der Treffer und Fehler ab.

Die Genauigkeit eines ASR-Systems wird von mehreren Faktoren beeinflusst. Das Eingangs-Audiosignal besteht aus der Sprache selbst, die durch eine Vielzahl von Störfaktoren verändert wurde. Einzelne Wörter und Äußerungen unterscheiden sich von Sprecher zu Sprecher in der Häufigkeit, mit der sie verwendet werden, in der Art und Weise, wie sie ausgesprochen werden und wie sie mit anderen Wörtern kombiniert werden. Wörter, die sich in Schreibweise und Bedeutung unterscheiden, unterscheiden sich möglicherweise nicht im Klang. Lautsprecher können sich überlappen oder sich gegenseitig unterbrechen. Aufnahmegeräte unterscheiden sich in Qualität und Position relativ zum Sprecher (z. B. Fernfeld oder Nahfeld). Aufnahmeumgebungen unterscheiden sich in Bezug auf den Pegel der Hintergrundgeräusche, die Echoempfindlichkeit und das Vorhandensein anderer Sprecher. Übertragungsleitungen unterscheiden sich im Pegel des Rauschens. Transcribe wurde entwickelt, um zwischen dem Audio verschiedener Wörter zu unterscheiden und die verwirrenden Variationen zu ignorieren.

Vorgesehene Anwendungsfälle und Einschränkungen

Transcribe – Batch (Englisch-USA) ist für Hörproben vorgesehen, die natürlich vorkommende menschliche Sprache enthalten. Es ist nicht für mechanisch oder digital transformierte Sprache oder synthetische Sprache konzipiert. Es ist beabsichtigt, US-englische Wörter zu transkribieren. Weitere Sprachgebietsschemas finden Sie unter Unterstützte Sprachen. Transcribe unterstützt ein großes allgemeines Vokabular; Kunden können benutzerdefinierte Vokabeln und benutzerdefinierte Sprachmodelle hinzufügen, um Wörter und Phrasen aus speziellen Domains abzudecken. Transcribe unterstützt die Sprecherpartitionierung, auch bekannt als Diarisierung. Bis zu 10 eindeutige Sprecher können identifiziert werden, indem die Sprecherpartitionierung im API-Aufruf aktiviert wird.

Transcribe Batch (Englisch-USA) bietet viele Anwendungsmöglichkeiten, z. B. Kontaktcenter-Analysen (Stimmung/Kategorisierung/Gesprächsgeschwindigkeit), Transkribieren von Voicemails, Erstellen von Besprechungsuntertiteln, Untertiteln für Medieninhalte (Audio oder Video) und Suche/Analyse/Stichwortanalyse für Medien, einschließlich der Katalogisierung oder Indexierung von Medienarchiven. Diese Anwendungen unterscheiden sich in ihrem Design durch 1/ die Anzahl der Sprecher, 2/ die Anzahl der Sprecher pro Kanal (d. h. pro Aufnahmegerät wie Laptop oder Mobiltelefon), 3/ den von den Sprechern verwendeten Sprachstil, 4/ Aufnahmebedingungen (wie Standort und Ausrüstung) und andere Faktoren. Eine Contact-Center-Transkriptionsanwendung könnte beispielsweise zwei Sprecher erwarten, einen Sprecher pro Kanal, Nahfeldaufnahme (mit dem Mund des Sprechers in der Nähe des Mikrofons) und hohe Hintergrundgeräusche sowohl in der häuslichen Umgebung des Anrufers als auch in der Arbeitsumgebung des Contact-Centers. Ein zweites Beispiel ist eine Anwendung für die Untertitelung von Lehrvideos, ein Einstiegspunkt in die Medienanalyse, Indexierung und Suche. Diese Anwendung würde mehrere Sprecher erwarten, einen Audiokanal, der von allen Sprechern gemeinsam genutzt wird, geskriptete Sprache mit weniger Füllwörtern, Pausen und Disfluenzen, dafür aber mehr domänenspezifischer Fachjargon sowie geringere Hintergrundgeräusche und andere Audiokklusionen.

Design von Transcribe – Batch (Englisch-USA)

Machine Learning: Transcribe wurde mithilfe der ML- und ASR-Technologie entwickelt. Es funktioniert wie folgt: (1) Identifizieren relevanter akustische Merkmale des Audioeingangs. (2) Generieren einer Reihe von Kandidatenzeichenfolgen auf Wortebene auf der Grundlage dieser Funktionen. (3) Anwenden der Sprachmodellierung, um die Kandidaten zu bewerten und die Transkription mit dem höchsten Rang zurückzugeben. Einzelheiten zu den API-Aufrufen finden Sie in der Entwicklerdokumentation.

Leistungserwartungen: Individuelle und verwirrende Abweichungen unterscheiden sich je nach Kundenanwendung. Dies bedeutet, dass sich die Leistung auch zwischen Anwendungen unterscheidet, auch wenn sie denselben Anwendungsfall unterstützen. Stellen Sie sich zwei Transkriptionsanwendungen A und B vor. Anwendung A ermöglicht die Videountertitelung für eine TV-Talkshow und verfügt über mehrere Stimmen pro Aufnahmekanal, hochwertige Boom-Mikrofone und vernachlässigbare Hintergrundgeräusche. Anwendung B hilft Contact-Centern dabei, Kundenanrufe aufzuzeichnen, und sorgt dafür, dass Kunden in der Nähe ihres Mikrofons sprechen, eine Stimme pro Aufnahmekanal und unskriptlose Kundengespräche führen. Da A und B unterschiedliche Eingaben haben, werden sie wahrscheinlich unterschiedliche Fehlerraten aufweisen, selbst wenn davon ausgegangen wird, dass jede Anwendung mit Transcribe perfekt bereitgestellt wird.

Testgetriebene Methodik: Wir verwenden mehrere Datensätze, um die Leistung zu bewerten. Kein einziger Bewertungsdatensatz bietet ein absolutes Bild der Leistung. Das liegt daran, dass die Bewertungsdatensätze je nach demografischer Zusammensetzung (Anzahl und Art der definierten Gruppen), dem Ausmaß der verwirrenden Variationen (Qualität der Inhalte, Eignung für den Zweck), der Art und Qualität der verfügbaren Labels und anderen Faktoren variieren. Wir messen die Leistung von Transcribe, indem wir sie anhand von Bewertungsdatensätzen testen, die Audioaufnahmen von einer Vielzahl von Sprechern enthalten, die repräsentativ für die Population der Endnutzer sind, wobei jede Aufnahme mit Ground-Truth-Transkriptionen und demografischen Merkmalen des Sprechers gekennzeichnet ist. Wir stellen die Gesamtleistung eines Datensatzes anhand mehrerer Metriken dar, darunter die Wortfehlerrate und F1, ein Prozentsatz, der den Prozentsatz der vorhergesagten Wörter, die korrekt sind (Präzision), gegen den Prozentsatz der richtigen Wörter, die in der Vorhersage enthalten sind (Erinnerung), gleichmäßig abwägt. Gruppen in einem Datensatz können anhand demografischer Merkmale (wie Geschlecht, Alter und Abstammung), Störvariablen (z. B. Varianten der Aufnahmegeräte, Abstand der einzelnen Sprechers zum Aufnahmegerät, Nachbearbeitungs- und Hintergrundgeräusche) oder einer Mischung aus beidem definiert werden. Verschiedene Bewertungsdatensätze variieren je nach diesen und anderen Faktoren. Aus diesem Grund variieren alle Metriken – sowohl insgesamt als auch für Gruppen – von Datensatz zu Datensatz. Unter Berücksichtigung dieser Variation untersucht unser Entwicklungsprozess die Leistung von Transcribe anhand mehrerer Bewertungsdatensätze, ergreift Maßnahmen zur Erhöhung der Genauigkeit für Gruppen, bei denen Transcribe am schlechtesten abgeschnitten hat, arbeitet daran, die Suite der Bewertungsdatensätze zu verbessern, und wiederholt dann.

Fairness und Voreingenommenheit: Unser Ziel ist es, dass Transcribe – Batch (Englisch-USA) für Sprecher von US-Englisch in allen Aussprachen, Intonationen, Vokabeln und grammatikalischen Merkmalen, die diese Sprecher verwenden können, gut funktioniert. Wir betrachten Sprechergemeinschaften, die durch Regionen wie den Mittleren Westen oder New York City definiert werden, und Communitys, die durch mehrere Identitätsdimensionen definiert sind, darunter Abstammung, Alter und Geschlecht. Um dies zu erreichen, verwenden wir den oben beschriebenen iterativen Entwicklungsprozess. Im Rahmen dieses Prozesses erstellen wir Datensätze, um eine Vielzahl von menschlichen Sprechern unter einer Vielzahl von Störfaktoren zu erfassen. Wir testen routinemäßig an Datensätzen, für die wir zuverlässige demografische Kennzeichnungen haben. Wir stellen fest, dass Transcribe bei allen demografischen Merkmalen gut abschneidet. Beispielsweise stellen wir anhand eines Datensatzes natürlicher Sprache mit 65 demografischen Gruppen, definiert nach Alter, Abstammung, Geschlecht und regionalem Dialekt (wie Weiblich+Europäisch, Männlich+Unter 45) fest, dass die Genauigkeit der F1-Worterkennung für jede Sprechergruppe 92 % oder höher ist. Bei Transkriptionen mit aktivierter Sprecherpartitionierung (Diarisierung) stellen wir anhand desselben Datensatzes fest, dass die Genauigkeit der Diarisierung für jede Sprechergruppe 98 % oder höher beträgt. Da die Ergebnisse von Transcribe, dem Kundenworkflow und dem Bewertungsdatensatz abhängen, empfehlen wir Kunden, Transcribe zusätzlich an ihren eigenen Inhalten zu testen.

Erklärbarkeit: Wenn Amazon Transcribe Audio transkribiert, erstellt es verschiedene Versionen desselben Transkripts und weist jeder Version einen Konfidenzwert zu. Wenn Kunden alternative Transkriptionen aktivieren, gibt Amazon Transcribe alternative Versionen des Transkripts zurück, die ein niedrigeres Konfidenzniveau aufweisen. Kunden können alternative ausprobieren, um einen besseren Einblick in die Kandidatenwörter und Formulierungen zu erhalten, die für jede Audioeingabe generiert wurden.

Robustheit: Wir maximieren die Robustheit mit einer Reihe von Techniken, einschließlich der Verwendung großer Trainingsdatensätze, die viele Arten von Variationen bei vielen Personen erfassen. Die idealen Audioeingänge für Transcribe ASR enthalten Audio mit hoher Aufnahmequalität, geringen Hintergrundgeräuschen und geringem Nachhall im Raum. Transcribe ist jedoch darauf trainiert, auch dann belastbar zu sein, wenn die Eingänge von den idealen Bedingungen abweichen, und kann in lauten Umgebungen und Umgebungen mit mehreren Sprechern eine gute Leistung erbringen.

Datenschutz und Sicherheit: Amazon Transcribe verarbeitet nur Audioeingabedaten. Audioeingänge sind niemals in der vom Service zurückgegebenen Ausgabe enthalten. Ein- und Ausgänge werden niemals von Kunden gemeinsam genutzt. Kunden können sich über AWS Organizations oder andere von uns bereitgestellte Abmeldemechanismen von Schulungen zu Kundeninhalten abmelden. Weitere Informationen finden Sie in Abschnitt 50.3 der AWS-Servicebedingungen und in den häufig gestellten Fragen zum AWS-Datenschutz. Servicespezifische Datenschutz- und Sicherheitsinformationen finden Sie im Abschnitt Datenschutz in den häufig gestellten Fragen zu Transcribe und in der Dokumentation zu Amazon Transcribe Security.

Transparenz: Wenn es für ihren Anwendungsfall angemessen ist, werden Kunden, die Amazon Transcribe in ihren Workflow integrieren, ermutigt, Endbenutzern und anderen von der Anwendung betroffenen Personen ihre Nutzung der ML- und ASR-Technologie offenzulegen und ihren Endbenutzern die Möglichkeit zu geben, Feedback zur Verbesserung der Workflows abzugeben. In ihrer Dokumentation können Kunden auch auf diese KI-Servicekarte verweisen.

Unternehmensführung: Wir verfügen über strenge Methoden, um unsere AWS-KI-Services auf verantwortungsvolle Weise aufzubauen. Dazu gehören ein rückwärts arbeitender Produktentwicklungsprozess, der verantwortungsvolle KI in der Entwurfsphase einbezieht, Designberatungen und Implementierungsbewertungen durch engagierte Experten für verantwortungsvolle KI in Wissenschaft und Daten, Routinetests, Kundenrezensionen sowie Entwicklung, Verbreitung und Schulung von bewährten Verfahren.

Best Practices für Bereitstellung und Leistungsoptimierung

Wir empfehlen unseren Kunden, ihre Anwendungen verantwortungsbewusst zu entwickeln und zu betreiben, wie im AWS-Leitfaden zur verantwortungsvollen Nutzung von Machine Learning beschrieben. Dazu gehört die Implementierung verantwortungsvoller KI-Praktiken, um wichtige Aspekte wie Fairness und Voreingenommenheit, Robustheit, Erklärbarkeit, Datenschutz und Sicherheit, Transparenz und Unternehmensführung anzugehen.
 
Workflow-Design: Die Leistung jeder Anwendung, die Transcribe verwendet, hängt vom Design des Kunden-Workflows ab. Bedingungen wie Hintergrundgeräusche, Aufnahmegeräte und andere werden im Abschnitt Beabsichtigte Anwendungsfälle behandelt. Je nach Anwendung können diese Bedingungen von Transcribe-Kunden optimiert werden, die den Workflow definieren, in dem Audio von Endbenutzern aufgenommen wird. Transcribe bietet Funktionen für Kunden, mit denen sie ihre Erkennungsleistung innerhalb der API optimieren können. Zu diesen Funktionen gehören Aufnahmebedingungen, Sampleraten, benutzerdefinierte Vokabulare, benutzerdefinierte Sprachmodelle und das Filtern nach Wortschatz oder personenbezogenen Daten (PII). Menschliche Aufsicht, konsistente Workflows und regelmäßige Tests auf Leistungsabweichungen sind ebenfalls wichtige Aspekte, die unter der Kontrolle der Kunden liegen und zu genauen, fairen Ergebnissen beitragen.
 
  1. Aufnahmebedingungen: Workflows sollten Schritte beinhalten, um unterschiedlichen Aufnahmebedingungen zu begegnen, z. B. wenn Sie weit vom Mikrofon entfernt sprechen oder unter lauten Bedingungen sprechen. Wenn die Streuung groß ist, sollten Sie Hilfe und Anweisungen bereitstellen, die für alle Endbenutzer zugänglich sind, und überwachen Sie die Aufnahmequalität, indem Sie die Eingaben regelmäßig und nach dem Zufallsprinzip abfragen.

  2. Beispielaten: Kunden haben einen optionalen Parameter, mit dem sie die Beispielrate ihrer Audioeingänge angeben können, entweder bei Eingängen mit niedrigerer Bandbreite (8 kHz) oder bei Breitbandeingängen (16 kHz).

  3. Benutzerdefiniertes Vokabular: Transcribe erkennt Vokabeln, die in einer Vielzahl von Sprechergemeinschaften (Dialektregionen, demografische Gruppen) verwendet werden. In Fällen, in denen Kunden zusätzliche Unterstützung für Wörter anbieten möchten, die für ihre Domain oder Situation spezifisch sind, wie Markennamen oder Eigennamen und Akronyme, können Kunden benutzerdefinierte Vokabeln einsetzen, um die Transkriptionsgenauigkeit für solche Wörter zu verbessern. Weitere Informationen finden Sie in der Dokumentation für benutzerdefinierte Vokabulare.

  4. Benutzerdefinierte Sprachmodelle: Wenn eine Kundenanwendung domänenspezifische Sprache verarbeiten muss, die komplexer ist als nur einzelne Wörter, können Kunden benutzerdefinierte Sprachmodelle verwenden, um die Transkriptionsgenauigkeit zu verbessern. Wenn Sie beispielsweise Aufzeichnungen von klimawissenschaftlichen Vorträgen transkribieren, kann es möglich sein, die Genauigkeit der Transkription zu erhöhen, indem Sie den Kontext lernen, in dem Wörter vorkommen (wie „Eisfluss“ oder „Eisscholle“). In diesem Fall können Kunden ein benutzerdefiniertes Sprachmodell trainieren, um Fachbegriffe zu erkennen. Weitere Informationen finden Sie in der Dokumentation für benutzerdefinierte Sprachmodelle.

  5. Vokabelfilterung und Bearbeitung personenbezogener Daten: Diese Optimierungen können die Sicherheit und den Datenschutz der in den Transkriptionen erzeugten Sprache verbessern. Mithilfe der Vokabelfilterung können Kunden vertrauliche oder für ihr Publikum ungeeignete Wörter auf der Grundlage einer vom Kunden definierten Liste maskieren oder aus den Transkriptionsergebnissen entfernen. PII Redaction ermöglicht es Kunden, ein Protokoll zu erstellen, in dem personenbezogene Daten entfernt wurden, und zwar auf der Grundlage der von Transcribe – Batch (Englisch-US) identifizierten PII-Typen. Dazu gehören Name, Adresse, Kreditkartennummer, SSN und andere. Weitere Informationen, einschließlich einer vollständigen Liste der PII-Typen und Überlegungen zur Verwendung der PII-Redaktion für regulierte Workloads, finden Sie in der Dokumentation zur Vokabelfilterung und zur PII-Redaktion.

  6. Menschliche Aufsicht: Wenn der Anwendungsworkflow eines Kunden einen risikoreichen oder sensiblen Anwendungsfall beinhaltet, wie z. B. eine Entscheidung, die sich auf die Rechte einer Person oder den Zugang zu wichtigen Services auswirkt, sollte die menschliche Überprüfung gegebenenfalls in den Anwendungsablauf einbezogen werden. ASR-Systeme können als Werkzeuge dienen, um den Aufwand zu reduzieren, der durch vollständig manuelle Lösungen entsteht, und um es Menschen zu ermöglichen, Audioinhalte schnell zu überprüfen und zu bewerten.

  7. Konsistenz: Kunden sollten Richtlinien für die Art der Workflow-Anpassung und die zulässigen Audioeingaben sowie für die Art und Weise festlegen, wie Menschen bei der Bewertung von Transcribe-Ausgaben nach eigenem Ermessen vorgehen. Diese Richtlinien sollten für alle demografischen Gruppen einheitlich sein. Eine inkonsistente Änderung der Audioeingänge kann zu unfairen Ergebnissen für verschiedene demografische Gruppen führen.

  8. Leistungsabweichung: Eine Änderung der Audiotypen, die ein Kunde an Transcribe übermittelt, oder eine Änderung des Service kann zu unterschiedlichen Ausgaben führen. Um diesen Änderungen zu begegnen, sollten Kunden erwägen, die Leistung von Transcribe regelmäßig erneut zu testen und ihren Workflow gegebenenfalls anzupassen.

Weitere Informationen

Glossar

Fairness und Vorbehalte beziehen sich darauf, wie sich ein KI-System auf verschiedene Subpopulationen von Nutzern auswirkt (z. B. nach Geschlecht, ethnischer Zugehörigkeit).

Erklärbarkeit bezieht sich auf Mechanismen, um die Ergebnisse eines KI-Systems zu verstehen und zu bewerten.

Robustheit bezieht sich auf Mechanismen, die sicherstellen, dass ein KI-System zuverlässig funktioniert.

Datenschutz und Sicherheit beziehen sich auf Daten, die vor Diebstahl und Offenlegung geschützt werden.

Governance bezieht sich auf Prozesse zur Definition, Implementierung und Durchsetzung verantwortungsvoller KI-Praktiken innerhalb einer Organisation.

Transparenz bezieht sich auf die Weitergabe von Informationen über ein KI-System, damit die Beteiligten fundierte Entscheidungen über ihre Nutzung des Systems treffen können.