Überspringen zum Hauptinhalt

Was ist Text-zu-Sprache?

Die Text-zu-Sprache-Technologie ist eine Software, die digitalen Text mithilfe einer computergenerierten Stimme in gesprochene Sprache umwandelt. Unternehmen möchten Text für verschiedene Anwendungsfälle in Sprache umwandeln, darunter Bildung, Kundeninteraktionen, unterstützende Technologien, digitale Avatare, Spiele, Automatisierung von Routineanrufen und vieles mehr. Die Text-zu-Sprache-Technologie nutzt KI, um geschriebenen Text in natürlich klingende Sprache mit dem Akzent und Dialekt Ihrer Wahl umzuwandeln. KI-Sprachgeneratoren können sehr natürliche Sprachkonversationen mit Kunden führen, einschließlich Pausen, Emotionen und unterschiedlicher Sprechgeschwindigkeit.

Welche Vorteile bietet Text-zu-Sprache?

Text-zu-Sprache ermöglicht es Unternehmen, mit ihrer Zielgruppe in Kontakt zu treten, indem sie Textinhalte mit hochwertigen Stimmen vortragen. Im Folgenden stellen wir die wichtigsten Vorteile dieser Technologie für Unternehmen vor.

Verbesserte Zugänglichkeit

Unternehmen können inklusiver sein, indem sie bei der Erstellung von Inhalten Text-zu-Sprache-Technologien einsetzen, insbesondere für Menschen mit Sehbehinderungen. Text-zu-Sprache-Software wandelt Inhalte in eine Audiodatei um, die sich Menschen mit Leseschwierigkeiten anhören können.

Personalisiertes Engagement

Mit Text-zu-Sprache-Software können Unternehmen Audioinhalte mit dem Tonfall, der Stimme und dem Stil personalisieren, den die Zuhörer gerne hören. Unternehmen können Botschaften in ihrer individuellen Markenstimme übermitteln, um einen bleibenden Eindruck zu hinterlassen.

Lernaktivitäten unterstützen

Text-zu-Sprache ermöglicht es Unternehmen, neue Wege zur Unterstützung von E-Learning-Programmen zu erkunden. Indem geschriebene Inhalte in hörbare Formen umgewandelt werden, sind die Lernenden motivierter und lernen somit effektiver.

Erhöhte Reichweite bei der Zielgruppe

Einige Kunden wünschen sich mehr Alternativen beim Zugriff auf Online-Inhalte.  Text-zu-Sprache (TTS) ermöglicht es Unternehmen, ihre Inhalte für Menschen zugänglich zu machen, die Podcasts oder Videos gegenüber Blogs und Dokumenten bevorzugen. 

Bietet eine alternative Lernmethode

Unternehmen können die Entwicklung ihrer Mitarbeitenden mit Text-zu-Sprache-Trainingsassistenten besser unterstützen. Anstatt Seiten voller Text zu lesen, können sie sich den Inhalt unterwegs anhören und ihre Zeit effizienter nutzen. 

Wie hat sich die Text-zu-Sprache-Technologie entwickelt?

Text-zu-Sprache sollte Stephen Hawking dabei helfen, sich verbal zu unterhalten, nachdem der Physiker nach einer Tracheotomie seine Stimme verloren hat. Das erste Text-zu-Sprache-System wurde von Dennis Klatt erfunden und bildet die Grundlage für spätere Innovationen in diesem Bereich.
Wir berichten darüber, wie sich verschiedene Text-zu-Sprache-Technologien im Laufe der Jahrzehnte entwickelt haben.

Formantsynthese

Die Formantsynthese ist eine Audiotechnik, die die menschliche Stimme nachahmt, indem sie den Vokaltrakt modelliert. Sie ist eine der früheren Technologien, die Text-zu-Sprache-Systeme ermöglicht haben.

Konkatenative Synthese

Die konkatenative Synthese erzeugt Sprache durch die Kombination mehrerer winziger Blöcke von Tonaufnahmen. Es handelt sich um eine auf Machine Learning basierende Text-zu-Sprache-Entwicklung, die Standardergebnisse liefert, aber jetzt durch Deep Learning und KI ersetzt wurde. 

Auf Deep Learning basierende Sprachsynthese

Deep Learning ist eine Methode der künstlichen Intelligenz, mit der Computern beigebracht wird, Entscheidungen auf eine Weise zu treffen, die vom menschlichen Gehirn inspiriert ist. Durch das Lernen aus kuratierten Audiodaten können Wissenschaftler eine Sprachsynthese entwickeln, die natürlicher klingt.

Generativer Sprachgenerator

Generative Sprachgeneratoren verwenden generative KI, um realistische Sprache zu lernen, zu verbessern und zu produzieren. Wie beim Deep Learning wird auch generative KI mit großen Mengen an Audiodaten trainiert. Im Vergleich zu früheren Sprachsyntheseverfahren erzeugen generative Sprachgeneratoren Sprachaudio mit unterschiedlichen Nuancen wie Dialekten, Tonfällen, Amazon Alexa beispielsweise basiert auf generativer KI, die intelligentere, personalisierte und menschenähnlichere Gespräche ermöglicht. 

Wie funktioniert Text-zu-Sprache?

Eine Text-zu-Sprache-Software interpretiert den empfangenen Text und wandelt ihn in Audio um, das sich Menschen anhören können. Die Gesprächsqualität des Audios hängt jedoch von der zugrunde liegenden Sprachgenerierungstechnologie ab. Es gibt vier Haupttypen von Text-zu-Sprache-Technologien.

Standard-Engine

Ein Standard-Engine verwendet konkatenative Synthese, um natürliche Sprache zu erzeugen. Dabei werden Teile von aufgezeichneten Tönen, die in einer Datenbank gespeichert sind, zu einem ganzen gesprochenen Wort zusammengefügt. Das generierte Audio ist zwar klar und präzise, klingt jedoch eher maschinell als natürlich. Standard-Engines werden häufig in IVR-Anrufmenüs verwendet, in denen die aufgezeichnete Stimme den Benutzer auffordert, Optionen einzugeben, bevor der Anruf an die richtige Abteilung weitergeleitet wird.

Neural Engine

Wie die Standard-Engine verwendet auch die Neural Engine Audioblöcke als Grundlage für die Sprachsynthese. Sie verbindet diese Blöcke jedoch nicht miteinander. Stattdessen erzeugt sie eine kontinuierliche Audiowellenform, indem sie berücksichtigt, wie verschiedene Audioblöcke zusammen klingen würden. Dadurch kann die Neural Engine natürlich klingende Stimmen erzeugen.

Long-Form-Engine

Dank Deep-Learning-Technologien kann die Long-Form-Engine Artikel, Bücher, Zeitungen und andere Inhalte mit einer emotional anpassungsfähigen Stimme vorlesen. Durch ausgiebiges Lernen erzeugt die Engine Audio, die dem Vorlesen durch Menschen ähnelt. Wenn die Engine einen Text empfängt, interpretiert sie die Bedeutung und wählt den passenden Tonfall, die richtigen Pausen und Betonungen aus. Dies führt zu einer Text-zu-Sprache-KI-Software, die menschliche Emotionen wiedergeben kann.

Generative Engine

Die generative Engine verwendet fortschrittliche KI-Algorithmen, um menschenähnliche Sprache zu erzeugen. Ingenieure für Machine Learning trainieren die generative Engine mit Audiodaten in mehreren Sprachen, Stimmen und Stilen. Um Sprache zu erzeugen, wandelt die KI-Software geschriebenen Text in Sprachcodes um und konvertiert diese in hochwertige, kontinuierliche Audiowellenformen. Eine generative Engine kann digitale Interaktionen in Echtzeit beobachten und daraus lernen, sodass sie emotional engagiert, bestimmt und sehr umgangssprachlich klingt, genau wie Menschen. 

Was sind die wichtigsten Überlegungen bei der Auswahl einer Text-zu-Sprache-Technologie?

Sie können viele kostenpflichtige und kostenlose Text-zu-Sprache-Plattformen online finden. Allerdings sind nicht alle darauf ausgelegt, eine flexible Nutzung, Anpassung und andere geschäftliche Anforderungen zu unterstützen. Im Folgenden nennen wir Ihnen Punkte, die Sie bei der Auswahl einer TTS-Lösung berücksichtigen sollten.

Stimmen- und Sprachoption

Einige Organisationen bedienen Kunden in verschiedenen Regionen. Daher benötigen sie eine Text-zu-Sprache-Software, die Sprache in der jeweiligen Landessprache, in Dialekten und Stimmen erzeugen kann.

Sprachmarkierungen

Sprachmarkierungen sind spezielle Indikatoren im generierten Audio, die den Anfang und das Ende der gesprochenen Phrasen hervorheben. Sprachmarkierungen sind hilfreich, wenn Sie den Ton mit visuellen Elementen wie einem KI-Avatar kombinieren möchten. Dadurch kann der Avatar Gesichtsbewegungen mit der synthetisierten Sprache synchronisieren.

Optionen für die Sprachkonfiguration

Wenn Sie an kommerziellen Projekten arbeiten, sollten Sie mit verschiedenen Sprachvarianten experimentieren, bevor Sie die richtige finden. Einige Sprachgeneratoren bieten Optionen, mit denen Entwickler den Klang der synthetisierten Stimme anpassen können, darunter:

  • Sprechstil
  • Sprechgeschwindigkeit
  • Tonhöhe
  • Lautstärke
  • Sprachdauer

Sprachsynthese per API

Eine Anwendungsprogrammierschnittstelle (API) ermöglicht Softwareentwicklern die einfache Einführung von Text-zu-Sprache. Anstatt den Sprachsynthesizer von Grund auf neu zu entwickeln, verwenden sie eine API, um den Text an die Engine weiterzuleiten und die generierte Sprache zu empfangen.

Benutzerdefiniertes Vokabular

Manchmal kann es vorkommen, dass Text-zu-Sprache-Software bestimmte Wörter nicht richtig erkennt oder interpretiert. In der Regel haben diese Wörter eine nicht standardisierte Schreibweise und Aussprache oder sind Fachbegriffe, die in bestimmten Branchen verwendet werden. Beispielsweise bezeichnet der Begriff „Empfänger“ im Zusammenhang mit Elektronik eine Hardware, die eingehende Signale erkennt. Durch die Wahl eines Text-zu-Sprache-Programms, das benutzerdefiniertes Vokabular unterstützt, können Sie diese Begriffe einfügen, damit die Software flüssiger mit den Benutzern kommunizieren kann.

Proprietäre Anpassung

In einigen Anwendungsfällen möchten Unternehmen ihren bevorzugten Sprachstil im generierten Audio widerspiegeln. Dazu benötigen Sie eine Text-zu-Sprache-Software, die auf spezifische Anforderungen zugeschnitten ist, darunter Tonfall, Nuancen und Stil, die für die Marke einzigartig sind. 

Wie kann AWS Sie bei Ihren Anforderungen an Text-zu-Sprache unterstützen?

Mit Amazon Polly können Sie Text-zu-Sprache-Anwendungen erstellen, die Kunden in verschiedenen Regionen und Sprachen ansprechen. Mit Standard-, Langform-, generativen KI- und Neural Engines können Sie jeden Dokumenttyp nach Bedarf in Sprache umwandeln.

Mit Amazon Polly können Sie

  • aus Dutzenden vorgefertigter Stimmen in verschiedenen Sprachen, Dialekten und Geschlechtern wählen;
  • seltene Vokabeln wie Firmennamen, ausländische Ausdrücke oder Fachbegriffe einfügen oder ändern;
  • das generierte Audio in Echtzeit mit verschiedenen Abtastraten und Formaten streamen.

Unternehmen nutzen Amazon Polly, um ihre Anwendungen mit natürlich klingenden Stimmen zu erweitern, ohne in teure Technologien investieren zu müssen.

Beginnen Sie mit Text-zu-Sprache, indem Sie noch heute ein kostenloses AWS-Konto erstellen.