Was ist Text-zu-Sprache-Software?
Was ist Text-zu-Sprache-Software?
Von Webseiten, die laut vorgelesen werden, bis hin zur Abfrage von Benutzerdaten – Sprache entwickelt sich als moderne Benutzeroberfläche schnell zur Norm. Kunden erwarten zunehmend Sprachfunktionen in jeder Anwendung, mit der sie interagieren. Darüber hinaus können Text-zu-Sprache-Anwendungsfälle in den Bereichen Gesundheitswesen, Vertrieb, Inhaltserstellung, Kundenservice und anderen Anwendungen die Automatisierung beschleunigen und gleichzeitig das Kundenerlebnis verbessern. Dieser Leitfaden befasst sich mit Text-zu-Sprache-Funktionen und -Möglichkeiten und erklärt, wie Sie die ersten Schritte mit diesen Funktionen machen können.
Text-to-Voice- oder Text-to-Speech (TTS)-Software erzeugt eine Audio-„Stimme“, indem Sprache aus Text synthetisiert wird. Die Software wird von einer Text-zu-Sprache-Engine angetrieben, die auf einer Vielzahl menschlicher Sprachaufnahmen trainiert wurde. Sie wandelt geschriebene Wörter in ihre gesprochene Form um, indem sie die Schallwellenformen in den Sprachdaten analysiert.
Gestelzte, roboterhafte Stimmen sind das Ergebnis veralteter Sprachtechnologien. Moderne Text-zu-Sprache-Engines, die auf generativer KI basieren, erzeugen eine Ausgabe, die kaum von menschlicher Sprache zu unterscheiden ist. Die generierte Stimme kann natürliche Pausen, verschiedene Akzente, unterschiedliche Geschwindigkeiten und Intonationen enthalten, die menschliche Emotionen widerspiegeln.
Arten von Text-zu-Sprache-Software
Die Art des TTS-Tools, für das Sie sich entscheiden, hängt von Ihrem Anwendungsfall ab. Für Entwickler ist ein anpassbares, integratives Komplettpaket die beste Wahl für die Entwicklung mehrerer Anwendungen in verschiedenen Umgebungen.
Entwickler können zwischen Open-Source- und kommerzieller TTS-Software mit selbstverwalteten Bereitstellungen oder einem vollständig integrierten verwalteten Cloud-Service wie Amazon Polly wählen. Es ermöglicht als erstklassiges Feature, bestehenden Anwendungen, Sprache zu integrieren, was Möglichkeiten für völlig neue Kategorien von sprachaktivierten Produkten eröffnet, von mobilen Anwendungen und Fahrzeugen bis hin zu Geräten und Einrichtungen.
Amazon Polly verfügt über vier Sprach-Engines, die auf unterschiedlichen KI-Modellarchitekturen basieren und für verschiedene Anwendungsfälle geeignet sind. Um eine Amazon-Polly-Stimme zu verwenden, wählen Sie einfach die Engine, den Sprachsynthesevorgang und das Ausgabedateiformat über die API in Ihrem Code aus. Geben Sie dann den Eingabetext ein, den die Engine synthetisieren soll. Amazon Polly generiert die Sprachausgabedatei in dem von Ihnen angeforderten Format. Diese Engines können auch für spezifische Sprach- oder Markenanforderungen weiter trainiert werden.
Auf welche Features sollte man bei Text-zu-Sprache-Software achten?
Amazon Polly umfasst die folgenden Text-zu-Sprache-Funktionen, die für die moderne Sprachentwicklung unerlässlich sind.
Stimmenspektrum
Die Möglichkeit, verschiedene Sprachen, Regionen, Geschlechter und Stimmen innerhalb einer Region auszuwählen, bietet eine umfassendere Produktpalette für die Entwicklung. Amazon Polly unterstützt Dutzende von Sprachen sowie deren länderspezifische Varianten und Akzente in männlicher und weiblicher Form.
API-basierte Integration
Vergewissern Sie sich, dass Ihre TTS-Software über eine voll funktionsfähige API verfügt und in mehreren Programmiersprachen verfügbar ist, um eine möglichst breite Palette an Integrationen über verschiedene Projekte hinweg zu ermöglichen. Amazon Polly bietet die Amazon-Polly-API und verschiedene sprachspezifische SDKs. Der Zugriff ist auch über die AWS-Managementkonsole und die AWS-Befehlszeilenschnittstelle (CLI) möglich. Sie haben die vollständige Kontrolle über alle Funktionen von Amazon Polly, unabhängig davon, wie Sie sie verwenden.
Präzise Sprachsteuerung
Speech Synthesis Markup Language (SSML) ist eine auf XML basierende Auszeichnungssprache, mit der Sie mehr Informationen darüber bereitstellen können, wie Ihre Sprache klingen soll. Beispielsweise können Sie Pausen, Interpretationen (z. B. Datumsangaben, Akronyme), Tonhöhe, Geschwindigkeit, Lautstärke, Betonung, Einblendung und andere Audioelemente einfügen, um die generierte Stimme anzupassen. Mit SSML können Sie Sprachausgaben vollständig steuern und die Anpassung auf andere Systeme übertragen.
Amazon Polly unterstützt sowohl gängige als auch benutzerdefinierte Amazon-SSML-Tags, beispielsweise die Möglichkeit, eine Stimme wie die eines Nachrichtensprechers klingen zu lassen. Diese Flexibilität hilft Ihnen dabei, lebensechte Sprache zu erstellen, die die Aufmerksamkeit des Publikums fesselt und aufrechterhält.
Metadaten-Hooks für synchronisierte Animationen
Einige Anwendungen, wie Spiele und Medien, erfordern Animationen mit Charakteren, die dem Ton folgen, einschließlich Mundbewegungen oder einer Karaoke-ähnlichen Wortfolge. Mehrsprachige Schulungsvideos würden auch von einem synchronisierten Timing in mehreren Sprachen profitieren, sodass das Audio für alle Sprachen gleichzeitig mit dem Video abgestimmt ist.
Für solche Arten von Anwendungen benötigen Entwickler Metadaten, um zu in einem Zeitstempelformat zu kennzeichnen, welche Sprachelemente zu einem bestimmten Zeitpunkt auftreten. Mit Amazon Polly können Sie solche zusätzlichen Metadaten oder Sprachmarkierungen zusammen mit Ihrer Sprachdatei anfordern. Sprachmarkierungen liefern Informationen wie den Zeitstempel der Audiodatei, Mundbilder (die Positionen von Gesicht und Mund beim Sprechen eines Wortes) und andere Details, die den geschriebenen Text mit der Sprachausgabe verbinden.
Individuelle Anpassung
Sie möchten, dass Ihre Text-zu-Sprache-Software für maximale Flexibilität vollständig anpassbar ist. Beispielsweise sollte die Audioausgabe für verschiedene Formate und Konfigurationen anpassbar sein, auch nach Dateityp (z. B.), Dateigröße und Datenqualität. Die Software sollte in der Lage sein, benutzerdefiniertes Vokabular zu verarbeiten, das nicht in ihren Trainingsdaten enthalten ist.
Amazon Polly unterstützt die Text-zu-Sprache-Anpassung in jeder Phase.
Vokabular
Sie können ein benutzerdefiniertes Wörterbuch mit personalisierten Aussprachen für Firmennamen, Akronyme, Fremdwörter und Neologismen erstellen. Sie können Ausgaben in verschiedenen Sprachformaten wie MP3 und WAV anfordern.
Ausgabeformat
Amazon Polly unterstützt auch längere Audioaufnahmen, wie beispielsweise das Vorlesen von Dokumenten, mit einer natürlich klingenden Stimme. Sie können kontinuierliche Audiostreams für Verbindungen mit geringerer Bandbreite oder niedriger Latenz in Echtzeit-Anwendungsfällen generieren.
Sprache
Wir bieten auch Brand Voice an, ein maßgeschneidertes Angebot, bei dem Sie gemeinsam mit dem Amazon-Polly-Team eine Stimme entwickeln, die ausschließlich für Ihr Unternehmen bestimmt ist. Anstatt wie andere Apps zu klingen, können Sie ein einzigartiges sprachbasiertes Markenzeichen erstellen, mit der Sie sich von anderen abheben können.
Wie kann man mit einer Text-zu-Sprache-Software beginnen?
Der Einstieg in die AWS-Text-zu-Sprache-Software ist ganz einfach. In diesem Leitfaden führen wir Sie durch eine kurze Demo von Amazon Polly in der Konsole.
Melden Sie sich zunächst in der AWS-Managementkonsole an und öffnen Sie die Amazon-Polly-Konsole. Klicken Sie auf „Polly testen“, um loszulegen. Dadurch wird ein Text-zu-Sprache-Dialogfeld geöffnet.
Schritt 1 – Engine auswählen
Im Text-zu-Sprache-Dialogfeld können Sie auswählen, welche Sprach-Engine Sie nutzen möchten. Amazon Polly bietet derzeit vier verschiedene Sprach-Engines zur Auswahl.
- Die Standard-Engine verwendet die Methode der konkatenativen Synthese als Sprachgenerator.
- Die Neural Engine verwendet ein neuronales Netzwerk und eine Vocoder-Methode, um eine natürlichere Sprache zu erzeugen.
- Die Generative Engine verwendet ein Modell mit einer Milliarde Parametern, das auf einer Vielzahl von Sprachdaten trainiert wurde, um eine noch natürlichere Sprache zu erzielen.
- Die Long-Form-Engine ist eine weitere Text-zu-Sprache-Engine mit generativer KI, die für lange, erzählerische Reden entwickelt wurde.
Nicht alle Engines sind in allen AWS-Regionen verfügbar.
Schritt 2 – Sprache auswählen
Nachdem Sie eine Sprach-Engine ausgewählt haben, wählen Sie aus den Dropdown-Menüs die Sprache, die Sie generieren möchten, sowie eine männliche oder weibliche Stimme aus.
Jede Sprach-Engine unterstützt eine andere Auswahl an Sprachen und KI-Stimmen. Wenn Sie beispielsweise „Neural“ für „Engine“ auswählen, sind nur die Sprachen und Stimmen verfügbar, die „Neural Text-to-Speech“ (NTTS) unterstützen, und alle Standard- und Long-Form-Stimmen sind deaktiviert.
Schritt 3 – Text in Sprache umwandeln
Ändern Sie im Feld „Eingabetext“ den Standardtext in Ihre eigene geschriebene Texteingabe. Sie können die Schaltfläche „Anhören“ wählen, um sich die Ausgabe vorlesen zu lassen, die Schaltfläche „Herunterladen“, um die MP3-Datei herunterzuladen, oder die Schaltfläche „In S3 speichern“, um die gesprochenen Wörter im Amazon Simple Storage Service zu speichern.
Zugriff auf Amazon Polly über die API
Sie können wie oben über die Konsole oder über die API im Anwendungscode auf Amazon Polly zugreifen. Mit der Amazon-Polly-API können Sie viele Dinge tun, von Echtzeitübersetzungen über die Erstellung von Untertiteln bis hin zur Belebung von Videospiel- oder anderen Animationsfiguren. Probieren Sie einige der Beispiele auf GitHub aus, um zu sehen, wie Sie die Amazon-Polly-API in Code verwenden können.
Wie kann AWS Sie bei Ihren Anforderungen an Text-zu-Sprache-Software unterstützen?
Mit Text-zu-Sprache können Sie sprachbasiertes Audio anhand von Text statt menschlicher Sprache erstellen. Ursprünglich wurde es als assistive Technologie für Menschen mit Sehbehinderungen eingesetzt. Mittlerweile ist es jedoch in vielen Anwendungen und Kundeninteraktionen unverzichtbar geworden – von Browser-Erweiterungen über Callcenter bis hin zu Unternehmensanwendungen. Mit einem verwalteten Service wie Amazon Polly können Entwickler ganz einfach eine moderne, lebensechte Sprach-Engine über Text-zu-Sprache-API-Aufrufe in Anwendungen integrieren. Die Preise für Amazon Polly richten sich nach der Engine und der Anzahl der verarbeiteten Zeichen und umfassen eine kostenlose Stufe für den privaten Gebrauch.
Das gesprochene Audio von Amazon Polly ist nur einer der generativen KI-Services, die Sie bei der Anwendungsentwicklung verwenden können. Sehen Sie sich die verschiedenen KI-Lösungen in AWS an, mit denen Sie Anwendungen schneller und leistungsfähiger entwickeln und skalieren können.