Hörbücher mit KI erstellen: … und dann kam Polly

Jessica Henke, 09.04.2019 ***

Dass Künstliche Intelligenz die Unternehmenskommunikation verändern wird, steht so fest wie das Amen in der Kirche: Digitale, sprachgesteuerte Assistenten gestatten, relevante Informationen schneller zu erhalten, Produkte effizient zu bestellen und sogar Fotos sowie Grafiken zielführend zu bearbeiten. Die Grundlage bilden Funktionen wie Text-zu-Sprache oder Sprache-zu-Text, automatisierte Übersetzungen von Texten und Gesprächen, automatisierte Bilderkennung und automatisierte Texterstellung. Wiederkehrende Prozesse zu automatisieren, spart viel Zeit und verbessert sowohl Durchsatz als auch Outcome der Unternehmenskommunikation enorm. Anlass genug, die Möglichkeiten von KI für die Erstellung von Hörbüchern unter die Lupe zu nehmen.

Eine KI-gestützte Lösung, mit der wir Kommunikationsmaßnahmen umsetzen – für unsere Kunden und uns selbst –, ist Amazon Polly. Dabei handelt es sich um eine vielversprechende Möglichkeit, Texte aller Art – von Presseinformationen über Leitfäden zum Onboarding von Mitarbeitern bis hin zu Blog- und Social-Media-Posts – mithilfe von Künstlicher Intelligenz in eine Hörbuch- oder Podcast-Version zu überführen. Ganz genau: Amazon Polly verwandelt jeglichen Text in eine realistisch klingende Sprachversion. Das gestattet, sprechende Anwendungen und ganz neue Kategorien sprachfähiger Produkte zu entwickeln.

Vicki, Marlene und Hans

Für die Text-zu-Sprache-Funktion (Text-to-Speech) bietet Amazon Polly derzeit drei deutsche Stimmen: die sympathische Vicki, die eloquente Marlene und den erfahrenen Hans. Hat sich der Anwender für eine der Stimmen entschieden, kann er seinen schriftlichen Text in die Eingabemaske einfügen. Texte bis zu einer maximalen Länge von bis zu 3.000 Zeichen inklusive Leerzeichen können sich Nutzer direkt anhören und als mp3-Datei herunterladen. Längere Texte sind in mehrere Teile zu trennen und im Anschluss an den Download mithilfe eines Schnittprogramms zusammenzuführen. Alternativ ist es möglich, Webspace zum Zwischenspeichern anzumieten.

Texte auf ihre Eignung prüfen

So einfach das klingen mag – ganz so simpel ist der Umgang mit Amazon Polly in der Praxis dann aber doch nicht. Wer in seinen Texten zum Beispiel viel mit Grafiken oder Tabellen arbeitet, sollte sich genau überlegen, ob derartige Texte für eine Hörversion eignet sind. Wer sich dennoch dafür entscheidet, sollte bei der akustischen Umsetzung grafischer Elemente vorab einige textliche Anpassungen vornehmen. So ist es beispielsweise bei der Umwandlung einer Tabelle ratsam, in der Textversion hinter jeder Tabellenzeile eine Leerzeile einzufügen. Sie sorgt dafür, dass Vicki, Marlene und Hans Tabellenzeilen separat vorlesen und nach jeder Zeile eine Pause machen, die beim Hörer das entsprechende semantische Verständnis schafft. Ähnliches gilt für den Umgang mit einer Grafik. Um Grafiken für eine Akustik-Version verständlich darstellen zu können, sind sie im Vorfeld in Textform komplett neu zu erstellen beziehungsweise anschaulich zu umschreiben.

Texte bedarfsgerecht aufbereiten

Es ist außerdem empfehlenswert, kritische Textpassagen vor dem Download aufmerksam anzuhören. Kritisch können unter anderem URLs, Abkürzungen und Eigennamen sein. Auch wenn Vicki, Marlene und Hans etwa Internetadressen verständlich vorlesen und Abkürzungen wie „z. B.“ als „zum Beispiel“ aussprechen, kann man sich nicht darauf verlassen, dass die Übertragung von Text zu Sprache immer wie gewünscht funktioniert. Insbesondere die Versprachlichung von Eigennamen verursacht häufig Probleme. Darum ist es ratsam, einen Eigennamen wie „marconomy“ in der Textversion als „marr konno mi“ zu schreiben – oder „IBM“ als „I B M“.

Texte „menschlicher“ gestalten

Ähnlich verhält es sich, wenn Nutzer einen Beitrag etwas „menschlicher“ gestalten möchten. Amazon Polly unterstützt nämlich sogenannte SSML-Tags. Damit erhält der Anwender deutlich mehr Kontrolle darüber, wie Marlene, Hans oder Vicki gewisse Wörter in einem Artikel betonen. So lassen sich entweder automatisiert oder an vordefinierten Stellen Sprechpausen einfügen, indem Anwender den Tag „auto breath“ hinzufügen. Auf die gleiche Art und Weise können Nutzer auch Pausen ergänzen oder bestimmte Wörter anders aussprechen beziehungsweise betonen lassen. Falls eine Passage im Text geflüstert werden soll, lässt sich auch das mit einem SSML-Tag realisieren.

Aufbereitung verursacht den größten Aufwand

Wer denkt, solch ein Service sei unbezahlbar, der irrt sich gewaltig. Amazon Polly zu nutzen, ist sehr kostengünstig. Ein durchschnittlicher Artikel von drei Seiten mit einer Länge von circa 6.500 Zeichen kostet lediglich 0,03 USD. Umgesetzt in eine Sprachversion, dauert es rund sechseinhalb Minuten, den kompletten Text anzuhören. Generell gilt: Um sich 1.000 Zeichen schriftlichen Text von Vicki, Marlene oder Hans vorlesen zu lassen, müssen Hörer ungefähr eine Minute aufbringen. Den eigentlichen Aufwand verursacht also nicht die Nutzung von Amazon Polly, sondern die oben beschriebene Auf- und Vorbereitung des schriftlichen Textes mit all ihren Tücken und Fallstricken. Sich an einen spezialisierten Content-Experten zu wenden, ist angesichts der komplexen Herausforderung sicherlich eine gute Idee. Wir sind jederzeit für Sie da!

P.S. Falls Sie wissen möchten, wie sich dieser Blogbeitrag als aufbereitete Sprachversion anhört, klicken Sie hier für den mp3-Download.