Werden KI-Stimmen die Schuld daran tragen, dass die nächsten Generationen mit ihren eigenen Gefühlen überfordert und möglicherweise kaum noch zu Empathie fähig sind?
Ich scrollte kürzlich durch die YouTube Shorts und bekam zum zig-tausendsten Mal irgendeine weitere Geschichte vorgespielt. Es war dramatisch. Also, eigentlich. Tatsächlich fühlte ich nichts. Ich konnte dem Opfer in der Geschichte nicht mal das leiseste Mitgefühl entgegen bringen. Und das, wo ich doch losheule, wenn in der Schnulze was halbdramatisches passiert. Also hörte ich mir die YouTube Short Geschichte noch einmal an. (Ja, ich weiß, der Algorithmus denkt jetzt, dass ich diese Art von Geschichten super finde und wird sie mir nun öfter vorspielen. Mist.) Es war eine Reddit Geschichte – oder was ausgedachtes. Auf jeden Fall passierte im Bild nichts, was mit der Geschichte zu tun hatte. Dafür las eine absolut emotionslose KI-Stimme diese dramatische Situation in 2-facher Geschwindigkeit vor.
Kann der Verlust echter emotionaler Signale in KI-Stimmen unsere emotionale Entwicklung beeinflussen?
Schnell ist super, wenn man an Informationen kommen möchte. Und auch Nachrichten werden generell „neutral“ vorgetragen.
Aber so? Die Aufmerksamkeitsspannen von Kindern und Jugendlichen gehen merklich zurück. Kurzvideos sind einfach der heiße 💩. Und auch bei Hörbüchern konnte ich schon KI-Stimmen wahrnehmen.
Also was passiert mit uns und vor allem mit den jüngeren Generationen, wenn KI-Stimmen zur Norm gehören? Denn eins steht fest: Das menschliche Gehör nimmt feinste emotionale Nuancen in Stimmen wahr. Und das hat wiederum Auswirkungen auf unsere eigenen Gefühle und unser Verhalten.
Dabei muss ich daran denken, wie sich in den 2000er Jahren viele Promis mit Botox die Falten von der Stirn gezaubert haben. Besonders bei Schauspielern war dieser Trend beliebt, denn wer ein gewisses Alter erreicht, bekommt in Hollywood keinen Job mehr.
Es hagelte schlechte Witze über Mimik-lose Darsteller und bald kamen Gerüchte auf, dass jene, die selbst nicht mehr in der Lage sind die Stirn zu runzeln auch nicht mehr verstehen können, was in ihrem Gegenüber vorgeht, dass diese Person nun die Stirn runzelt. Oder so.
Da gibt es doch sicherlich eine Studie, die sich mit dem Zusammenhang von Botox und Empathie auseinander gesetzt hat.
Klar doch! Einige relevante Forschungsarbeiten haben gezeigt, dass der Verlust der Gesichtsmimik, wie er durch Botox-Injektionen verursacht wird, Auswirkungen auf das emotionale Erleben und die Fähigkeit, Empathie zu empfinden, haben kann.
Ich gebe hier mal 3 Beispiele und versuche im Anschluss Vergleichspunkte zu finden, die der Diskussion über KI-Stimmen, die nicht zu echten Emotionen fähig sind, dienen können.
1. Gesicht-Feedback-Hypothese
Die sogenannte Facial Feedback Hypothesis besagt, dass unsere Mimik nicht nur Ausdruck unserer Emotionen ist, sondern auch unsere eigenen Gefühle verstärkt oder abschwächt. Wenn die Gesichtsmuskeln durch Botox-Injektionen teilweise gelähmt werden, ist es schwieriger, emotionale Ausdrücke wie Lächeln oder Stirnrunzeln zu zeigen – und das beeinträchtigt nicht nur, wie wir wahrgenommen werden, sondern auch, wie wir selbst Emotionen empfinden.
Eine Studie der Psychologin Paula Niedenthal hat gezeigt, dass Menschen, deren Mimik durch Botox eingeschränkt ist, weniger in der Lage sind, emotionale Gesichtsausdrücke anderer richtig zu interpretieren. Das hängt damit zusammen, dass die unbewusste Nachahmung der Mimik anderer Menschen eine wichtige Rolle im empathischen Erleben spielt.1
2. Botox und Emotionserkennung
Eine weitere Studie von David Neal und Tanya Chartrand fand heraus, dass Probanden, die Botox erhalten hatten, weniger in der Lage waren, die Emotionen anderer zu erkennen. Sie konnten emotionale Gesichtsausdrücke von anderen schlechter nachahmen, was die Fähigkeit zur emotionalen Resonanz – und somit zur Empathie – beeinträchtigte. Dies zeigt, dass der Verlust von Mimik die zwischenmenschliche Kommunikation und das verstehen emotionaler Signale erheblich beeinflusste.2
3. Einschränkung der Empathie
Die Lähmung bestimmter Gesichtsmuskeln durch Botox verändert nicht nur die Art, wie Menschen andere Emotionen erkennen, sondern beeinflusst auch ihre eigene emotionale Wahrnehmung. Menschen mit Botox haben berichtet, dass sie Emotionen weniger intensiv fühlen. Es gibt Hinweise darauf, dass, wenn die körperliche Fähigkeit fehlt, Emotionen nonverbal auszudrücken, dies auch das eigenen emotionale Erleben beeinträchtigt.3
Was hat Botox mit KI-Stimmen zu tun?
Wir Menschen sind komplexe Wesen. Während diese Forschungen zum Botox-Trend verdeutlicht haben, wie tief die Verbindung zwischen körperlichem Ausdruck und emotionaler Wahrnehmung ist, stelle ich mir die Frage:
Können auch bei KI-Stimmen ähnliche Effekte auftreten, wenn emotionale Signale fehlen oder nur unzureichend nachgeahmt werden?
Wie schnell merken wir, dass es einem geliebten Menschen nicht gut geht, nur weil sich durch die körperliche Anspannung die Stimme verändert. Sogar mein Gesprächspartner am Telefon kann ganz genau hören, ob ich gerade lächele oder nicht. Auch der berühmte „Kloß im Hals“ entsteht durch ungewollte Anspannung im Sprechapparat. Es sind nur ganz subtile Hinweise, ohne die es schwierig werden kann, emotionale Verbindungen (bewusst oder unbewusst) herzustellen. Wenn KI-Stimmen diese subtilen Hinweise nicht vermitteln, könnten wir langfristig emotionale Verbindungen verlieren. Insbesondere bei Kindern, die ihre Fähigkeit zur Empathie noch entwickeln.
Was sind KI-Stimmen und wo finden wir sie?
Die Technologie hinter KI-Stimmen:
KI-Stimmen arbeiten mit Text-to-Speech-Systemen (TTS), die Sprache anhand von großen Datenmengen menschlicher Stimmen nachbilden. Durch neuronale Netze lernen sie, Sprache so zu gestalten, dass sie wie echte Stimmen klingt – in Tonhöhe, Pausen und Betonungen. Ein Beispiel dafür ist Google WaveNet, das besonders natürlich wirkende Sätze erzeugen kann.
Synthetische Emotionen:
KI-Stimmen versuchen durchaus Emotionen zu simulieren. Sie passen den Klang der Stimme an, z.B. in dem sie höhere Tonlagen für Freude oder tiefere Tonlagen für Traurigkeit verwenden. Doch sie können keine echten Gefühle nachahmen, weil ihnen die subtilen menschlichen Schwingungen fehlen.
Limitationen von KI-Stimmen
Menschliche Stimmen transportieren emotionale Nuancen durch minimale Variationen in Rhythmus, Lautstärke, Pausen und Atemzügen. Auch Körperhaltung und Körperspannung haben Einfluss auf unseren Sprechapparat und somit auf den Klang der Stimme. Diese subtilen Hinweise sind entscheidend für das Verstehen von Emotionen und den Aufbau von Empathie.
KI-Stimmen neigen dazu, in einer linearen, berechenbaren Weise zu sprechen. Selbst mit fortschrittlicher Sprachsynthese bleiben Emotionen oft mechanisch und flach, was zu einem Mangel an echter emotionaler Verbindung frühen kann. Diese künstliche Kommunikation, insbesondere in sensiblen Kontexten wie Kindererziehung, bietet keine echte emotionale Tiefe.
Wo finden KI-Stimmen eigentlich Anwendung?
Sprachassistenzsysteme wie Siri, Alexa und Google Assistant sind allgegenwärtig in Haushalten und im Alltag von Kindern. Und obwohl diese Assistenten auf Sprachbefehle reagieren und immer besser darin werden, menschliche Stimmen zu imitieren, fehlt ihnen doch die Fähigkeit, tiefere emotionale Verbindungen herzustellen.
Auch in der Kindererziehung sind KI-Stimmen weiter verbreitet, als sich so mancher bewusst ist. Einige KI-basierten Lernapps oder sprechende Spielzeuge verwenden synthetische Stimmen um Kindern Geschichten vorzulesen oder sie durch Lernprozesse zu führen. (Der brummende Bär oder die „Mama“-sagende Puppe sind einen langen Weg gegangen!)
Studien zeigen, dass Kinder auf menschliche Stimmen emotionaler reagieren als auf künstliche. Aber auf Studien zu der Beziehung zwischen KI-Stimmen und Empathie komme ich gleich nochmal zurück. Jetzt sammele ich erstmal Anwendungsbeispiele für KI-Stimmen:
- Sprachassistenten und Smart Speaker wie AmazonAlexa, AppleSiri und Goolge Assistant nutzen KI-Stimmen, um Befehle auszuführen, Informationen bereit zu stellen oder Geräte zu steuern.
- Navigation und Mobilitätshilfen: GPS-Systeme und Apps wie Google Maps oder Apple Maps nutzen mittlerweile auch KI-Stimmen. Während in der Vergangenheit oft menschliche Sprecher (z.B. Nadine Zaddam) die Texte eingesprochen haben, nutzen einige Systeme heute teils KI-basierte Text-to-Speech-Technologien, um Sprachansagen flexibler zu machen und dynamische Informationen, wie Verkehrslagen, in Echtzeit anzupassen.
- Barrierefreiheit: KI-Stimmen in Screenreadern wie JAWS oder VoiceOver ermöglichen es sehbehinderten Menschen, auf digitale Inhalte zuzugreifen.
- Kundenservice: Telefonbots und Chatbots in Callcentern verwenden KI-Stimmen, um Kundenfragen zu beantworten und Dienstleistungen anzubieten. (Bist du auch immer so Glücklich, wenn du irgendwo anrufst und keine Chance hast mit einem echten Menschen zu sprechen?)
- Medizinische Geräte: Sprachsynthese in Gesundheitsgeräten unterstützt Patienten, indem sie Anweisungen oder Gesundheitsinformationen vorliest.
- Automatisierte Ansagen: In öffentlichen Verkehrsmitteln und Flughäfen werden zunehmend KI-Stimmen zur Durchsage von Informationen verwendet.
- Videospiel-Charaktere: KI-Stimmen werden mittlerweile auch in Computerspielen genutzt, um NPCs (Nicht-Spieler-Charaktere) authentisch sprechen zu lassen.
- Virtuelle Lehrer: In Lern-Apps oder E-Learning-Plattformen werden KI-Stimmen verwendet, um Lektionen zu unterrichten oder Feedback zu geben. Übrigens sehr zum Leidwesen derer, die die Lektionen durch arbeiten müssen. Auch hier ist der Unterschied zu professionellen Sprechern immer noch sehr deutlich!
- Film- und TV-Synchronisation: KI-Stimmen können für die Nachvertonung von Filmen und Serien verwendet werden. Die Betonung liegt definitiv auf „können“ und nicht „sollten“. Gerade in Filmen und Serien sind echte Emotionen relevant.
- Telefonbetrugserkennung: Finanzinstitutionen setzen KI-Stimmen ein um verdächtige Anrufe zu analysieren und zu blockieren.
- Werbung und Marketing: KI-Stimmen finden Anwendung in Werbeclips und Voiceovers in Marketingkampagnen. (Nicht in meinen! Ich möchte das an dieser Stelle nur mal Klarstellen. Sowohl als Marketing Managerin als auch als Sprecherin lege ich großen Wert auf menschliche Stimmen. Auch wenn es Situationen gibt, in denen ich die Wahl der KI-Stimme durchaus nachvollziehen kann.)
- Persönliche Assistenten für Menschen: KI Stimmen helfen bei der Erinnerung an Medikamente, Terminplanungen oder beim Abrufen von Informationen. (z.B. erinnert mich mein Handywecker an meine Medikamente, oder wann ich besser zum Auto gehen und los fahren sollte – sehr praktisch)
- Audioproduktion: Plattformen nutzen KI-Stimmen, um Hörbücher oder Podcasts zu erstellen, oft in mehreren Sprachen. Ich hatte leider schon das Pech über ein solches Hörbuch zu stolpern. Mir fällt es da echt schwer der Handlung zu folgen. Da fehlt halt noch das gewisse Etwas… ach ja, die echten Emotionen, die die AutorIn ja ursprünglich im Leser Wecken wollte und die die Geschichte tragen.
- Automatisierte Interviews: In der journalistischen und wissenschaftlichen Forschung können KI-Stimmen eingesetzt werden, um standardisierte Fragen zu stellen. Halte dich fest, es wird noch besser: Es können sogar echte Stimmen imitiert werden. Dadurch wird es wirklich schwer zu erkennen, ob die interviewte Person tatsächlich geantwortet hat.
- Kreative Anwendungen: KI-Stimmen helfen bei der Erzeugung von Stimmaufnahmen für künstlerische Projekte, z.B. in der Musikproduktion.
- und mit Sicherheit gibt es noch weitere Anwendungsgebiete. Wenn dir eines einfällt, schreib es mir doch bitte in die Kommentare.
Forschung zum Thema KI-Stimme und Emotionen: KI-generierte Stimmen und ihre emotionale Authentizität
Es gibt tatsächlich bereits einige Studien und Forschungen, die sich mit der Beziehung zwischen Stimme und Emotionen sowie mit KI-Stimmen und deren emotionaler Wirkung befassen. Diese Untersuchungen befassen sich jedoch meist mit der Wahrnehmung von Emotionen in synthetischen Stimmen, dem emotionalen Design von Sprachassistenten oder kognitiven Reaktionen auf künstliche Stimmen im Vergleich zu menschlichen. Werfen wir doch mal einen Blick darauf:
Emotionserkennung in Stimmen
Menschen sind sehr gut darin, Emotionen durch Stimme zu erkennen. Studien haben bereits 2003 gezeigt, dass subtile Unterschiede in der Tonhöhe, Lautstärke, Geschwindigkeit und Modulation der Stimme entscheidend sind, um emotionale Zustände wie Freude, Trauer, Wut oder Angst zu kommunizieren und wahrzunehmen.4
Emotionale Reaktionen auf synthetische Stimmen
Bereits 2005 konnten Forschungen zu Sprachassistenten wie Siri oder Alexa zeigen, dass Menschen Schwierigkeiten haben, emotionale Nuancen in synthetischen Stimmen zu erkennen. Diese Technologien sind darauf programmiert, Informationen effizient zu übermitteln. Jedoch fehlen ihnen oft die emotionalen Nuancen, die in menschlichen Interaktionen so wichtig sind.5
Gut, seit 2005 haben KI-Stimmen einen enormen Fortschritt gemacht. Die nächste Studie ist etwas aktueller:
Die Wirkung von KI-Stimmen auf Emotionen
In 2019 untersuchten Schroeder & Epley, wie Menschen auf emotionale KI-Stimmen im Vergleich zu neutralen reagieren. Sie zeigte, dass emotional gefärbte KI-Stimmen zu einer stärkeren emotionalen Reaktion führten als neutrale. Allerdings blieben sie immer noch weit hinter den Reaktionen auf menschliche Stimmen zurück.6
Ich fasse mal zusammen:
Obwohl KI-Stimmen technologisch sehr beeindruckend sind und synthetische Emotionen nachahmen können, fehlen ihnen die tiefen emotionalen Signale, die für Empathie und menschliche Bindung entscheidend sind. Gleichzeitig berichten Menschen, dass sie nach Botoxbehandlungen ihre eigenen Emotionen nicht mehr so gut wahrnehmen können und Forschungen zeigen, dass Menschen nach Botoxbehandlungen die Emotionen anderer auch nicht mehr so gut war nehmen können. Ich selbst habe festgestellt, dass bei synthetisch vorgetragenen Geschichten in mir kein Mitgefühl mit Protagonisten aufkommt.
Welche Schlüsse lassen sich daraus ziehen, was die emotionale Entwicklung von Kindern betrifft, die nun mit KI-Stimmen aufwachsen?
Auswirkungen auf die emotionale Entwicklung von Kindern
Kinder entwickeln ihre emotionale Intelligenz durch menschliche Interaktion, insbesondere durch das Beobachten von Gesichtsausdrücken, Körpersprache und Stimme. (Sie wissen daher oft auch besser als wir selbst, wie ernstgemeint eine Aufforderung oder ein Verbot ist) Sie sind sensibel für subtile Hinweise, wie Tonfall oder die Art und Weise, wie Worte betont werden. Diese nonverbalen Signale sind entscheidend, um zu lernen, wie Emotionen funktionieren und wie man empathisch auf andere reagiert.
Szenarien: KI-Stimmen in Lernapps und Spielzeug
Mit der zunehmenden Verbreitung von KI-Stimmen in Lernapps und interaktiven Spielzeugen, aber mehr noch in Synchronisationen, Hörbüchern und Hörspielen, stelle ich mir die Frage: Wie sehr beeinflusst diese Technologie die emotionale Entwicklung von Kindern?
Wenn ich mir jetzt weiter vorstelle, dass ein Kind regelmäßig Geschichten von einer KI-Stimme vorgelesen bekommt und dass Kindgerechte Serien und Hörspiele auch durch KI-Stimmen vertont werden, wie sollen die Kinder lernen ihre Gefühle zuzuordnen, einzuordnen und Mitgefühl für die Protagonisten und Situationen zu entwickeln?
Auch wenn die KI-Stimme informativ ist, wenn ihr die natürlichen emotionalen Nuancen fehlen, die für die zwischenmenschliche Verbindung entscheidend sind und Kinder vermehrt auf Erzählungen durch KI-Anwendungen „angewiesen“ sind, könnte es für Kinder schwierig sein, Empathie zu entwickeln oder emotionale Signale richtig zu interpretieren.
Im Vergleich dazu zeigt die Forschung, dass Kinder in der Interaktion mit menschlichen Gesprächspartnern nicht nur auf Worte, sondern auch auf Mimik und Körpersprache reagieren. Diese nonverbalen Signale helfen ihnen, die Welt der Emotionen zu verstehen und Angemessen darauf zu reagieren.
Bezug zu Studien über menschliche Interaktion und emotionale Entwicklung
Der Entwicklungspsychologe Lev Vygotsky betonte, dass Kinder durch soziale Interaktionen lernen, ihre emotionalen und Kognitiven Fähigkeiten zu entwickeln. 7
Die Harvard-Studie zur frühkindlichen Entwicklung weist beispielsweise darauf hin, dass Kinder, die in einem anregenden sozialen Umfeld aufwachsen und von Eltern und Lehrern emotionale Unterstützung erhalten, stärker in der Lage sind, Emotionen bei anderen zu erkennen und zu verstehen.8 Dies geschieht durch regelmäßigen Austausch und nonverbale Kommunikation, die durch KI-Stimmen schwer zu ersetzen sind.
Gefahren, die sich aus übermäßigem Einsatz von KI-Stimmen auf die emotionale Entwicklung ergeben können
Eine KI-Stimme, die Informationen neutral und emotionslos vermittelt, könnte Kinder daran hindern, wichtige Lektionen über Empathie und emotionale Intelligenz zu lernen.
Und damit meine ich nicht „neutrale Sachverhalte“ sondern in erster Linie alles, was ursprünglich dazu gemacht war, Gefühle zu erfahren und erleben. Geschichten, Märchen, Hörspiele, Filme, Serien, Computerspiele, etc.
Außerdem könnten Kinder, die mit KI-Stimmen aufwachsen, es schwieriger finden, in sozialen Situationen angemessen zu reagieren, da sie weniger Erfahrungen mit echten emotionalen Interaktionen gemacht haben. Das langfristige Ergebnis könnte eine verringerte emotionale Kompetenz und ein eingeschränkteres Verständnis der emotionalen Bedürfnisse anderer sein.
Die Zukunft der Mensch-KI-Kommunikation – Wie können wir Emotionen erhalten?
Es gibt Ansätze zur emotional authentischen KI-Stimme
Forscher arbeiten an Technologien, die Emotionen besser nachahmen können um die KI-Stimmen emotionaler zu gestalten. Ein anscheinend vielversprechender Ansatz ist die Prosodische Modellierung, bei der Tonhöhe, Lautstärke und Rhythmus gezielt angepasst werden, um Emotionen wie Freude, Trauer oder Wut realistischer klingen zu lassen.
Auch Deep Learning-Modelle wie WaveNet verbessern kontinuierlich die Fähigkeit von KI-Stimmen, die menschlichen Intonationen nachzubilden.
Eine weitere Möglichkeit ist die Integration von affektiven KI-Systemen, die auf die emotionale Reaktion des Gesprächspartners reagieren und ihre eigene Ausdrucksweise entsprechend anpassen.
Einige Forscher experimentieren zudem mit der „affektiven Computerisierung“, bei der KI-Systeme Emotionen in Echtzeit erkennen und entsprechend darauf reagieren können. Diese Technologien können in Zukunft dazu beitragen, dass KI-Stimmen nicht nur emotionaler, sondern auch empathischer wirken. 9
Ethische Bedenken und Verantwortung der Entwickler
Während die technischen Fortschritte vielversprechend sind und durchaus glamourös gefeiert werden, sollten die erheblichen ethischen Bedenken nicht unter den Teppich gekehrt werden.
Eine der Hauptfragen ist, wie weit wir in der Nachahmung menschlicher Emotionen gehen sollten. Ein KI-System, das in der Lage ist, überzeugende emotionale Antworten zu erzeugen, könnte das Vertrauen der Benutzer gewinnen. Aber was passiert, wenn diese Emotionen nicht echt sind? Es besteht die Gefahr, dass Menschen anfangen zu stark auf KI-Interaktionen zu vertrauen. Was besonders für Kinder problematisch sein könnte, die echte emotionale Bindungen und menschliche Interaktion benötigen um soziale Fähigkeiten und Empathie zu entwickeln.
Ein weiteres ethisches Dilemma ist die Frage nach Transparenz. Nutzer sollten wissen, ob sie mit einer echten Person oder einer KI-Stimme sprechen. Entwickler tragen hier eine Verantwortung, die Grenzen klar zu ziehen und die Technologie nicht zu missbrauchen, indem sie künstliche Bindungen schaffen, die auf Illusionen basieren.
Auch Anwender von AI Tools sind in der Lage, durch KI-Generierte Bilder und Audios, gesellschaftlich relevante Themen, der eigenen Meinung entsprechend, einem großen Publikum als Fakten zu verkaufen. Was in manch einem Video, auf sozialen Medien lustig gestaltet ist (Ein Elefantenbaby, das so groß ist, wie ein Daumen) kann schnell die politische Stimmung kippen (z.B. wenn einem Prominenten oder Politiker neue Worte in den Mund gelegt werden und das Video den Anschein macht, dass es „echt“ ist). Manipulationen dieser Art bergen die Gefahr von Vertrauensverlust und zeigen die Relevanz für mehr Bildung im Bereich Medienkompetenz.
Der ausgewogene Umgang mit Technologie und menschlicher Interaktion
Besonders im Umgang mit Kindern muss ein Gleichgewicht gefunden werden. KI-Stimmen können als Werkzeug zur Unterstützung beim Lernen oder zur Unterhaltung sparsam eingesetzt werden, dürfen aber nicht die menschliche Interaktion ersetzen. Emotionale Intelligenz, Empathie und soziale Fähigkeiten werden am besten durch zwischenmenschlichen Kontakt entwickelt. Daher ist es wichtig, dass Eltern und Erzieher sicherstellen, dass die Technologie nur als Ergänzung und nicht als Ersatz für echte menschliche Kommunikation verwendet wird.
Die Zukunft der Mensch-KI-Kommunikation könnte faszinierend und wertvoll sein, wenn sie sorgfältig gestaltet wird. KI im allgemeinen kann Zeit- und Geldersparnis bringen, doch im Gegenzug auch Arbeitsplätze und Qualität kosten. Daher sind nicht nur Entwickler, sondern auch Anwender in der Verantwortung sich nicht nur über die Errungenschaften zu freuen, sondern sich auch über die Gefahren und Risiken klar zu werden und damit auseinander zu setzen.
Die Entwicklungen müssen mit Vorsicht betrachtet und mit einem starken ethischen Rahmen begleitet werden, um sicherzustellen, dass Technologie das menschliche Miteinander unterstützt, anstatt es zu ersetzen.
Pro und Contra für die Wirtschaft und Auswirkungen auf die Sprecher-Branche
Als Sprecherin ist es mir natürlich schon aus beruflichen Gründen ein Herzensanliegen, auch einen Blick auf die Auswirkungen zu werfen, die KI-Stimmen auf die Sprecher-Branche haben. Unter Kollegen wird viel diskutiert. Jene, die schon länger im Business sind, sind in der Regel entspannter, aber auch sie merken die Existenz von KI-Stimmen in der Auftragslage.
Ich denke, dass KI-Stimmen genau so wenig verschwinden werden, wie eBooks. Aber echte Sprecher werden, wie Papier-Bücher, ebenfalls nicht vollständig ersetzt werden. Möglicherweise ist die Konkurrenz mit der KI-Stimme ja gut, um SprecherInnen zu noch mehr Qualität zu motivieren. Zumindest diejenigen, die in den Beruf erst einsteigen. Wir werden sehen…
Wo liegen jetzt also die Pro und Contra Argumente aus wirtschaftlicher Sicht? Und welche möglichen Auswirkungen ergeben sich denn jetzt auf die Sprecher-Branche?
Pro:
- Kostenersparnis: Unternehmen können von günstigeren KI-Stimmen profitieren, da sie weniger kostenintensiv sind als menschliche Sprecher. Außerdem sind sie rund um die Uhr verfügbar, und versprechen sich nicht.
- Skalierbarkeit: KI-Stimmen können in verschiedenen Sprachen und für unterschiedliche Zielgruppen schnell angepasst werden, was globalen Unternehmen Flexibilität bietet.
- Innovation: Neue Technologien, wie personalisierte KI-Stimmen, eröffnen Möglichkeiten für individuelle Kundenerlebnisse.
Contra:
- Jobverlust: Menschliche Sprecher, vor allem im Bereich Werbung, Hörbücher und Voiceover, verlieren zunehmend Aufträge an KI-Systeme. Dabei sehe ich dies besonders bei Hörbüchern kritisch. ( Aber vielleicht bin ich da auch total voreingenommen, da mein sprecherisches Hauptaugenmerk auf Hörbüchern liegt.)
- Qualitätsverlust: Obwohl KI-Stimmen immer besser werden, erreichen sie nicht das emotionale und subtile Spektrum menschlicher Stimmen, was in Bereichen wie Synchronisation, Hörbuch oder Werbung wichtig ist. Der menschliche Sprechapparat ist so komplex, dass ich mir nicht vorstellen kann (und möchte), dass das durch KI ersetzt werden kann.
- Ethische Fragen: Das unerlaubte Verwenden menschlicher Stimmen zur KI-Schulung stellt ein ethisches Problem dar, insbesondere, wenn Sprecher keine Zustimmung geben oder nicht angemessen entlohnt werden. Wir haben schließlich nicht nur ein Recht am eigenen Bild, sondern auch an der eigenen Stimme. Rechtlich mögen wir uns hier vielleicht noch in einem Graubereich aufhalten. Aber je mehr Menschen sich dessen Bewusst sind, desto schneller können klare Grenzen festgelegt werden.
- Kindliche emotionale Entwicklung: Wie wir in diesem Artikel schon ausführlich diskutiert haben, sind echte Emotionen essentiell für die emotionale Entwicklung von Kindern. Wir wollen doch schließlich keine Welt voller kleiner Roboter. Oder? ODER?
Ein ausgewogener Umgang mit KI und menschlichen Sprechern könnte den Nutzen der Technologie erweitern, ohne das kreative Potenzial von Menschen zu verdrängen.
Fazit
Der Verlust von Gesichtsmimik beeinflusst das Erleben der eigenen Gefühle und das Erkennen von Emotionen in anderen.
Kinder reagieren auf echte menschliche Stimmen besser, als auf emotional programmierte KI-Stimmen.
Sowohl Entwickler, als auch Anwender tragen die ethische Verantwortung dafür, dass Menschen im Allgemeinen und Kinder im Besonderen, emotional nicht abstumpfen. Denn KI-Stimmen beeinflussen unsere Fähigkeit zur Empathie und die ist wiederum notwendig für ein Harmonisches Miteinander.
Wirtschaftlich ist auf den ersten Blick eine KI-Stimme kostengünstiger als ein menschlicher Sprecher, doch irgendjemand muss dem Computer so lange Input geben, bis das Ergebnis zufriedenstellend ist. Und auch das verursacht Kosten.
Und die Moral von der Geschicht‘?
- Echte SprecherInnen haben große Relevanz für emotionale Dinge! Hier bitte keine KI-Stimme verwenden.
- Buche lieber mich! Beispiele gefällig? Schau‘ gerne hier vorbei: klick
- Wenn du mich als Sprecherin buchen möchtest, kannst du hier Kontakt zu mir aufnehmen
- Wenn du in meiner Liste mit über 600 Gefühlen und Emotionen schmökern möchtest klick mal hier.
Quellen:
- (Niedenthal, P. M. (2007). Embodying Emotion. Science, 316(5827), 1002–1005.) ↩︎
- (Neal, D. T., & Chartrand, T. L. (2011). Embodied emotion perception: Amplifying and dampening facial feedback modulates emotion perception accuracy. Social Psychological and Personality Science, 2(6), 673-678.) ↩︎
- Hennenlotter, A., Dresel, C., Castrop, F., Ceballos-Baumann, A. O., Wohlschläger, A. M., & Haslinger, B. (2009). The link between facial feedback and neural activity within central circuits of emotion—New insights from botulinum toxin–induced denervation of frown muscles. Cerebral Cortex, 19(3), 537-542. ↩︎
- Scherer, K. R. (2003). Vocal communication of emotion: A review of research paradigms. Speech Communication, 40(1-2), 227-256. ↩︎
- Nass, C., & Brave, S. (2005). Wired for Speech: How Voice Activates and Advances the Human-Computer Relationship. MIT Press. ↩︎
- Schroeder, J., & Epley, N. (2019). The human voice in people’s minds: Imaginary conversations evoke affective responses. Journal of Experimental Social Psychology, 84, 103834. ↩︎
- Diese Theorie ist Teil seiner sozio-kulturellen Lerntheorie. Mehr dazu findest du in vielen entwicklungspsychologischen Texten, z. B. in „Mind in Society: The Development of Higher Psychological Processes“. ↩︎
- Harvard-Studie zur frühkindlichen Entwicklung – Diese Studie hebt die Bedeutung von emotionaler Unterstützung durch Bezugspersonen hervor. Informationen dazu findest du auf der Harvard Center on the Developing Child Website. ↩︎
- Quellen zu diesen Entwicklungen findest du unter anderem in Werken von Rosalind Picard, wie ihrem Buch „Affective Computing“ und auf Seiten des MIT Media Labs. ↩︎
Schöner Artikel, gut aufgebaut und doch nicht zu lang. Merci. Unser Ansatz für die Videoproduktion ist, dass wir vermehrt Sprecher auch als Komparsen anfragen um Kostenersparnis durch „Doppelpack“ aber doch eine echte Stimme zu vereinen.
Ganz herzlichen Dank für das Lob!
Eine schöne Idee um sinnvoll Kosten einzusparen.