Aus der Science-Fiction wissen wir, dass alles möglich ist. Von flammenwerfenden Roboterhunden bis hin zum Chatten mit Humanoiden und KI – OpenAI’s ChatGPT versucht, letzteres mit seiner neuen Sprachfunktion Realität werden zu lassen und die Grenze zwischen menschlicher und maschineller Interaktion aufzulösen.
Bietet ChatGPT einen Voice-Chat?
ChatGPT verfügt jetzt über einen Voice-Chat-Modus, mit dem die Benutzer mit dem Assistenten kommunizieren können. Von der Bitte um eine Gute-Nacht-Geschichte bis hin zur Beilegung einer Diskussion am Esstisch kann diese Funktion aus nur Text und einigen Sekunden Sprachprobe menschenähnliche Audiodaten erzeugen.
Ende Juli wurde der neue erweiterte Sprachmodus, das auf der Eröffnungsveranstaltung der GPT 4o am 13. Mai vorgestellt wurde, für eine ausgewählte Anzahl von Nutzern eingeführt, die eine Premium-Mitgliedschaft für ChatGPT Plus erworben hatten. Die Einführung verzögerte sich jedoch, nachdem sich herausstellte, dass die Stimme der Schauspielerin Scarlett Johansson ähnelte.
In “Her” verliebt sich der von Joaquin Phoenix gespielte Theodore in die Sprachassistentin seines Telefons, die von dem Hollywoodstar gesprochen wird.
OpenAI veröffentlichte daraufhin einen Blogeintrag, in dem es hieß, dass „KI-Stimmen nicht absichtlich die unverwechselbare Stimme eines Prominenten imitieren sollten“, und bestritt, dass seine „Sky“-Stimme eine Imitation des weiblichen Talents mit den höchsten Einspielergebnissen aller Zeiten sei. Stattdessen behauptete die KI-Firma, die Stimme gehöre „einer anderen professionellen Schauspielerin, die ihre eigene natürliche Sprechstimme verwendet“.
CEO Sam Altman erklärte am 20. Mai, dass “die Stimme von Sky nicht von Scarlett Johansson stammt und nie beabsichtigt war, ihr zu ähneln”.
„Wir haben die Sprecherin hinter der Stimme von Sky gecastet, bevor wir uns an Frau Johansson gewandt haben. Aus Respekt vor Frau Johansson haben wir die Verwendung der Stimme von Sky in unseren Produkten eingestellt. Wir entschuldigen uns bei Frau Johansson, dass wir nicht besser kommuniziert haben“.
Obwohl OpenAI versuchte, die Ähnlichkeit zwischen seiner Kreation und Johanssons Operator-Charakter in „Her“ zu verbergen, bezog sich Altman bei der Vorstellung des neuen Modells auf den Filmnamen, was Verdacht erregte.
Laut The Verge sagte die OpenAI-Sprecherin Taya Christianson, dass der neue Modus von ChatGPT nur vier voreingestellte Stimmen verwenden wird, die von Synchronsprechern erstellt wurden, und fügte hinzu: „Wir haben es so programmiert, dass ChatGPT nicht die Stimmen anderer Personen imitieren kann, weder von Privatpersonen noch von Personen des öffentlichen Lebens, und dass Ausgaben, die von einer dieser voreingestellten Stimmen abweichen, blockiert werden“.
Laut Christianson wird der neue Modus im Herbst für alle ChatGPT Plus-Benutzer verfügbar sein.
Kann ChatGPT Stimmen generieren?
Eine der wichtigsten neuen Funktionen von ChatGPT ist die Fähigkeit, den Kontext zu verstehen und darauf zu reagieren. Das bedeutet, dass es Voice-over-Inhalte generieren kann, die auf bestimmte Video-Genres, Stile und sogar bestimmte Personen zugeschnitten sind.
Das Modell verwendet Deep-Learning-Techniken, um Texte in natürlicher Sprache zu analysieren und zu produzieren. Im Wesentlichen wird es mit einer großen Menge von Textdaten trainiert und verwendet diese Informationen, um neuen Text zu erzeugen, der der Anfrage ähnelt.
Bei der Erstellung von Voice-Over-Inhalten kann es mit einem Skript oder einer allgemeinen Vorstellung von dem, was benötigt wird, gefüttert werden und ein Voice-Over erzeugen, das einer menschlichen Stimme ähnelt. Es kann auch an eine bestimmte Stimme angepasst werden, um eine noch menschlichere Stimme zu erzeugen.
Laut OpenAI hat das Unternehmen bei der Erstellung der einzelnen Stimmen mit professionellen Synchronsprechern zusammengearbeitet.
Wie aktiviert man die ChatGPT-Stimme?
Um die Sprachausgabe zu starten, gehe in der mobilen App auf „Einstellungen“ > „Neue Funktionen“ und wähle „Sprachkonversationen“. Tippe dann auf die Kopfhörertaste in der oberen rechten Ecke des Startbildschirms und wähle deine Lieblingsstimme aus fünf verschiedenen Stimmen aus.
Die Namen der Stimmen lauten Sky, Juniper, Cove, Ember und Breeze, die alle Variationen mit einem amerikanischen Akzent sind.
Das KI-Unternehmen gab bekannt, dass es Anfang 2023 eine Partnerschaft mit unabhängigen, bekannten und preisgekrönten Casting-Direktoren und Produzenten eingegangen ist. „Wir haben mit ihnen zusammengearbeitet, um eine Reihe von Kriterien für die ChatGPT-Stimmen zu entwickeln, wobei die einzigartige Persönlichkeit jeder Stimme und ihre Attraktivität für ein globales Publikum sorgfältig berücksichtigt wurden“, sagte OpenAI.
Beispiele für die Stimmen sind in einer Geschichte über eine Katze und ihre Kätzchen zu hören.
OpenAI schreibt in seinen FAQs, dass sie daran arbeiten, die Nutzung von Sky aufgrund der anhaltenden Probleme einzustellen.
So erstellt man einen Voiceover mit ChatGPT
Die neue Konversationsfunktion ist derzeit nur in der ChatGPT-App für ChatGPT-Plus-Abonnenten auf iOS und Android verfügbar. Der erste Schritt besteht darin, die App herunterzuladen und auf dem Telefon zu installieren. Nach der Installation kann ein neuer Chat durch Antippen der Schaltfläche „Neuer Chat“ gestartet werden. Sollte die Schaltfläche nicht sichtbar sein, tippe auf die drei horizontalen Linien, auch „Hamburger“-Schaltfläche genannt, um zum Hauptmenü der App zu gelangen.
In einem neuen Chat-Thread muss der Benutzer ChatGPT mit dem zu lesenden Text versorgen. Der Text kann selbst geschrieben, aus vorhandenen Materialien entnommen oder von ChatGPT selbst generiert werden.
Wenn ein externer Text verwendet werden soll, muss dieser in den Chat mit der Anweisung eingefügt werden, dass der Text vorerst unverändert bleiben soll.
Um den Ton aufzuzeichnen, kann der integrierte Screen Recorder von Geräten wie Samsung-Handys verwendet werden. Der spezifische Screen Recorder kann je nach Marke variieren und es gibt auch andere Aufnahme-Apps im Google Play Store, falls die Standard-App nicht ausreicht.
Sobald die Aufnahme gestartet wurde, aktiviere den ChatGPT-Konversationsmodus, indem du auf das Kopfhörersymbol in der oberen rechten Ecke der App tippst. Nun muss der Benutzer ChatGPT anweisen, den bereitgestellten Text wörtlich zu wiederholen. Es ist wichtig, diese Anweisung richtig zu formulieren, da sie in manchen Fällen zu Verwirrung führen kann. Wenn man ChatGPT anweist „Lies den Text, den ich bereitgestellt habe, laut vor“, kann dies zu unterschiedlichen Ergebnissen führen, da ChatGPT nicht erkennt, dass seine Textausgabe in Ton umgewandelt wird.
Nachdem die Aufnahme gespeichert wurde, stehen dem Benutzer verschiedene Optionen zur Verfügung. Die Videodatei kann in ein Videobearbeitungsprogramm importiert werden, wo die Videokomponente entfernt werden kann, während der Audioteil erhalten bleibt.
Welche zusätzlichen Sprachfunktionen bietet ChatGPT?
Der Sprachchat bietet einige besonders praktische Optionen. Um das Gespräch zu unterbrechen, tippe auf das Pause-Symbol. Wenn du das Gespräch unterbrechen musst, während ChatGPT spricht, hast du zwei Möglichkeiten: Tippe auf Pause oder tippe auf das Stopp-Symbol.
Um das Gespräch fortzusetzen, tippe auf das Fortsetzungssymbol und beginne wieder zu sprechen.
Wenn das Gespräch stummgeschaltet ist, kannst du die Stummschaltung aufheben, indem du auf das entsprechende Symbol tippst.
Wenn du die Sprechverbindung beenden möchtest, tippe auf das X-Symbol. Dadurch wird der Sprachmodus beendet und du kehrst zu einem Textgespräch mit ChatGPT zurück.
Ein Voice-Chat kann jederzeit unterbrochen werden und ist zeitlich nicht begrenzt. Du kannst jedoch immer nur an einer Konversation teilnehmen. Die laufende Sprachkonversation bleibt so lange aktiv, bis du eine neue Sprachkonversation beginnst oder zu einer anderen
Sprachkonversation wechselst.
Es gibt keine Lautstärkebegrenzung für Sprachkonversationen als Einstellung in ChatGPT, da diese auf dem Gerät selbst eingestellt wird.
Alle Benutzer, die an Voice-Chats teilnehmen, sehen ein Banner, wenn ihre Voice-Chats beendet sind. Diese Feedback-Umfrage sammelt Informationen über das Nutzererlebnis des Voice-Chats, nicht über das Gespräch oder dessen Inhalt.
Lediglich Plus-Benutzer sehen in diesem Banner die Optionen zum Bewerten mit Daumen hoch/runter.
Sobald ein Voice-Chat begonnen hat, ist er bis zu seinem Ende bedienungsfrei. Es gibt manuelle Steuerelemente, mit denen du das Sprachgespräch anhalten, fortsetzen und beenden kannst.
Ist ChatGPT Voice kostenlos?
Alle ChatGPT-Benutzer haben über die mobile Anwendung Zugang zum Sprachchat, der bereits kostenlos zur Verfügung steht. GPT-4o und GPT-4 können für Sprachchats verwendet werden, allerdings gibt es bei GPT-4 Einschränkungen für Nachrichten in Plus- und Team-Plänen.
In der Zwischenzeit wird erwartet, dass GPT-4o in einigen Wochen für ChatGPT Plus-Benutzer in einer eingeschränkten Alpha-Version zur Verfügung stehen wird. Das Unternehmen kündigt an, dass es in den kommenden Monaten allen ChatGPT Plus-Benutzern zur Verfügung stehen wird.
Abbildung: Canva