Unter den vielen neuen Updates von OpenAI kündigte das Technologieunternehmen hinter ChatGPT die Einführung seiner neuen Funktion für den erweiterten Sprachmodus an, die es Nutzern ermöglicht, natürliche Gespräche mit seinem Chatbot zu führen.
Das Unternehmen wies darauf hin, dass diese Funktion in Ländern der Europäischen Union, einschließlich Island, Liechtenstein, Norwegen, der Schweiz und dem Vereinigten Königreich, noch nicht verfügbar ist.
Sam Altman, Mitbegründer und CEO von OpenAI, schrieb in einem Beitrag auf X: “Ich hoffe, ihr findet, dass sich das Warten gelohnt hat.”
advanced voice mode rollout starts today! (will be completed over the course of the week)
hope you think it was worth the wait 🥺🫶 https://t.co/rEWZzNFERQ
— Sam Altman (@sama) September 24, 2024
Hier alles, was man darüber wissen muss und wie man den erweiterten Sprachmodus in ChatGPT aktiviert.
Was ist der erweiterte Sprachmodus bei ChatGPT?
Der erweiterte Sprachmodus ermöglicht es Benutzern, eine gesprochene Konversation mit ChatGPT zu führen, was bedeutet, dass ihr natürlichere Interaktionen und Unterhaltungen führen könnt. Wenn man eine Frage stellt oder eine Diskussion führt, wird ChatGPT eine gesprochene Antwort geben.
Derzeit gibt es zwei Arten von Sprachkonversationen – Standard und Erweitert.
Advanced Voice is rolling out to all Plus and Team users in the ChatGPT app over the course of the week.
While you’ve been patiently waiting, we’ve added Custom Instructions, Memory, five new voices, and improved accents.
It can also say “Sorry I’m late” in over 50 languages. pic.twitter.com/APOqqhXtDg
— OpenAI (@OpenAI) September 24, 2024
Bereits im letzten Monat haben wir über die Einführung des neuen Standard-Sprachmodus von OpenAI berichtet. Standard-Voice verwendet mehrere große Sprachmodelle (LLMs), um seine Antwort zu generieren, einschließlich der Umwandlung des Gesagten in Text, bevor es zur Beantwortung an die OpenAI-Modelle gesendet wird. Während Standard-Voice im Allgemeinen nicht multimodal wie Advanced-Voice ist, wird bei Standard-Voice-Gesprächen neben GPT-4o mini auch GPT-4o verwendet. Jede Eingabeaufforderung in Standard-Voice zählt für das Nachrichtenlimit.
Der erweiterte Modus unterscheidet sich dadurch, dass er die nativen Audiofunktionen und -eigenschaften von GPT-4o nutzt. OpenAI hofft, dadurch natürlichere Echtzeitgespräche zu ermöglichen, die nonverbale Hinweise wie die Sprechgeschwindigkeit des Benutzers berücksichtigen und emotional reagieren können.
Allerdings ist die Nutzung von Advanced Voice für Plus- und Team-Benutzer limitiert.
Wie kann ich den Sprachmodus in ChatGPT aktivieren?
Im Juli hat OpenAI einen reinen Audiomodus für eine kleine Gruppe von ChatGPT-Plus-Benutzern eingeführt, der im Herbst auf alle Abonnenten ausgeweitet werden soll.
Während Screensharing und Videoübertragung Teil der ersten Demo waren, sind sie derzeit in dieser Alpha-Version nicht verfügbar, und OpenAI hat keinen Zeitplan für ihre Einführung angegeben.
Plus-Abonnenten erhalten eine E-Mail-Benachrichtigung, sobald diese Funktionen für sie verfügbar sind. Nach der Aktivierung können die Benutzer oben in der Anwendung zwischen den Sprachmodi „Standard“ und „Erweitert“ wechseln, wenn sie die Sprachfunktion von ChatGPT verwenden.
Um ein Sprachgespräch zu beginnen, tippe auf das Sprachsymbol in der unteren rechten Ecke des Bildschirms.
Wenn du die erweiterte Sprachfunktion verwendest, siehst du zu Beginn des Gesprächs eine blaue Kugel in der Mitte des Bildschirms. Im Standard-Sprachmodus ist die Kugel schwarz.
Während des Chats kannst du dich selbst stumm schalten oder die Stummschaltung aufheben, indem du auf das Mikrofonsymbol unten links tippst. Wenn du den Chat beenden möchtest, tippe einfach auf das Beenden-Symbol unten rechts.
Wenn du zum ersten Mal einen Sprachchat startest oder die erweiterte Sprachfunktion verwendest, wirst du aufgefordert, eine Stimme auszuwählen. Nur als Warnung: Die Lautstärke in der Auswahl kann etwas von der Lautstärke abweichen, die du im Chat hörst.
In den Einstellungen kannst du deine Stimme jederzeit ändern, und Nutzer des erweiterten Sprachmodus können ihre Stimme sogar direkt über das Einstellungsmenü oben rechts im Chat-Bildschirm anpassen.
Für einen reibungslosen Ablauf musst du sicherstellen, dass du der ChatGPT-Anwendung die Erlaubnis erteilt hast, dein Mikrofon zu verwenden.
Wenn diese Funktion für dich noch nicht verfügbar ist, siehst du ein Kopfhörersymbol anstelle der Stummschalttaste. In beiden Fällen kannst du das Gespräch unterbrechen und so steuern, wie es dir am besten gefällt.
Für wenn ist die ChatGPT-Sprachfunktion verfügbar?
Wenn du dich über die iOS, macOS oder Android App bei ChatGPT anmeldest, hast du bereits Zugriff auf die Standard-Sprachfunktion. Die erweiterte Sprachfunktion ist derzeit jedoch nur für Plus- und Team-Benutzer verfügbar.
Es gibt ein tägliches Limit für die Nutzung der erweiterten Sprachfunktion, das sich mit der Zeit ändern kann. Du wirst jedoch benachrichtigt, wenn du dich dem Limit näherst – beginnend mit einer 15-minütigen Vorwarnung. Sobald du das Limit erreicht hast, wird dein Gespräch automatisch auf Standardsprache umgestellt.
Die erweiterte Sprachfunktion unterstützt noch keine Funktionen wie Bilder, so dass Benutzer ein Gespräch mit erweiterter Sprachfunktion nur mit Text oder Standard-Funktion fortsetzen können und nicht umgekehrt. Gespräche, die mit Standardsprache begonnen wurden, können immer mit Standardsprache oder Text fortgesetzt werden, jedoch nicht mit erweiterter Sprachfunktion. Die erweiterte Sprachfunktion ist auch bei GPTs nicht verfügbar – hier muss auf Standardsprache umgeschaltet werden.
Auch bestimmte barrierefreie Funktionen wurden von OpenAI nicht eingeführt. So sind Untertitel in Sprachchats nicht verfügbar, aber die Transkription wird anschließend in deinem Textchat angezeigt. Außerdem kann nur ein Sprachchat gleichzeitig geführt werden.
Mit der erweiterten Sprachfunktion können Erinnerungen und benutzerdefinierte Anweisungen erstellt und abgerufen werden, genau wie mit der Standard-Sprachfunktion, die ebenfalls über diese Funktionen verfügt.
Ist der ChatGPT-Sprachchat sicher?
Im August gab OpenAI bekannt, dass es einige Sicherheitslücken im Sprachmodus von ChatGPT gibt, versicherte aber, dass daran gearbeitet wird. OpenAI hat einen Bericht über die Sicherheitsfunktionen von GPT-4o veröffentlicht, in dem bekannte Probleme bei der Verwendung des Modells behandelt werden.
Zu den „Sicherheitsherausforderungen“ im Sprachmodus von ChatGPT gehören typische Bedenken wie die Generierung unangemessener Antworten, z.B. erotische oder gewalttätige Inhalte, und voreingenommene Annahmen. OpenAI hat das Modell darauf trainiert, solche Ausgaben zu blockieren, aber der Bericht weist darauf hin, dass nonverbale Geräusche wie erotisches Stöhnen, gewalttätiges Schreien und Schüsse nicht vollständig herausgefiltert werden. Das bedeutet, dass Aufforderungen, die diese sensiblen Geräusche enthalten, immer noch Reaktionen auslösen können.
Eine weitere Herausforderung stellt die sprachliche Kommunikation mit dem Modell dar. Die Tester stellten fest, dass GPT-4o dazu gebracht werden kann, die Stimme einer anderen Person zu imitieren oder versehentlich wie der Benutzer zu klingen. Um dies zu verhindern, lässt OpenAI nur zuvor genehmigte Stimmen zu – nicht jedoch eine Scarlett-Johansson-ähnliche Stimme, die das Unternehmen bereits entfernt hat. Darüber hinaus kann GPT-4o zwar andere Stimmen erkennen, ist aber darauf trainiert, solche Anfragen aus Datenschutzgründen abzulehnen, es sei denn, es handelt sich um ein berühmtes Zitat.
Red-Teamer wiesen auch darauf hin, dass GPT-4o manipuliert werden könnte, um überzeugend zu sprechen, was angesichts der Wirkung des gesprochenen Wortes ein größeres Risiko für die Verbreitung von Fehlinformationen oder Verschwörungstheorien darstellt. Das Modell wurde darauf trainiert, Anfragen nach urheberrechtlich geschützten Inhalten abzulehnen, und verfügt über zusätzliche Filter, um Musik zu blockieren. Es ist auch so programmiert, dass es überhaupt nicht singt. In diesem Beispiel eines X-Benutzers hilft die Stimme jedoch, die Gitarre zu stimmen, indem sie die Note summt.
Advanced Voice in ChatGPT tunes my guitar. pic.twitter.com/1H6mYZTCq7
— Pietro Schirano (@skirano) September 24, 2024
Wie kann ich die Nutzung meines Audios stoppen?
Du kannst die Freigabe von Audio jederzeit stoppen, indem du in deinen ChatGPT-Einstellungen auf die Seite „Datenkontrolle“ gehst. Deaktiviere einfach die Einstellung „Stimme für alle verbessern“.
Wenn du „Stimme für alle verbessern“ nicht in deinen Privatsphäre-Einstellungen siehst, bedeutet das, dass du deine Audiodaten nicht mit OpenAI geteilt hast und sie nicht zum Trainieren von Modellen verwendet werden.
Wenn du die Freigabe beendest, werden Audiodaten aus zukünftigen Sprachchats nicht zum Trainieren von Modellen verwendet. Audioclips, die zuvor von deinem Konto freigegeben wurden, können jedoch weiterhin zum Training von OpenAI-Modellen verwendet werden.
OpenAI weist auch darauf hin, dass, selbst wenn du die Freigabe von Audiodaten deaktivierst, „Transkripte dieser Chats weiterhin zum Training unseres Modells verwendet werden können“, wenn die Einstellung „Modell für alle verbessern“ noch aktiviert ist. Um die Freigabe vollständig zu deaktivieren, deaktiviere „Modell für alle verbessern“.
Audioclips aus deinen erweiterten Sprachchats werden so lange gespeichert, wie der Chat in deinem Chatverlauf verbleibt. Wenn du den Chat löschst, werden auch die Audioclips innerhalb von 30 Tagen gelöscht, es sei denn, sie werden aus Sicherheits- oder rechtlichen Gründen benötigt. Wenn du deine Audioclips mit OpenAI geteilt hast, um Modelle zu trainieren, können diese Clips weiterhin verwendet werden, aber erst nachdem sie von deinem Konto getrennt wurden.
Abbildung: Ideogram / Canva