Home So lässt sich der erweiterte Sprachmodus in ChatGPT aktivieren – Anleitung

So lässt sich der erweiterte Sprachmodus in ChatGPT aktivieren – Anleitung

Highlights

  • OpenAI hat einen erweiterten Sprachmodus für ChatGPT eingeführt, der natürlichere Echtzeitgespräche mit der KI ermöglicht.
  • Diese Funktion ist nur für Plus- und Team-Benutzer verfügbar, jedoch noch nicht in der EU, Großbritannien und bestimmten Ländern wie Island, Norwegen und der Schweiz.
  • Die erweiterte Sprachfunktion nutzt die nativen Audiofunktionen von GPT-4o und reagiert mit Emotionen und Echtzeit-Anpassungsfähigkeit.

Unter den vielen neuen Updates von OpenAI kündigte das Technologieunternehmen hinter ChatGPT die Einführung seiner neuen Funktion für den erweiterten Sprachmodus an, die es Nutzern ermöglicht, natürliche Gespräche mit seinem Chatbot zu führen.

Das Unternehmen wies darauf hin, dass diese Funktion in Ländern der Europäischen Union, einschließlich Island, Liechtenstein, Norwegen, der Schweiz und dem Vereinigten Königreich, noch nicht verfügbar ist.

Sam Altman, Mitbegründer und CEO von OpenAI, schrieb in einem Beitrag auf X: “Ich hoffe, ihr findet, dass sich das Warten gelohnt hat.”

Hier alles, was man darüber wissen muss und wie man den erweiterten Sprachmodus in ChatGPT aktiviert.

Was ist der erweiterte Sprachmodus bei ChatGPT?

Der erweiterte Sprachmodus ermöglicht es Benutzern, eine gesprochene Konversation mit ChatGPT zu führen, was bedeutet, dass ihr natürlichere Interaktionen und Unterhaltungen führen könnt. Wenn man eine Frage stellt oder eine Diskussion führt, wird ChatGPT eine gesprochene Antwort geben.

Derzeit gibt es zwei Arten von Sprachkonversationen – Standard und Erweitert.

Bereits im letzten Monat haben wir über die Einführung des neuen Standard-Sprachmodus von OpenAI berichtet. Standard-Voice verwendet mehrere große Sprachmodelle (LLMs), um seine Antwort zu generieren, einschließlich der Umwandlung des Gesagten in Text, bevor es zur Beantwortung an die OpenAI-Modelle gesendet wird. Während Standard-Voice im Allgemeinen nicht multimodal wie Advanced-Voice ist, wird bei Standard-Voice-Gesprächen neben GPT-4o mini auch GPT-4o verwendet. Jede Eingabeaufforderung in Standard-Voice zählt für das Nachrichtenlimit.

Der erweiterte Modus unterscheidet sich dadurch, dass er die nativen Audiofunktionen und -eigenschaften von GPT-4o nutzt. OpenAI hofft, dadurch natürlichere Echtzeitgespräche zu ermöglichen, die nonverbale Hinweise wie die Sprechgeschwindigkeit des Benutzers berücksichtigen und emotional reagieren können.

Allerdings ist die Nutzung von Advanced Voice für Plus- und Team-Benutzer limitiert.

Wie kann ich den Sprachmodus in ChatGPT aktivieren?

Im Juli hat OpenAI einen reinen Audiomodus für eine kleine Gruppe von ChatGPT-Plus-Benutzern eingeführt, der im Herbst auf alle Abonnenten ausgeweitet werden soll.

Während Screensharing und Videoübertragung Teil der ersten Demo waren, sind sie derzeit in dieser Alpha-Version nicht verfügbar, und OpenAI hat keinen Zeitplan für ihre Einführung angegeben.

Plus-Abonnenten erhalten eine E-Mail-Benachrichtigung, sobald diese Funktionen für sie verfügbar sind. Nach der Aktivierung können die Benutzer oben in der Anwendung zwischen den Sprachmodi „Standard“ und „Erweitert“ wechseln, wenn sie die Sprachfunktion von ChatGPT verwenden.

Um ein Sprachgespräch zu beginnen, tippe auf das Sprachsymbol in der unteren rechten Ecke des Bildschirms.

Wenn du die erweiterte Sprachfunktion verwendest, siehst du zu Beginn des Gesprächs eine blaue Kugel in der Mitte des Bildschirms. Im Standard-Sprachmodus ist die Kugel schwarz.

Der neue erweiterte Sprachmodus von OpenAI für ChatGPT wird durch eine blaue Kugel angezeigt. Bildnachweis: OpenAI

Während des Chats kannst du dich selbst stumm schalten oder die Stummschaltung aufheben, indem du auf das Mikrofonsymbol unten links tippst. Wenn du den Chat beenden möchtest, tippe einfach auf das Beenden-Symbol unten rechts.

Wenn du zum ersten Mal einen Sprachchat startest oder die erweiterte Sprachfunktion verwendest, wirst du aufgefordert, eine Stimme auszuwählen. Nur als Warnung: Die Lautstärke in der Auswahl kann etwas von der Lautstärke abweichen, die du im Chat hörst.

Die erweiterte Sprachfunktion wird derzeit für einige Plus-Benutzer eingeführt. Bildquelle: Suswati Basu für ReadWrite

In den Einstellungen kannst du deine Stimme jederzeit ändern, und Nutzer des erweiterten Sprachmodus können ihre Stimme sogar direkt über das Einstellungsmenü oben rechts im Chat-Bildschirm anpassen.

Für einen reibungslosen Ablauf musst du sicherstellen, dass du der ChatGPT-Anwendung die Erlaubnis erteilt hast, dein Mikrofon zu verwenden.

Wenn diese Funktion für dich noch nicht verfügbar ist, siehst du ein Kopfhörersymbol anstelle der Stummschalttaste. In beiden Fällen kannst du das Gespräch unterbrechen und so steuern, wie es dir am besten gefällt.

Für wenn ist die ChatGPT-Sprachfunktion verfügbar?

Wenn du dich über die iOS, macOS oder Android App bei ChatGPT anmeldest, hast du bereits Zugriff auf die Standard-Sprachfunktion. Die erweiterte Sprachfunktion ist derzeit jedoch nur für Plus- und Team-Benutzer verfügbar.

Es gibt ein tägliches Limit für die Nutzung der erweiterten Sprachfunktion, das sich mit der Zeit ändern kann. Du wirst jedoch benachrichtigt, wenn du dich dem Limit näherst – beginnend mit einer 15-minütigen Vorwarnung. Sobald du das Limit erreicht hast, wird dein Gespräch automatisch auf Standardsprache umgestellt.

Die erweiterte Sprachfunktion unterstützt noch keine Funktionen wie Bilder, so dass Benutzer ein Gespräch mit erweiterter Sprachfunktion nur mit Text oder Standard-Funktion fortsetzen können und nicht umgekehrt. Gespräche, die mit Standardsprache begonnen wurden, können immer mit Standardsprache oder Text fortgesetzt werden, jedoch nicht mit erweiterter Sprachfunktion. Die erweiterte Sprachfunktion ist auch bei GPTs nicht verfügbar – hier muss auf Standardsprache umgeschaltet werden.

Auch bestimmte barrierefreie Funktionen wurden von OpenAI nicht eingeführt. So sind Untertitel in Sprachchats nicht verfügbar, aber die Transkription wird anschließend in deinem Textchat angezeigt. Außerdem kann nur ein Sprachchat gleichzeitig geführt werden.

Mit der erweiterten Sprachfunktion können Erinnerungen und benutzerdefinierte Anweisungen erstellt und abgerufen werden, genau wie mit der Standard-Sprachfunktion, die ebenfalls über diese Funktionen verfügt.

Ist der ChatGPT-Sprachchat sicher?

Im August gab OpenAI bekannt, dass es einige Sicherheitslücken im Sprachmodus von ChatGPT gibt, versicherte aber, dass daran gearbeitet wird. OpenAI hat einen Bericht über die Sicherheitsfunktionen von GPT-4o veröffentlicht, in dem bekannte Probleme bei der Verwendung des Modells behandelt werden.

Zu den „Sicherheitsherausforderungen“ im Sprachmodus von ChatGPT gehören typische Bedenken wie die Generierung unangemessener Antworten, z.B. erotische oder gewalttätige Inhalte, und voreingenommene Annahmen. OpenAI hat das Modell darauf trainiert, solche Ausgaben zu blockieren, aber der Bericht weist darauf hin, dass nonverbale Geräusche wie erotisches Stöhnen, gewalttätiges Schreien und Schüsse nicht vollständig herausgefiltert werden. Das bedeutet, dass Aufforderungen, die diese sensiblen Geräusche enthalten, immer noch Reaktionen auslösen können.

Eine weitere Herausforderung stellt die sprachliche Kommunikation mit dem Modell dar. Die Tester stellten fest, dass GPT-4o dazu gebracht werden kann, die Stimme einer anderen Person zu imitieren oder versehentlich wie der Benutzer zu klingen. Um dies zu verhindern, lässt OpenAI nur zuvor genehmigte Stimmen zu – nicht jedoch eine Scarlett-Johansson-ähnliche Stimme, die das Unternehmen bereits entfernt hat. Darüber hinaus kann GPT-4o zwar andere Stimmen erkennen, ist aber darauf trainiert, solche Anfragen aus Datenschutzgründen abzulehnen, es sei denn, es handelt sich um ein berühmtes Zitat.

Red-Teamer wiesen auch darauf hin, dass GPT-4o manipuliert werden könnte, um überzeugend zu sprechen, was angesichts der Wirkung des gesprochenen Wortes ein größeres Risiko für die Verbreitung von Fehlinformationen oder Verschwörungstheorien darstellt. Das Modell wurde darauf trainiert, Anfragen nach urheberrechtlich geschützten Inhalten abzulehnen, und verfügt über zusätzliche Filter, um Musik zu blockieren. Es ist auch so programmiert, dass es überhaupt nicht singt. In diesem Beispiel eines X-Benutzers hilft die Stimme jedoch, die Gitarre zu stimmen, indem sie die Note summt.

Wie kann ich die Nutzung meines Audios stoppen?

Du kannst die Freigabe von Audio jederzeit stoppen, indem du in deinen ChatGPT-Einstellungen auf die Seite „Datenkontrolle“ gehst. Deaktiviere einfach die Einstellung „Stimme für alle verbessern“.

Wenn du „Stimme für alle verbessern“ nicht in deinen Privatsphäre-Einstellungen siehst, bedeutet das, dass du deine Audiodaten nicht mit OpenAI geteilt hast und sie nicht zum Trainieren von Modellen verwendet werden.

Wenn du die Freigabe beendest, werden Audiodaten aus zukünftigen Sprachchats nicht zum Trainieren von Modellen verwendet. Audioclips, die zuvor von deinem Konto freigegeben wurden, können jedoch weiterhin zum Training von OpenAI-Modellen verwendet werden.

OpenAI weist auch darauf hin, dass, selbst wenn du die Freigabe von Audiodaten deaktivierst, „Transkripte dieser Chats weiterhin zum Training unseres Modells verwendet werden können“, wenn die Einstellung „Modell für alle verbessern“ noch aktiviert ist. Um die Freigabe vollständig zu deaktivieren, deaktiviere „Modell für alle verbessern“.

Audioclips aus deinen erweiterten Sprachchats werden so lange gespeichert, wie der Chat in deinem Chatverlauf verbleibt. Wenn du den Chat löschst, werden auch die Audioclips innerhalb von 30 Tagen gelöscht, es sei denn, sie werden aus Sicherheits- oder rechtlichen Gründen benötigt. Wenn du deine Audioclips mit OpenAI geteilt hast, um Modelle zu trainieren, können diese Clips weiterhin verwendet werden, aber erst nachdem sie von deinem Konto getrennt wurden.

Abbildung: Ideogram / Canva

Redaktionelle Richtlinien von ReadWrite

Die ReadWrite Redaktionspolitik beinhaltet die genaue Beobachtung der Technologiebranche im Hinblick auf wichtige Entwicklungen, neue Produkteinführungen, Fortschritte bei der künstlichen Intelligenz, die Veröffentlichung von Videospielen und andere Ereignisse mit Nachrichtenwert. Die Redakteure weisen wichtige Entwicklungen fest angestellten Autoren oder freiberuflichen Mitarbeitern zu, die über Fachwissen in den jeweiligen Themenbereichen verfügen. Vor der Veröffentlichung werden die Artikel einer strengen Prüfung auf Genauigkeit und Klarheit unterzogen, um die Einhaltung der Stilrichtlinien von ReadWrite zu gewährleisten.

Suswati Basu
Tech journalist

Suswati Basu is a multilingual, award-winning editor and the founder of the intersectional literature channel, How To Be Books. She was shortlisted for the Guardian Mary Stott Prize and longlisted for the Guardian International Development Journalism Award. With 18 years of experience in the media industry, Suswati has held significant roles such as head of audience and deputy editor for NationalWorld news, digital editor for Channel 4 News and ITV News. She has also contributed to the Guardian and received training at the BBC As an audience, trends, and SEO specialist, she has participated in panel events alongside Google. Her…

Die wichtigsten Tech-Schlagzeilen des Tages direkt in Ihren Posteingang

    Door u aan te melden, gaat u akkoord met onze voorwaarden en ons privacybeleid. U kunt zich op elk gewenst moment afmelden.

    Tech News

    Entdecken Sie das Neueste aus der Welt der Technik mit unseren Tech News. Wir bieten präzise, relevante Updates, die Sie über die sich dynamisch entwickelnde Tech-Landschaft informieren, mit ausgewählten Inhalten.

    Ausführliche Tech Stories

    Erfahren Sie mehr über die Bedeutung der Technik in ausführlichen Reportagen. Datenjournalismus bietet umfassende Analysen und enthüllt die Geschichten hinter den Daten. Verstehen Sie Branchentrends und gewinnen Sie einen tieferen Einblick in die komplizierten Beziehungen zwischen Technologie und Gesellschaft.

    Experten Berichte

    Expertenberichte, die Branchenkenntnisse und aufschlussreiche Analysen kombinieren, erleichtern die Auswahl. Erfahren Sie mehr über die technischen Feinheiten, holen Sie sich die besten Angebote und bleiben Sie mit unserem zuverlässigen Leitfaden für den sich ständig verändernden Technologiemarkt immer einen Schritt voraus.