Home OpenAI und Google beschuldigt, YouTube-Transkripte für KI zu verwenden

OpenAI und Google beschuldigt, YouTube-Transkripte für KI zu verwenden

Highlights

  • OpenAI und Google sollen YouTube-Videos für KI-Training transkribiert haben.
  • Dem Bericht zufolge wurden mehr als eine Million Stunden Videomaterial transkribiert.

  • Mögliche Verstöße gegen das Urheberrecht und die Nutzungsbedingungen von YouTube stehen im Raum.

OpenAI und Google sollen YouTube-Videos transkribiert haben, um Text für ihre KI-Modelle zu sammeln und dabei möglicherweise das Urheberrecht der Autoren verletzt haben.

Laut einer Untersuchung von The New York Times und Meta sollen die Tech-Giganten versucht haben, so viele Daten wie möglich zu sammeln, um ihre KI-Modelle zu trainieren.

OpenAI-Forscher sollen ein Spracherkennungstool namens Whisper entwickelt haben, das die Audiotranskription von YouTube-Videos ermöglicht. Dies könnte neue Gesprächstexte liefern, die ein KI-System intelligenter machen würden.

Die Studie zitiert mehrere Quellen, die behaupten, dass mehr als eine Million Stunden YouTube-Videos transkribiert wurden, obwohl in den Gesprächen diskutiert wurde, dass dies gegen die Regeln von YouTube verstoßen könnte. Die Transkripte wurden dann in GPT-4 eingegeben, das fortschrittliche KI-System, das die neueste Version des Chatbots von ChatGPT antreibt. Auch Google, die Muttergesellschaft von YouTube, soll Videos transkribiert haben, um seine eigenen KI-Modelle zu trainieren.

Darüber hinaus sei der Geschäftsführer von OpenAI, Greg Brockman, persönlich an der Sammlung der verwendeten Videos beteiligt gewesen, schreibt die Times.

Die mutmaßliche Nutzung von YouTube-Videos durch OpenAI könnte auch gegen die Richtlinien von Google verstoßen, die die Nutzung seiner Inhalte für “unabhängige” Anwendungen und die “automatisierte Nutzung” seiner Videos durch Methoden wie Bots, Botnets oder Scraper verbieten.

Googles Stellungnahme zu den Vorwürfen

Google teilte ReadWrite mit, dass es “unbestätigte Berichte” über diese Nachricht gesehen habe. Es fügte jedoch hinzu, dass OpenAI und Microsoft die Frage beantworten müssten, ob sie solche Praktiken anwenden.

“Sowohl unsere robots.txt-Dateien als auch unsere Nutzungsbedingungen verbieten das unautorisierte Lesen oder Herunterladen von YouTube-Inhalten, und wir setzen seit langem technische und rechtliche Maßnahmen ein, um dies zu verhindern. Wir ergreifen Maßnahmen, wenn wir eine klare rechtliche oder technische Grundlage dafür haben”, heißt es weiter.

Das Unternehmen räumte ein, dass Googles Modelle auf bestimmte YouTube-Inhalte trainiert werden, in Übereinstimmung mit den Vereinbarungen mit den YouTube-Autoren.

Das Technologieunternehmen aktualisierte im Juli 2023 auch seine Datenschutzbestimmungen, erweiterte jedoch nicht die Arten von Daten, die Google für das Training seiner KI-Modelle verwenden darf. “Unsere Datenschutzbestimmungen machen seit langem deutlich, dass Google öffentlich zugängliche Informationen aus dem offenen Web verwendet, um Sprachmodelle für Dienste wie Google Translate zu trainieren.

“Mit dieser Aktualisierung wurde lediglich Bard als weiteres Beispiel für Produkte hinzugefügt, die unter Verwendung solcher Daten entwickelt werden können, und der umfassendere Begriff ‘KI-Modelle’ anstelle von ‘Sprachmodellen’ verwendet. Wir haben aufgrund dieser sprachlichen Änderung nicht mit der Ausbildung für zusätzliche Datentypen begonnen. Es war eine Änderung aus Gründen der Klarheit”, heißt es.

In Bezug auf Verbraucherdaten sagte Google, es sei klar, dass es seine Workspace-Daten nicht ohne ausdrückliche Erlaubnis zum Trainieren oder Verbessern der zugrunde liegenden generativen KI und der großen Sprachmodelle verwende, die Gemini, Search und andere Systeme außerhalb von Workspace antreiben.

Gehen den Technologieunternehmen die Trainingsdaten aus?

Aus dem Bericht geht auch hervor, dass OpenAI im Jahr 2021 seine Bestände an verwendbaren Daten erschöpft hatte und dann darüber nachdachte, Podcasts, Hörbücher und YouTube-Videos zu transkribieren, um sein Modell der nächsten Generation zu trainieren. In der Zwischenzeit sollen sie das Computercode-Repository GitHub geplündert und Datenbanken mit Schachpartien und Daten über Highschool-Tests und Hausaufgaben von der Website Quizlet verwendet haben.

Der Times zufolge hat die Rechtsabteilung von Google das Datenschutzteam des Unternehmens aufgefordert, den Wortlaut der Richtlinie zu ändern, um den Umfang der Maßnahmen zu erweitern, die mit Verbraucherdaten durchgeführt werden können, einschließlich der Nutzung von Office-Tools wie Google Docs.

Der Times zufolge hat Meta auch mit einem Mangel an verfügbaren Trainingsdaten zu kämpfen. Aufzeichnungen, die von der Publikation eingesehen wurden, zeigen, wie das KI-Team über die unerlaubte Verwendung von urheberrechtlich geschütztem Material diskutiert, um mit OpenAI Schritt halten zu können. Nachdem das Unternehmen “fast jedes englischsprachige Buch, jeden Essay, jedes Gedicht und jeden Nachrichtenartikel, die im Internet verfügbar sind”, ausgeschöpft hatte, soll es Maßnahmen wie den Erwerb von Buchlizenzen oder den Kauf eines großen Verlags in Erwägung gezogen haben.

Letzte Woche sagte der CEO von YouTube, Neal Mohan, dass die Verwendung von Videos auf der Plattform, um ein KI-Modell zu trainieren, ein “klarer Verstoß” gegen die Geschäftsbedingungen von YouTube wäre, nachdem der CTO von OpenAI “nicht wusste”, ob das Tool auf YouTube-Videos trainiert wurde.

Fortschrittliche Systeme, wie sie von OpenAI, Google und anderen entwickelt werden, benötigen riesige Mengen an Informationen, um zu lernen. Dieser Bedarf dezimiert das Reservoir an qualitativ hochwertigen öffentlichen Daten im Internet, zumal einige Dateneigentümer den Zugang für KI-Unternehmen einschränken. Laut Wall Street Journal besteht eine 90-prozentige Chance, dass die Nachfrage nach qualitativ hochwertigen Daten das Angebot bis 2028 übersteigen wird.

OpenAI, Google und Meta wurden um weitere Kommentare gebeten.

Abbildung: Canva

Redaktionelle Richtlinien von ReadWrite

Die ReadWrite Redaktionspolitik beinhaltet die genaue Beobachtung der Technologiebranche im Hinblick auf wichtige Entwicklungen, neue Produkteinführungen, Fortschritte bei der künstlichen Intelligenz, die Veröffentlichung von Videospielen und andere Ereignisse mit Nachrichtenwert. Die Redakteure weisen wichtige Entwicklungen fest angestellten Autoren oder freiberuflichen Mitarbeitern zu, die über Fachwissen in den jeweiligen Themenbereichen verfügen. Vor der Veröffentlichung werden die Artikel einer strengen Prüfung auf Genauigkeit und Klarheit unterzogen, um die Einhaltung der Stilrichtlinien von ReadWrite zu gewährleisten.

Suswati Basu
Tech journalist

Suswati Basu is a multilingual, award-winning editor and the founder of the intersectional literature channel, How To Be Books. She was shortlisted for the Guardian Mary Stott Prize and longlisted for the Guardian International Development Journalism Award. With 18 years of experience in the media industry, Suswati has held significant roles such as head of audience and deputy editor for NationalWorld news, digital editor for Channel 4 News and ITV News. She has also contributed to the Guardian and received training at the BBC As an audience, trends, and SEO specialist, she has participated in panel events alongside Google. Her…

Die wichtigsten Tech-Schlagzeilen des Tages direkt in Ihren Posteingang

    By signing up, you agree to our Terms and Privacy Policy. Unsubscribe anytime.

    Tech News

    Entdecken Sie das Neueste aus der Welt der Technik mit unseren Tech News. Wir bieten präzise, relevante Updates, die Sie über die sich dynamisch entwickelnde Tech-Landschaft informieren, mit ausgewählten Inhalten.

    Ausführliche Tech Stories

    Erfahren Sie mehr über die Bedeutung der Technik in ausführlichen Reportagen. Datenjournalismus bietet umfassende Analysen und enthüllt die Geschichten hinter den Daten. Verstehen Sie Branchentrends und gewinnen Sie einen tieferen Einblick in die komplizierten Beziehungen zwischen Technologie und Gesellschaft.

    Experten Berichte

    Expertenberichte, die Branchenkenntnisse und aufschlussreiche Analysen kombinieren, erleichtern die Auswahl. Erfahren Sie mehr über die technischen Feinheiten, holen Sie sich die besten Angebote und bleiben Sie mit unserem zuverlässigen Leitfaden für den sich ständig verändernden Technologiemarkt immer einen Schritt voraus.