OpenAI und Google sollen YouTube-Videos transkribiert haben, um Text für ihre KI-Modelle zu sammeln und dabei möglicherweise das Urheberrecht der Autoren verletzt haben.
Laut einer Untersuchung von The New York Times und Meta sollen die Tech-Giganten versucht haben, so viele Daten wie möglich zu sammeln, um ihre KI-Modelle zu trainieren.
OpenAI-Forscher sollen ein Spracherkennungstool namens Whisper entwickelt haben, das die Audiotranskription von YouTube-Videos ermöglicht. Dies könnte neue Gesprächstexte liefern, die ein KI-System intelligenter machen würden.
Die Studie zitiert mehrere Quellen, die behaupten, dass mehr als eine Million Stunden YouTube-Videos transkribiert wurden, obwohl in den Gesprächen diskutiert wurde, dass dies gegen die Regeln von YouTube verstoßen könnte. Die Transkripte wurden dann in GPT-4 eingegeben, das fortschrittliche KI-System, das die neueste Version des Chatbots von ChatGPT antreibt. Auch Google, die Muttergesellschaft von YouTube, soll Videos transkribiert haben, um seine eigenen KI-Modelle zu trainieren.
Darüber hinaus sei der Geschäftsführer von OpenAI, Greg Brockman, persönlich an der Sammlung der verwendeten Videos beteiligt gewesen, schreibt die Times.
Die mutmaßliche Nutzung von YouTube-Videos durch OpenAI könnte auch gegen die Richtlinien von Google verstoßen, die die Nutzung seiner Inhalte für “unabhängige” Anwendungen und die “automatisierte Nutzung” seiner Videos durch Methoden wie Bots, Botnets oder Scraper verbieten.
Googles Stellungnahme zu den Vorwürfen
Google teilte ReadWrite mit, dass es “unbestätigte Berichte” über diese Nachricht gesehen habe. Es fügte jedoch hinzu, dass OpenAI und Microsoft die Frage beantworten müssten, ob sie solche Praktiken anwenden.
“Sowohl unsere robots.txt-Dateien als auch unsere Nutzungsbedingungen verbieten das unautorisierte Lesen oder Herunterladen von YouTube-Inhalten, und wir setzen seit langem technische und rechtliche Maßnahmen ein, um dies zu verhindern. Wir ergreifen Maßnahmen, wenn wir eine klare rechtliche oder technische Grundlage dafür haben”, heißt es weiter.
Das Unternehmen räumte ein, dass Googles Modelle auf bestimmte YouTube-Inhalte trainiert werden, in Übereinstimmung mit den Vereinbarungen mit den YouTube-Autoren.
Das Technologieunternehmen aktualisierte im Juli 2023 auch seine Datenschutzbestimmungen, erweiterte jedoch nicht die Arten von Daten, die Google für das Training seiner KI-Modelle verwenden darf. “Unsere Datenschutzbestimmungen machen seit langem deutlich, dass Google öffentlich zugängliche Informationen aus dem offenen Web verwendet, um Sprachmodelle für Dienste wie Google Translate zu trainieren.
“Mit dieser Aktualisierung wurde lediglich Bard als weiteres Beispiel für Produkte hinzugefügt, die unter Verwendung solcher Daten entwickelt werden können, und der umfassendere Begriff ‘KI-Modelle’ anstelle von ‘Sprachmodellen’ verwendet. Wir haben aufgrund dieser sprachlichen Änderung nicht mit der Ausbildung für zusätzliche Datentypen begonnen. Es war eine Änderung aus Gründen der Klarheit”, heißt es.
In Bezug auf Verbraucherdaten sagte Google, es sei klar, dass es seine Workspace-Daten nicht ohne ausdrückliche Erlaubnis zum Trainieren oder Verbessern der zugrunde liegenden generativen KI und der großen Sprachmodelle verwende, die Gemini, Search und andere Systeme außerhalb von Workspace antreiben.
Gehen den Technologieunternehmen die Trainingsdaten aus?
Aus dem Bericht geht auch hervor, dass OpenAI im Jahr 2021 seine Bestände an verwendbaren Daten erschöpft hatte und dann darüber nachdachte, Podcasts, Hörbücher und YouTube-Videos zu transkribieren, um sein Modell der nächsten Generation zu trainieren. In der Zwischenzeit sollen sie das Computercode-Repository GitHub geplündert und Datenbanken mit Schachpartien und Daten über Highschool-Tests und Hausaufgaben von der Website Quizlet verwendet haben.
Der Times zufolge hat die Rechtsabteilung von Google das Datenschutzteam des Unternehmens aufgefordert, den Wortlaut der Richtlinie zu ändern, um den Umfang der Maßnahmen zu erweitern, die mit Verbraucherdaten durchgeführt werden können, einschließlich der Nutzung von Office-Tools wie Google Docs.
Der Times zufolge hat Meta auch mit einem Mangel an verfügbaren Trainingsdaten zu kämpfen. Aufzeichnungen, die von der Publikation eingesehen wurden, zeigen, wie das KI-Team über die unerlaubte Verwendung von urheberrechtlich geschütztem Material diskutiert, um mit OpenAI Schritt halten zu können. Nachdem das Unternehmen “fast jedes englischsprachige Buch, jeden Essay, jedes Gedicht und jeden Nachrichtenartikel, die im Internet verfügbar sind”, ausgeschöpft hatte, soll es Maßnahmen wie den Erwerb von Buchlizenzen oder den Kauf eines großen Verlags in Erwägung gezogen haben.
Letzte Woche sagte der CEO von YouTube, Neal Mohan, dass die Verwendung von Videos auf der Plattform, um ein KI-Modell zu trainieren, ein “klarer Verstoß” gegen die Geschäftsbedingungen von YouTube wäre, nachdem der CTO von OpenAI “nicht wusste”, ob das Tool auf YouTube-Videos trainiert wurde.
Fortschrittliche Systeme, wie sie von OpenAI, Google und anderen entwickelt werden, benötigen riesige Mengen an Informationen, um zu lernen. Dieser Bedarf dezimiert das Reservoir an qualitativ hochwertigen öffentlichen Daten im Internet, zumal einige Dateneigentümer den Zugang für KI-Unternehmen einschränken. Laut Wall Street Journal besteht eine 90-prozentige Chance, dass die Nachfrage nach qualitativ hochwertigen Daten das Angebot bis 2028 übersteigen wird.
OpenAI, Google und Meta wurden um weitere Kommentare gebeten.
Abbildung: Canva