Apple hat bestritten, einen unethisch gesammelten Datensatz von EleutherAI für das Training seines Flaggschiffs der künstlichen Intelligenz (KI), Apple Intelligence, verwendet zu haben. Das Unternehmen gab jedoch an, den Datensatz für ein anderes KI-Modell verwendet zu haben.
Nachdem diese Woche bekannt wurde, dass ein Unternehmen namens EleutherAI einen Datensatz mit Hunderttausenden von YouTube-Videotiteln verwendet hat, um einen Datensatz für das KI-Training zu erstellen, hat Apple gegenüber Apple Insider bestritten, dass EleutherAIs „Pile“ für das Training von Apple Intelligence verwendet wurde.
Das Unternehmen bestätigte jedoch, dass „the Pile“ für die Entwicklung der Open-Source-Modelle von OpenELM verwendet wurde, die Anfang des Jahres veröffentlicht wurden.
Was ist “the Pile” von EleutherAI?
EleutherAI ist eine gemeinnützige Organisation, die sich zum Ziel gesetzt hat, KI-Forschung und -Entwicklung für Unternehmen außerhalb der großen Technologieunternehmen, die hauptsächlich an großen KI-Modellen wie OpenAI arbeiten, zugänglicher zu machen.
Dies geschieht unter anderem durch die Bereitstellung von Trainingsdatensätzen für große Sprachmodelle und andere KI-Anwendungen. Anstatt jedoch Lizenzgebühren für den Zugang zu Daten zu zahlen oder Partnerschaften zur Nutzung von Daten aus Quellen einzugehen, durchsucht EleutherAI das Internet, um seine Daten zu erhalten. Dazu gehören die Untertitel von über 170.000 YouTube-Videos.
Das Ergebnis ist ‘The Pile’ – ein riesiger Korpus an unethisch beschafften Trainingsdaten, der die Einstiegshürde für kleinere Unternehmen in den KI-Markt senken soll. Aber auch größere Unternehmen haben von dem Datensatz profitiert.
Was ist Apples OpenELM?
Obwohl das Unternehmen den ‘Haufen’ nicht für das Training von Apple Intelligence verwendet hat (und behauptet, dass die Apple Intelligence-Modelle „auf lizenzierten Daten trainiert wurden, einschließlich Daten, die zur Verbesserung bestimmter Funktionen ausgewählt wurden, sowie auf öffentlich verfügbaren Daten, die von unserem Web-Crawler gesammelt wurden“), hat Apple zugegeben, dass es diese Daten für die Entwicklung seiner OpenELM-Modelle verwendet hat.
Apple veröffentlichte OpenELM im April. Es wurde für Forschungszwecke entwickelt und wird nicht für die Funktionen von Apple Intelligence verwendet. Apple erklärte gegenüber 9to5Mac, dass das Unternehmen keine Pläne habe, OpenELM zu erweitern oder weitere Versionen des Tools zu veröffentlichen.
Featured image credit: Apple