Nvidia hat sein leistungsfähiges Open-Source-Modell für künstliche Intelligenz veröffentlicht, das das GPT-4 von OpenAI übertreffen könnte.
Die neue NVLM 1.0-Familie von Open-Source-Multimodal-LLMs (Large Language Models) des Unternehmens, deren Flaggschiff NVLM-D-72B ist, hat rund 72 Milliarden Parameter.
Nach Angaben des Nvidia-Forschungsteams zeichnet sich das neue KI-Modell durch eine hervorragende Leistung bei visuell-sprachlichen Aufgaben aus, wobei die Leistung bei reinen Textaufgaben im Vergleich zu den LLM-Modellen beibehalten und sogar verbessert wurde. In ihrem Papier schreiben die Forscher: „Wir stellen NVLM 1.0 vor, eine Familie von multimodalen großen Sprachmodellen der Spitzenklasse, die bei visuell-sprachlichen Aufgaben den neuesten Stand der Technik erreichen und mit den führenden proprietären Modellen (z.B. GPT-4o) und Open-Access-Modellen konkurrieren.“
Im Gegensatz zu einigen anderen proprietären Modellen, bei denen die Textleistung im Laufe der Zeit deutlich abnimmt, konnte das NVLM-D-72B seine Genauigkeit bei wichtigen Textbenchmarks um durchschnittlich 4,3 Punkte steigern.
Das LLM war auch in der Lage, Diagramme und Tabellen zu interpretieren, Bilder zu analysieren, Meme zu verstehen, Software zu codieren und mathematische Probleme zu lösen. Die Modellgewichte sind auf Hugging Face öffentlich zugänglich, und Nvidia sagt, dass es den Trainingscode irgendwann veröffentlichen wird.
Was die KI-Community von Nvidias NVLM-Modell hält
KI-Forscher auf X nannten die Veröffentlichung „wild“ und lobten ihre Fähigkeit, visuelle Daten zu verstehen. Ein Nutzer schrieb: „Wow! Nvidia hat gerade ein 72B-Modell veröffentlicht, das in Sachen Mathematik und Codierung mit Llama 3.1 405B gleichauf ist und auch über Sehvermögen verfügt…“.
NVLM by NVIDIA is wild. And Open. Check it out.https://t.co/fYpagW4Kog pic.twitter.com/r9V8uamGVf
— Alex Zhavoronkov, PhD (aka Aleksandrs Zavoronkovs) (@biogerontology) October 2, 2024
Wow. New NVIDIA 72B model rivals Llama's 405B! 😮https://t.co/ACsvUUctml pic.twitter.com/TUZ378S4tz
— Jeremy Howard (@jeremyphoward) October 1, 2024
Wow nvidia just published a 72B model with is ~on par with llama 3.1 405B in math and coding evals and also has vision 🤯 pic.twitter.com/c46DeXql7s
— Phil (@phill__1) October 1, 2024
Nvidia selbst hat jedoch Berichten zufolge Open-Source-Ressourcen für die Entwicklung von NVLM 1.0 genutzt und dabei Erkenntnisse aus anderen KI-Modellen und verschiedenen Trainingsdaten gewonnen. Das NVLM-D-72B-Modell ist jedoch durch seine Lizenzbedingungen eingeschränkt. Es darf nicht für kommerzielle Zwecke verwendet oder für den Weiterverkauf modifiziert werden. Im Wesentlichen stellt Nvidia das Modell ausschließlich für Forschungszwecke und für Hobbyisten zur Verfügung, die die Grenzen ihrer High-End-Grafikkarten testen wollen.
Die Verwendung des Begriffs „offen“ durch die Forscher ist daher durchaus beabsichtigt. Die Ergebnisse von Nvidia sind zwar wertvoll, aber aufgrund der Beschränkungen für die kommerzielle Nutzung kann das Modell nicht als wirklich quelloffen betrachtet werden, was die Freiheit voraussetzen würde, das Modell ohne Einschränkungen zu verwenden, zu verändern und zu verbreiten.
ReadWrite hat sich mit Nvidia in Verbindung gesetzt und um eine Stellungnahme gebeten.
Bild: Midjourney