Home Nvidia stellt sein neues NVLM 1.0 AI-Modell vor, das mit OpenAIs GPT-4 konkurriert

Nvidia stellt sein neues NVLM 1.0 AI-Modell vor, das mit OpenAIs GPT-4 konkurriert

Highlights

  • Nvidia stellt NVLM 1.0 vor, ein leistungsstarkes KI-Modell mit 72 Milliarden Parametern.
  • NVLM-D-72B glänzt bei visuell-sprachlichen Aufgaben und verbessert die Textgenauigkeit um 4,3 Punkte.
  • Das Modell ist für die Forschung offen, darf aber nicht kommerziell genutzt oder verändert werden.

Nvidia hat sein leistungsfähiges Open-Source-Modell für künstliche Intelligenz veröffentlicht, das das GPT-4 von OpenAI übertreffen könnte.

Die neue NVLM 1.0-Familie von Open-Source-Multimodal-LLMs (Large Language Models) des Unternehmens, deren Flaggschiff NVLM-D-72B ist, hat rund 72 Milliarden Parameter.

Nach Angaben des Nvidia-Forschungsteams zeichnet sich das neue KI-Modell durch eine hervorragende Leistung bei visuell-sprachlichen Aufgaben aus, wobei die Leistung bei reinen Textaufgaben im Vergleich zu den LLM-Modellen beibehalten und sogar verbessert wurde. In ihrem Papier schreiben die Forscher: „Wir stellen NVLM 1.0 vor, eine Familie von multimodalen großen Sprachmodellen der Spitzenklasse, die bei visuell-sprachlichen Aufgaben den neuesten Stand der Technik erreichen und mit den führenden proprietären Modellen (z.B. GPT-4o) und Open-Access-Modellen konkurrieren.“

Im Gegensatz zu einigen anderen proprietären Modellen, bei denen die Textleistung im Laufe der Zeit deutlich abnimmt, konnte das NVLM-D-72B seine Genauigkeit bei wichtigen Textbenchmarks um durchschnittlich 4,3 Punkte steigern.

Das LLM war auch in der Lage, Diagramme und Tabellen zu interpretieren, Bilder zu analysieren, Meme zu verstehen, Software zu codieren und mathematische Probleme zu lösen. Die Modellgewichte sind auf Hugging Face öffentlich zugänglich, und Nvidia sagt, dass es den Trainingscode irgendwann veröffentlichen wird.

Was die KI-Community von Nvidias NVLM-Modell hält

KI-Forscher auf X nannten die Veröffentlichung „wild“ und lobten ihre Fähigkeit, visuelle Daten zu verstehen. Ein Nutzer schrieb: „Wow! Nvidia hat gerade ein 72B-Modell veröffentlicht, das in Sachen Mathematik und Codierung mit Llama 3.1 405B gleichauf ist und auch über Sehvermögen verfügt…“.

Nvidia selbst hat jedoch Berichten zufolge Open-Source-Ressourcen für die Entwicklung von NVLM 1.0 genutzt und dabei Erkenntnisse aus anderen KI-Modellen und verschiedenen Trainingsdaten gewonnen. Das NVLM-D-72B-Modell ist jedoch durch seine Lizenzbedingungen eingeschränkt. Es darf nicht für kommerzielle Zwecke verwendet oder für den Weiterverkauf modifiziert werden. Im Wesentlichen stellt Nvidia das Modell ausschließlich für Forschungszwecke und für Hobbyisten zur Verfügung, die die Grenzen ihrer High-End-Grafikkarten testen wollen.

Die Verwendung des Begriffs „offen“ durch die Forscher ist daher durchaus beabsichtigt. Die Ergebnisse von Nvidia sind zwar wertvoll, aber aufgrund der Beschränkungen für die kommerzielle Nutzung kann das Modell nicht als wirklich quelloffen betrachtet werden, was die Freiheit voraussetzen würde, das Modell ohne Einschränkungen zu verwenden, zu verändern und zu verbreiten.

ReadWrite hat sich mit Nvidia in Verbindung gesetzt und um eine Stellungnahme gebeten.

Bild: Midjourney

Redaktionelle Richtlinien von ReadWrite

Die ReadWrite Redaktionspolitik beinhaltet die genaue Beobachtung der Technologiebranche im Hinblick auf wichtige Entwicklungen, neue Produkteinführungen, Fortschritte bei der künstlichen Intelligenz, die Veröffentlichung von Videospielen und andere Ereignisse mit Nachrichtenwert. Die Redakteure weisen wichtige Entwicklungen fest angestellten Autoren oder freiberuflichen Mitarbeitern zu, die über Fachwissen in den jeweiligen Themenbereichen verfügen. Vor der Veröffentlichung werden die Artikel einer strengen Prüfung auf Genauigkeit und Klarheit unterzogen, um die Einhaltung der Stilrichtlinien von ReadWrite zu gewährleisten.

Suswati Basu
Tech journalist

Suswati Basu is a multilingual, award-winning editor and the founder of the intersectional literature channel, How To Be Books. She was shortlisted for the Guardian Mary Stott Prize and longlisted for the Guardian International Development Journalism Award. With 18 years of experience in the media industry, Suswati has held significant roles such as head of audience and deputy editor for NationalWorld news, digital editor for Channel 4 News and ITV News. She has also contributed to the Guardian and received training at the BBC As an audience, trends, and SEO specialist, she has participated in panel events alongside Google. Her…

Die wichtigsten Tech-Schlagzeilen des Tages direkt in Ihren Posteingang

    Door u aan te melden, gaat u akkoord met onze voorwaarden en ons privacybeleid. U kunt zich op elk gewenst moment afmelden.

    Tech News

    Entdecken Sie das Neueste aus der Welt der Technik mit unseren Tech News. Wir bieten präzise, relevante Updates, die Sie über die sich dynamisch entwickelnde Tech-Landschaft informieren, mit ausgewählten Inhalten.

    Ausführliche Tech Stories

    Erfahren Sie mehr über die Bedeutung der Technik in ausführlichen Reportagen. Datenjournalismus bietet umfassende Analysen und enthüllt die Geschichten hinter den Daten. Verstehen Sie Branchentrends und gewinnen Sie einen tieferen Einblick in die komplizierten Beziehungen zwischen Technologie und Gesellschaft.

    Experten Berichte

    Expertenberichte, die Branchenkenntnisse und aufschlussreiche Analysen kombinieren, erleichtern die Auswahl. Erfahren Sie mehr über die technischen Feinheiten, holen Sie sich die besten Angebote und bleiben Sie mit unserem zuverlässigen Leitfaden für den sich ständig verändernden Technologiemarkt immer einen Schritt voraus.