Die xAI von Elon Musk hat offiziell ihr multimodales Modell der ersten Generation vorgestellt, das Dokumente verstehen, Code übersetzen und Szenarien aus der realen Welt verarbeiten kann.
Das Tool mit dem Namen Grok -1.5V soll über “starke Textfähigkeiten” verfügen und wird in Kürze für frühe Tester und bestehende Grok-Nutzer verfügbar sein.
Das Update kommt nur eine Woche nach dem Release von Grok-1, das im Oktober 2023 seine Testphase abgeschlossen hat.
“Grok-1.5 verfügt über verbesserte Argumentationsfähigkeiten und eine Kontextlänge von 128.000 Token”, so das Unternehmen in einem Blogbeitrag auf der xAI-Website.
Diese lange Kontextlänge ist ein neues Feature, das Grok in die Lage versetzt, eine bis zu 16-fache Kontextlänge zu verarbeiten. Sprich, es wird in der Lage sein, Informationen aus längeren Dokumenten und komplexeren Anfragen zu nutzen.
Das Modell wird auch weiterhin in der Lage sein, Text-Prompts zu befolgen, aber es kann nun auch Dokumente, wissenschaftliche Diagramme, Tabellen, Screenshots und Fotos verstehen. Es kann auch Diagramme in Python-Code übersetzen.
— xAI (@xai) April 13, 2024
Grok-1.5V versteht die reale Welt
“Um nützliche KI-Assistenten für die reale Welt zu entwickeln, ist es entscheidend, das Verständnis eines Modells der physischen Welt zu verbessern. Um dieses Ziel zu erreichen, führen wir einen neuen Benchmark ein, RealWorldQA”, sagt das Team hinter Grok-1.5V.
Der Benchmark wird verwendet, um die Fähigkeiten multimodaler Modelle für das räumliche Verständnis der realen Welt zu bewerten. Als Beispiele nennt das Team die Frage, in welche Richtung ein Auto abbiegen kann und welches Objekt auf einem Foto am größten ist.
Die erste Version des Benchmarks enthält mehr als 700 Fotos, die alle eine Frage oder eine leicht überprüfbare Antwort enthalten.
Mit Blick auf die Zukunft beschreibt das Team die Notwendigkeit, die multimodalen Modelle zu verbessern: “Die Verbesserung des multimodalen Verständnisses und der Generierungsfähigkeiten sind wichtige Schritte beim Aufbau einer nützlichen AGI, die das Universum verstehen kann.”
“In den kommenden Monaten erwarten wir signifikante Verbesserungen beider Fähigkeiten für verschiedene Modalitäten wie Bilder, Audio und Video”.
Featured Image: Via Ideogram