Neben Unternehmen wie Claude und ChatGPT hat sich Google zu einem führenden Unternehmen in der Welt der künstlichen Intelligenz (KI) und der Chatbot-Technologie entwickelt. Nach der Umbenennung seiner früheren Version, die unter dem Namen Bard bekannt war, läutet das Unternehmen nun die „Gemini-Ära“ ein. In typischer Google-Manier hat das Unternehmen jedoch seine Familie multimodaler KI-Modelle auf viele seiner anderen Produkte angewandt.
Hier ist, was wir über Google Gemini wissen.
Was ist Google Gemini?
Google Gemini betrat im Februar dieses Jahres die KI-Bühne und sorgte schnell für Aufsehen. Aber erst die Veröffentlichung von Gemini Live auf der „Made by Google“-Veranstaltung im August erregte wirklich Aufmerksamkeit. ReadWrite berichtete, dass Gemini Live die Konversations-KI direkt auf Android-Mobiltelefone bringt und es den Nutzern ermöglicht, sich in Echtzeit über komplexe Themen zu unterhalten, indem sie ihre Stimme einsetzen, anstatt zu tippen – eine viel natürlichere und interaktivere Erfahrung.
Im Grunde ist Gemini Googles Large Language Model (LLM), das eine Reihe von KI-Tools antreibt, die denen ähneln, die man vielleicht schon gesehen hat, wie z.B. ChatGPT von OpenAI. So wie das GPT-4-Modell von OpenAI die Grundlage für ChatGPT-4 und ChatGPT Plus bildet, ist Gemini die Grundlage für G. Es kann Fragen beantworten, Texte zusammenfassen, Code schreiben, übersetzen und Bilder erstellen (auf mobilen Geräten, nicht in der kostenlosen Browserversion).
Gemini Live is coming to 40+ languages! It's rolling out to Android devices over the next few weeks, starting with French, German, Portuguese, Hindi, and Spanish, with many more on the way.
Soon, you'll be able to communicate, collaborate, and get creative in even more… pic.twitter.com/yP4YVFwFCr
— Google Gemini App (@GeminiApp) October 3, 2024
Google arbeitet auch an Entwickler können die Funktionen von Gemini sogar in ihre eigenen Anwendungen integrieren.
Enable extensions to get more out of Gemini.
Connect the dots across your @Google universe and use Gemini to find info in your Gmail, summarize lengthy Docs, and more.
See below to learn how ⬇️ #GeminiProTip pic.twitter.com/RAhigHbIpo
— Google Gemini App (@GeminiApp) October 22, 2024
Gemini könnte letztendlich den Google Assistant ersetzen und möglicherweise einen verbesserten, KI-gestützten Assistenten bieten, der nahtlos mit dem Google-Ökosystem interagiert.
Image generation with Imagen 3 is now available to all Gemini users around the world.
Imagen 3 is our highest quality image generation model yet and brings an even higher degree of photorealism, better instruction following, and fewer distracting artifacts than ever before. pic.twitter.com/E8CrcyFcz5
— Google Gemini App (@GeminiApp) October 9, 2024
Wie schneidet Gemini im Vergleich zu ChatGPT ab?
Google hat einige interessante Einblicke in die Funktionsweise seines KI-Modells Gemini gegeben. Wie viele führende KI-Modelle verwendet Gemini eine Transformationsarchitektur und wendet sowohl Pre-Tuning- als auch Fein-Tuning-Techniken an. Das Besondere an Gemini ist jedoch, dass es auf mehreren Medientypen gleichzeitig trainiert wurde – Text, Bilder, Audio und Video – anstatt sich auf jeden einzelnen zu konzentrieren.
Dieser Ansatz soll Gemini ein differenzierteres Verständnis von Sprache und Kontext vermitteln. Stellen Sie sich einen Ausdruck wie „Smalltalk“ vor. Wenn eine KI lediglich darauf trainiert wird, Bilder von „klein“ und „sprechen“ zu assoziieren, könnte sie dies wörtlich nehmen und ein Bild von kleinen Menschen erzeugen, die sich unterhalten. Da das Training von Gemini jedoch Sprache und Bild gleichzeitig integriert, sollte es auch die spielerischen Untertöne von „Small Talk“ erfassen.
Dieses multimodale Training hilft Gemini, „alle Arten von Input von Grund auf zu verstehen und zu verarbeiten“. So kann er beispielsweise Diagramme mit Bildunterschriften lesen, Zeichen interpretieren und Informationen aus Texten, Bildern und mehr zusammenführen. Während diese Funktionen bei der Einführung von Gemini innovativ waren, verfügen andere Modelle wie Claude 3.5 und GPT-4o inzwischen über ähnliche multimodale Fähigkeiten.
Ein weiteres wichtiges Merkmal von Gemini ist das lange Kontextfenster. Mit Gemini 1.5 Pro können bis zu zwei Millionen Token in eine einzige Eingabeaufforderung eingefügt werden, wodurch umfangreiche Dokumente, Datenbanken und komplexe Verträge verarbeitet werden können. Dies ist besonders praktisch, wenn man mit großen Textressourcen arbeitet oder eine RAG-Pipeline (Retrieval-Augmented Generation) aufbaut – allerdings können sich die Kosten summieren, wenn man regelmäßig die volle Kapazität nutzt.
Was die Leistung betrifft, zeigen Benchmarks, dass Gemini 1.5 Pro etwas hinter den Spitzenmodellen wie GPT-4o und Claude 3.5 Sonnet liegt, aber mit Modellen wie Llama 3 70B vergleichbar ist. Die leichtere Version, Gemini 1.5 Flash, ist vergleichbar mit GPT-4o Mini und Claude 3 Haiku, was sie zu einer soliden Option unter den Modellen der Mittelklasse macht.
Ist Google Gemini kostenlos?
Es gibt jetzt eine kostenlose Gemini-App für Android, die auf Wunsch sogar den Google Assistant auf dem Handy ersetzen kann. iPhone-Benutzer finden Gemini in der Google-App und es ist für alle über jeden Webbrowser zugänglich.
Neben der kostenlosen Version bietet Google eine Premium-Option namens Gemini Advanced an. Dieses Abonnement, das Teil des Google One AI Premium-Plans ist, ermöglicht den Zugang zu einem leistungsstärkeren Modell, Gemini Ultra. Abonnenten profitieren von zusätzlichen Vorteilen wie der Nutzung von Gemini Live auf mobilen Geräten – einem sprachgesteuerten, freihändigen KI-Erlebnis für Android. Unabhängig davon, ob du die kostenlose oder die aktualisierte Version verwendest, gibt es zahlreiche Möglichkeiten, auf Gemini auf verschiedenen Geräten zuzugreifen.
Was ist Gemini Google Messages?
Google hat sich bei Gemini auf die Integration in Produktivitätsanwendungen wie Docs und Gmail konzentriert, aber jetzt hat es seinen Weg in Google Messages gefunden – eine Anwendung, die die meisten Android-Nutzer täglich verwenden. Ursprünglich auf der I/O 2024 angekündigt, macht es Gemini in Messages einfach, KI-Unterstützung für alles zu erhalten, vom Verfassen von Texten bis hin zur Planung des Wochenendes.
Bevor man mit Gemini in Messages chatten kann, muss man einige Voraussetzungen erfüllen: Man muss mindestens 18 Jahre alt sein, RCS-Chats aktiviert haben, ein eigenes Google-Konto nutzen, ein Android-Telefon mit mindestens 6 GB RAM besitzen und entweder auf Englisch (in unterstützten Ländern) oder Französisch (Kanada) eingestellt sein.
Sobald du bereit bist, kannst du wie folgt mit Gemini chatten:
- Öffne Google Messages
- Klicke unten rechts auf “Chat starten”
- Wähle oben Gemini als Kontakt aus
- Wähle eine Beispielfrage aus oder gib deine Frage ein
- Chatte, bis du den gewünschten Text oder das gewünschte Bild hast.
Gemini steht auch hinter Magic Compose, einer Funktion, die Google 2023 einführen wird, um dir beim Umschreiben und Optimieren von Nachrichtenstilen zu helfen. Mit Magic Compose kannst du deine Nachrichten auf verschiedene Arten anpassen, aber die Flexibilität ist geringer als bei einem vollständigen Chat mit Gemini.
Mit Gemini in Messages musst du nicht in die spezielle Gemini-Anwendung wechseln oder Gemini als Standard-Assistenten festlegen, aber es ist nicht ganz das volle Erlebnis. Antworten werden als Text formatiert, was zu einigen Problemen führen kann. Im Moment ist es ein praktisches Tool für schnelle Ideen und Antworten, auch wenn es nicht so vielseitig ist wie andere Gemini Apps.
Wie gut ist Google Gemini?
Google Gemini behauptet sich im Rennen um die KI, insbesondere durch seine starken multimodalen Fähigkeiten und die nahtlose Integration in die Google Apps. ChatGPT macht unterdessen Fortschritte mit seiner neuen SearchGPT-Funktion, die zum ersten Mal Datenzugriff in Echtzeit bietet.
Google hat jedoch einen großen Vorteil durch seinen umfangreichen Suchindex, der Hunderte von Milliarden Seiten umfasst – eine solide Grundlage für seine Zuverlässigkeit. Berichten zufolge arbeitet das Unternehmen auch an einem neuen KI-Tool mit dem Codenamen „Project Jarvis“, das einen Webbrowser zur Verwaltung alltäglicher Aufgaben betreiben soll.
Das Projekt könnte im Dezember zusammen mit Googles nächstem Vorzeigemodell Gemini vorgestellt werden, auf dem Jarvis laufen soll. Wenn es erfolgreich ist, könnte es die anderen Modelle in Bezug auf KI-Fähigkeiten übertreffen, aber wir müssen abwarten, wie es sich entwickelt.
Abbildung: Google / Canva