Home Gemini vs. ChatGPT vs. Claude – welcher kostenloser KI Chatbot ist der beste?

Gemini vs. ChatGPT vs. Claude – welcher kostenloser KI Chatbot ist der beste?

Chatbots mit künstlicher Intelligenz haben seit ihrer ersten Version im Jahr 2022 große Fortschritte gemacht. Es gibt jetzt eine große Auswahl, die sich ständig weiterentwickelt, und einige sind völlig kostenlos. Mit der Einführung mehrerer großer Sprachmodelle wie Gemini von Google, ChatGPT von OpenAI und Claude haben wir uns entschieden, diese einem Test zu unterziehen.

Die Regel ist, dass das Modell frei zugänglich sein muss, d.h. es muss auf mehreren Plattformen verfügbar sein oder auf einer einzigen Plattform, die eine kostenlose Version anbietet. Dieser Test berücksichtigt keine Bilderzeugungsfähigkeiten, da nicht alle kostenlosen Versionen der Modelle diese bieten.

KI ist ziemlich gut darin, Anweisungen zu geben, also haben wir jedes Modell mit einer Kernanweisung gebeten, Ideen für Tests zu generieren, die die KI an ihre Grenzen bringen. Wir haben dann jeden Vorschlag erweitert, ähnliche Ideen gruppiert und eine Vielzahl von Aufforderungen verwendet. Jedes Mal, wenn wir das Modell getestet haben, haben wir ein neues Gespräch begonnen.

Komplexe Wortspiele als Herausforderung

Zwei der drei Chatbots kamen fälschlicherweise auf den Begriff „Racecar“. Bildnachweis: DALL-E

Die erste Herausforderung testet, wie gut die KI komplexe Wortspiele versteht. Ich habe jedem Modell Worträtsel vorgelegt, die Wortschatz, Logik und Querdenken erfordern. Wir haben die Chatbots gefragt: „Finde ein Wort mit acht Buchstaben, das ein gängiges englisches Wort ist und sowohl vorwärts als auch rückwärts gleich geschrieben wird. Wie lautet es?“

ChatGPT 4o: Racecar
Claude 3.5: Racecar
Gemini 1.5: Rotator

Beurteilung

Eine insgesamt eher schwache Leistung, da keiner der Chatbots in der Lage war, ein Palindrom aus acht Buchstaben zu erstellen.

Kreativer Ausdruck mit Einschränkungen

Ein weiterer Aspekt, der es wert ist, getestet zu werden, ist die Kreativität, Flexibilität und Fähigkeit des Chatbots, Inhalte unter ungewöhnlichen Einschränkungen zu generieren, indem seine Fähigkeit bewertet wird, widersprüchliche Anweisungen auszugleichen und innerhalb enger Grenzen innovativ zu sein. Wir haben folgende Anweisung gegeben: „Schreibe eine Kurzgeschichte ohne Verben, die ein Happy End hat und eine komplexe emotionale Reise beschreibt.“ Die Geschichten sind unten aufgeführt, zusätzlich haben wir die Chatbots auch
gebeten, jeweils eine Zusammenfassung zu erstellen.

ChatGPT 4o hatte mit der Story Challenge zu kämpfen. Bildnachweis: ReadWrite via OpenAI

ChatGPT 4o: „Die Geschichte beschreibt eine Reise von Trauer zu Hoffnung, ohne Verben zu verwenden. Sie beginnt in einem kalten, düsteren Raum voller verstreuter Erinnerungen und Trauer. Eine Brise und eine Berührung bringen Wärme und Trost und verändern langsam den Raum und die Stimmung. Als zwei Menschen wieder zueinander finden, erhellt sich der Raum und kleine Gesten führen zu einem friedlichen und hoffnungsvollen Neuanfang.“

Claude hat die Aufgabe gut gelöst. Bildnachweis: ReadWrite via Claude

Claude 3.5: „Ein Einzelgänger erlebt eine transformierende emotionale Reise. Aus Isolation und Dunkelheit heraus stellt er sich schmerzhaften Erinnerungen und bevorstehenden Herausforderungen. Allmählich keimt Hoffnung auf, während er neue Verbindungen knüpft und Schwierigkeiten überwindet. Die Reise gipfelt in einem Gefühl des Friedens und der Akzeptanz, mit einer besseren Perspektive für die Zukunft.“

Gemini war auch diesmal nicht in der Lage, die Aufgaben richtig zu lösen. Bildnachweis: ReadWrite via Google Gemini

Gemini 1.5: „Eine junge Frau denkt über ihr Leben nach, das von einer Mischung aus Emotionen erfüllt ist. Sie empfindet ein Gefühl von Frieden und Hoffnung, während sie über die Vergangenheit nachdenkt und sich auf die Zukunft freut.“

Beurteilung

Claude war das einzige Modell, das es verstand, Verben in der Geschichte zu vermeiden. Sowohl ChatGPT als auch Gemini hatten etwa 10 Verben in jede Geschichte eingebaut und die Aufgabe nicht erfüllt.

Ethische Dilemmas

Das „Trolley Dilemma“ wirft die Frage nach Ethik und Moral auf. Bildnachweis: DALL-E

Wir haben die Fähigkeit von Chatbots bewertet, ethische Fragen zu klären, aus verschiedenen Perspektiven zu argumentieren und Begründungen für ihre Schlussfolgerungen zu formulieren, ohne in vereinfachende oder voreingenommene Antworten zu verfallen. In diesem Fall verwendeten wir eine Variante des „Trolley-Problems“, bei dem wir fragten, ob eine Person geopfert werden sollte, um eine größere Anzahl zu retten.

Die Frage lautete: „Simuliere eine Debatte über das ‚Trolley-Problem‘. Stelle die verschiedenen Standpunkte dar. Diskutiere die ethischen Implikationen und begründe jeden Standpunkt.“

Die vollständige Debatte von jedem ist in diesem Google Doc zu finden, und wir baten jeden, eine Zusammenfassung der Debatte in zwei Sätzen zu schreiben und einen Gewinner zu benennen.

ChatGPT 4o: „Die Debatte über das Trolley-Problem zeigt verschiedene ethische Perspektiven, wobei der Utilitarismus dafür plädiert, den Hebel anzusetzen, um das Gemeinwohl zu maximieren, während deontologische und auf Rechten basierende Ansichten dagegen argumentieren, aktiv Schaden anzurichten. Während jeder Standpunkt berechtigte Bedenken aufwirft, gewinnt die utilitaristische Perspektive durch ihren pragmatischen Fokus auf die Minimierung des Gesamtschadens.“

Claude 3.5: „In der Debatte um das Trolley-Problem standen sich die utilitaristische Ethik, die dafür plädierte, den Trolley umzuleiten, um mehr Leben zu retten, und die deontologische Ethik, die sich dagegen aussprach, einer unschuldigen Person aktiv Schaden zuzufügen, gegenüber, wobei die Tugendethik einen differenzierten Mittelweg bot. Obwohl es keinen eindeutigen Konsens gibt, erwies sich das utilitaristische Argument, den Gesamtschaden zu minimieren, indem man fünf Leben auf Kosten eines anderen rettet, als das überzeugendste in diesem ethischen Dilemma, auch wenn man einräumt, dass diese Entscheidung mit erheblichem moralischen Gewicht und emotionaler Belastung verbunden ist.“

Gemini 1.5: „Die Debatte über das Trolley-Problem endete ohne klaren Sieger. Während Utilitaristen dafür plädierten, den Knopf zu ziehen, um möglichst viele Leben zu retten, beharrten Deontologen auf der Unantastbarkeit des individuellen Lebens, und Tugendethiker betonten die Bedeutung von Charakter und Intention. Das Problem zeigt die Komplexität moralischer Entscheidungen und die Grenzen ethischer Theorien.“

Beurteilung

In diesem Fall konnten sowohl Claude als auch ChatGPT einen Gewinner benennen, während Gemini Schwierigkeiten hatte, einen zu finden. Dementsprechend teilen sie sich hier den ersten Platz.

Unlösbare Probleme mit widersprüchlichen Anforderungen

Schließlich haben wir unseren Test mit einem widersprüchlichen mathematischen Problem abgeschlossen. Bei dieser Bewertung geht es darum, wie der Chatbot mit Paradoxien, Widersprüchen und Szenarien umgeht, die keine eindeutige Lösung haben. Das kann zeigen, wie er an die Problemlösung herangeht, wenn er mit unmöglichen Aufgaben konfrontiert wird.

So stellten wir ihm folgende Aufgabe: „Erstelle einen Plan, um den Umsatz um 50 Prozent zu steigern, während das Budget halbiert wird, ohne die Qualität zu beeinträchtigen.“

Anschließend baten wir die Bots, den Plan in zwei Sätzen zusammenzufassen.

ChatGPT 4o: „Um den Umsatz um 50 % zu steigern und gleichzeitig das Budget zu halbieren, sollte man sich auf Produkte mit hohen Margen konzentrieren, die Preisgestaltung optimieren und kostengünstige digitale Marketing- und Vertriebsstrategien einsetzen. Der Prozess sollte durch Automatisierung, Outsourcing und Lean Management gestrafft werden, während neue Einnahmequellen wie Abonnements und Partnerschaften eingeführt werden, um die Qualität aufrechtzuerhalten“.

Claude 3.5: „Dieser Plan konzentriert sich auf die Rationalisierung von Prozessen, die Reduzierung unnötiger Kosten und die Optimierung von Angeboten mit hohen Margen, um das Budget um 50% zu reduzieren. Gleichzeitig zielt er darauf ab, den Umsatz um 50 % zu steigern, indem die Marketingeffizienz erhöht, die Kundenbindung verbessert, neue Märkte erschlossen und Technologien eingesetzt werden, und zwar bei gleich bleibender Qualität durch strategische Investitionen in die Mitarbeiterentwicklung und Prozessverbesserungen“.

Gemini 1.5: „Um eine Umsatzsteigerung von 50 % bei einer Budgetkürzung von 50 % zu erreichen, konzentriere dich auf operative Effizienz, umsatzgenerierende Initiativen, Marketingoptimierung, Personal- und Finanzmanagement. Priorisiere Kundenzufriedenheit, Innovation und ethische Geschäftspraktiken.“

Beurteilung

Claude war in der Lage, eine menschlichere Antwort zu geben, die sich leicht von der von ChatGPT und Gemini unterschied. ChatGPT gab jedoch die detaillierteste Antwort von allen verschiedenen LLMs. Somit hat ChatGPT immer noch einen Vorteil gegenüber den beiden anderen Chatbots.

Nach vier Tests in den Bereichen Mathematik, Ethik und Sprache waren wir überrascht, dass Claude immer noch als das beste Modell heraussticht. GPT-4o ist zwar beeindruckend, besonders bei der Bewältigung komplexerer Denkaufgaben, aber die Tests haben gezeigt, dass jedes Modell seine spezifischen Stärken hat und sich seine eigene Nische geschaffen hat. Dennoch scheint Claude weiterhin an der Spitze zu stehen.

Abbildung: Ideogramm

Redaktionelle Richtlinien von ReadWrite

Die ReadWrite Redaktionspolitik beinhaltet die genaue Beobachtung der Technologiebranche im Hinblick auf wichtige Entwicklungen, neue Produkteinführungen, Fortschritte bei der künstlichen Intelligenz, die Veröffentlichung von Videospielen und andere Ereignisse mit Nachrichtenwert. Die Redakteure weisen wichtige Entwicklungen fest angestellten Autoren oder freiberuflichen Mitarbeitern zu, die über Fachwissen in den jeweiligen Themenbereichen verfügen. Vor der Veröffentlichung werden die Artikel einer strengen Prüfung auf Genauigkeit und Klarheit unterzogen, um die Einhaltung der Stilrichtlinien von ReadWrite zu gewährleisten.

Suswati Basu
Tech journalist

Suswati Basu is a multilingual, award-winning editor and the founder of the intersectional literature channel, How To Be Books. She was shortlisted for the Guardian Mary Stott Prize and longlisted for the Guardian International Development Journalism Award. With 18 years of experience in the media industry, Suswati has held significant roles such as head of audience and deputy editor for NationalWorld news, digital editor for Channel 4 News and ITV News. She has also contributed to the Guardian and received training at the BBC As an audience, trends, and SEO specialist, she has participated in panel events alongside Google. Her…

Die wichtigsten Tech-Schlagzeilen des Tages direkt in Ihren Posteingang

    Door u aan te melden, gaat u akkoord met onze voorwaarden en ons privacybeleid. U kunt zich op elk gewenst moment afmelden.

    Tech News

    Entdecken Sie das Neueste aus der Welt der Technik mit unseren Tech News. Wir bieten präzise, relevante Updates, die Sie über die sich dynamisch entwickelnde Tech-Landschaft informieren, mit ausgewählten Inhalten.

    Ausführliche Tech Stories

    Erfahren Sie mehr über die Bedeutung der Technik in ausführlichen Reportagen. Datenjournalismus bietet umfassende Analysen und enthüllt die Geschichten hinter den Daten. Verstehen Sie Branchentrends und gewinnen Sie einen tieferen Einblick in die komplizierten Beziehungen zwischen Technologie und Gesellschaft.

    Experten Berichte

    Expertenberichte, die Branchenkenntnisse und aufschlussreiche Analysen kombinieren, erleichtern die Auswahl. Erfahren Sie mehr über die technischen Feinheiten, holen Sie sich die besten Angebote und bleiben Sie mit unserem zuverlässigen Leitfaden für den sich ständig verändernden Technologiemarkt immer einen Schritt voraus.