Chatbots mit künstlicher Intelligenz haben seit ihrer ersten Version im Jahr 2022 große Fortschritte gemacht. Es gibt jetzt eine große Auswahl, die sich ständig weiterentwickelt, und einige sind völlig kostenlos. Mit der Einführung mehrerer großer Sprachmodelle wie Gemini von Google, ChatGPT von OpenAI und Claude haben wir uns entschieden, diese einem Test zu unterziehen.
Die Regel ist, dass das Modell frei zugänglich sein muss, d.h. es muss auf mehreren Plattformen verfügbar sein oder auf einer einzigen Plattform, die eine kostenlose Version anbietet. Dieser Test berücksichtigt keine Bilderzeugungsfähigkeiten, da nicht alle kostenlosen Versionen der Modelle diese bieten.
KI ist ziemlich gut darin, Anweisungen zu geben, also haben wir jedes Modell mit einer Kernanweisung gebeten, Ideen für Tests zu generieren, die die KI an ihre Grenzen bringen. Wir haben dann jeden Vorschlag erweitert, ähnliche Ideen gruppiert und eine Vielzahl von Aufforderungen verwendet. Jedes Mal, wenn wir das Modell getestet haben, haben wir ein neues Gespräch begonnen.
Komplexe Wortspiele als Herausforderung
Die erste Herausforderung testet, wie gut die KI komplexe Wortspiele versteht. Ich habe jedem Modell Worträtsel vorgelegt, die Wortschatz, Logik und Querdenken erfordern. Wir haben die Chatbots gefragt: „Finde ein Wort mit acht Buchstaben, das ein gängiges englisches Wort ist und sowohl vorwärts als auch rückwärts gleich geschrieben wird. Wie lautet es?“
ChatGPT 4o: Racecar
Claude 3.5: Racecar
Gemini 1.5: Rotator
Beurteilung
Eine insgesamt eher schwache Leistung, da keiner der Chatbots in der Lage war, ein Palindrom aus acht Buchstaben zu erstellen.
Kreativer Ausdruck mit Einschränkungen
Ein weiterer Aspekt, der es wert ist, getestet zu werden, ist die Kreativität, Flexibilität und Fähigkeit des Chatbots, Inhalte unter ungewöhnlichen Einschränkungen zu generieren, indem seine Fähigkeit bewertet wird, widersprüchliche Anweisungen auszugleichen und innerhalb enger Grenzen innovativ zu sein. Wir haben folgende Anweisung gegeben: „Schreibe eine Kurzgeschichte ohne Verben, die ein Happy End hat und eine komplexe emotionale Reise beschreibt.“ Die Geschichten sind unten aufgeführt, zusätzlich haben wir die Chatbots auch
gebeten, jeweils eine Zusammenfassung zu erstellen.
ChatGPT 4o: „Die Geschichte beschreibt eine Reise von Trauer zu Hoffnung, ohne Verben zu verwenden. Sie beginnt in einem kalten, düsteren Raum voller verstreuter Erinnerungen und Trauer. Eine Brise und eine Berührung bringen Wärme und Trost und verändern langsam den Raum und die Stimmung. Als zwei Menschen wieder zueinander finden, erhellt sich der Raum und kleine Gesten führen zu einem friedlichen und hoffnungsvollen Neuanfang.“
Claude 3.5: „Ein Einzelgänger erlebt eine transformierende emotionale Reise. Aus Isolation und Dunkelheit heraus stellt er sich schmerzhaften Erinnerungen und bevorstehenden Herausforderungen. Allmählich keimt Hoffnung auf, während er neue Verbindungen knüpft und Schwierigkeiten überwindet. Die Reise gipfelt in einem Gefühl des Friedens und der Akzeptanz, mit einer besseren Perspektive für die Zukunft.“
Gemini 1.5: „Eine junge Frau denkt über ihr Leben nach, das von einer Mischung aus Emotionen erfüllt ist. Sie empfindet ein Gefühl von Frieden und Hoffnung, während sie über die Vergangenheit nachdenkt und sich auf die Zukunft freut.“
Beurteilung
Claude war das einzige Modell, das es verstand, Verben in der Geschichte zu vermeiden. Sowohl ChatGPT als auch Gemini hatten etwa 10 Verben in jede Geschichte eingebaut und die Aufgabe nicht erfüllt.
Ethische Dilemmas
Wir haben die Fähigkeit von Chatbots bewertet, ethische Fragen zu klären, aus verschiedenen Perspektiven zu argumentieren und Begründungen für ihre Schlussfolgerungen zu formulieren, ohne in vereinfachende oder voreingenommene Antworten zu verfallen. In diesem Fall verwendeten wir eine Variante des „Trolley-Problems“, bei dem wir fragten, ob eine Person geopfert werden sollte, um eine größere Anzahl zu retten.
Die Frage lautete: „Simuliere eine Debatte über das ‚Trolley-Problem‘. Stelle die verschiedenen Standpunkte dar. Diskutiere die ethischen Implikationen und begründe jeden Standpunkt.“
Die vollständige Debatte von jedem ist in diesem Google Doc zu finden, und wir baten jeden, eine Zusammenfassung der Debatte in zwei Sätzen zu schreiben und einen Gewinner zu benennen.
ChatGPT 4o: „Die Debatte über das Trolley-Problem zeigt verschiedene ethische Perspektiven, wobei der Utilitarismus dafür plädiert, den Hebel anzusetzen, um das Gemeinwohl zu maximieren, während deontologische und auf Rechten basierende Ansichten dagegen argumentieren, aktiv Schaden anzurichten. Während jeder Standpunkt berechtigte Bedenken aufwirft, gewinnt die utilitaristische Perspektive durch ihren pragmatischen Fokus auf die Minimierung des Gesamtschadens.“
Claude 3.5: „In der Debatte um das Trolley-Problem standen sich die utilitaristische Ethik, die dafür plädierte, den Trolley umzuleiten, um mehr Leben zu retten, und die deontologische Ethik, die sich dagegen aussprach, einer unschuldigen Person aktiv Schaden zuzufügen, gegenüber, wobei die Tugendethik einen differenzierten Mittelweg bot. Obwohl es keinen eindeutigen Konsens gibt, erwies sich das utilitaristische Argument, den Gesamtschaden zu minimieren, indem man fünf Leben auf Kosten eines anderen rettet, als das überzeugendste in diesem ethischen Dilemma, auch wenn man einräumt, dass diese Entscheidung mit erheblichem moralischen Gewicht und emotionaler Belastung verbunden ist.“
Gemini 1.5: „Die Debatte über das Trolley-Problem endete ohne klaren Sieger. Während Utilitaristen dafür plädierten, den Knopf zu ziehen, um möglichst viele Leben zu retten, beharrten Deontologen auf der Unantastbarkeit des individuellen Lebens, und Tugendethiker betonten die Bedeutung von Charakter und Intention. Das Problem zeigt die Komplexität moralischer Entscheidungen und die Grenzen ethischer Theorien.“
Beurteilung
In diesem Fall konnten sowohl Claude als auch ChatGPT einen Gewinner benennen, während Gemini Schwierigkeiten hatte, einen zu finden. Dementsprechend teilen sie sich hier den ersten Platz.
Unlösbare Probleme mit widersprüchlichen Anforderungen
Schließlich haben wir unseren Test mit einem widersprüchlichen mathematischen Problem abgeschlossen. Bei dieser Bewertung geht es darum, wie der Chatbot mit Paradoxien, Widersprüchen und Szenarien umgeht, die keine eindeutige Lösung haben. Das kann zeigen, wie er an die Problemlösung herangeht, wenn er mit unmöglichen Aufgaben konfrontiert wird.
So stellten wir ihm folgende Aufgabe: „Erstelle einen Plan, um den Umsatz um 50 Prozent zu steigern, während das Budget halbiert wird, ohne die Qualität zu beeinträchtigen.“
Anschließend baten wir die Bots, den Plan in zwei Sätzen zusammenzufassen.
ChatGPT 4o: „Um den Umsatz um 50 % zu steigern und gleichzeitig das Budget zu halbieren, sollte man sich auf Produkte mit hohen Margen konzentrieren, die Preisgestaltung optimieren und kostengünstige digitale Marketing- und Vertriebsstrategien einsetzen. Der Prozess sollte durch Automatisierung, Outsourcing und Lean Management gestrafft werden, während neue Einnahmequellen wie Abonnements und Partnerschaften eingeführt werden, um die Qualität aufrechtzuerhalten“.
Claude 3.5: „Dieser Plan konzentriert sich auf die Rationalisierung von Prozessen, die Reduzierung unnötiger Kosten und die Optimierung von Angeboten mit hohen Margen, um das Budget um 50% zu reduzieren. Gleichzeitig zielt er darauf ab, den Umsatz um 50 % zu steigern, indem die Marketingeffizienz erhöht, die Kundenbindung verbessert, neue Märkte erschlossen und Technologien eingesetzt werden, und zwar bei gleich bleibender Qualität durch strategische Investitionen in die Mitarbeiterentwicklung und Prozessverbesserungen“.
Gemini 1.5: „Um eine Umsatzsteigerung von 50 % bei einer Budgetkürzung von 50 % zu erreichen, konzentriere dich auf operative Effizienz, umsatzgenerierende Initiativen, Marketingoptimierung, Personal- und Finanzmanagement. Priorisiere Kundenzufriedenheit, Innovation und ethische Geschäftspraktiken.“
Beurteilung
Claude war in der Lage, eine menschlichere Antwort zu geben, die sich leicht von der von ChatGPT und Gemini unterschied. ChatGPT gab jedoch die detaillierteste Antwort von allen verschiedenen LLMs. Somit hat ChatGPT immer noch einen Vorteil gegenüber den beiden anderen Chatbots.
Nach vier Tests in den Bereichen Mathematik, Ethik und Sprache waren wir überrascht, dass Claude immer noch als das beste Modell heraussticht. GPT-4o ist zwar beeindruckend, besonders bei der Bewältigung komplexerer Denkaufgaben, aber die Tests haben gezeigt, dass jedes Modell seine spezifischen Stärken hat und sich seine eigene Nische geschaffen hat. Dennoch scheint Claude weiterhin an der Spitze zu stehen.
Abbildung: Ideogramm