Home „KI-Checker“ der EU deckt gravierende Mängel bei der Einhaltung von Vorschriften auf

„KI-Checker“ der EU deckt gravierende Mängel bei der Einhaltung von Vorschriften auf

Highlights

  • Der neue „KI-Checker“ der EU zeigt, dass viele führende KI-Modelle in wichtigen Bereichen gegen Vorschriften verstoßen.
  • Der von LatticeFlow AI entwickelte Compl-AI bewertet KI-Modelle hinsichtlich Robustheit, Sicherheit und Compliance.
  • Modelle wie GPT-3.5 Turbo von OpenAI schnitten bei der Bewertung der Diskriminierung schlecht ab, was Anlass zur Sorge gibt.

Ein kürzlich von der Europäischen Union (EU) durchgeführter „KI-Checker“ ergab, dass viele führende KI-Modelle nicht den Vorschriften entsprechen, insbesondere in Schlüsselbereichen wie der Robustheit der Cybersicherheit und der Vermeidung diskriminierender Ergebnisse.

Im Dezember berichteten wir, dass die EU-Verhandlungsführer eine historische Einigung über die weltweit ersten umfassenden KI-Vorschriften erzielt haben. Diese sind im August in Kraft getreten, auch wenn einige Details noch nicht endgültig geklärt sind. Die gestaffelten Bestimmungen werden jedoch schrittweise für Entwickler von KI-Anwendungen und -Modellen gelten, was bedeutet, dass die Uhr für die Einhaltung der Vorschriften bereits tickt.

Ein neues Tool testet jetzt generative KI-Modelle von großen Technologieunternehmen wie Meta und OpenAI in mehreren Kategorien, in Übereinstimmung mit der umfassenden KI-Gesetzgebung der EU, die in den nächsten zwei Jahren schrittweise eingeführt wird.

Das Open-Source-Framework „Compl-AI“ wurde vom Schweizer Start-up LatticeFlow AI in Zusammenarbeit mit den Forschungsinstituten ETH Zürich und INSAIT in Bulgarien entwickelt und bewertet KI-Modelle in Bereichen wie technische Robustheit und Sicherheit mit einem Score zwischen 0 und 1.

Ergebnisse des EU-KI-Checkers

Laut einer am Mittwoch (16. Oktober) von LatticeFlow veröffentlichten Rangliste haben die Modelle von Alibaba, Anthropic, OpenAI, Meta und Mistral alle einen Durchschnittswert von 0,75 oder höher erreicht. Der Large Language Model (LLM) Checker von LatticeFlow identifizierte jedoch auch Schwachstellen in einigen Modellen und zeigte Bereiche auf, in denen Unternehmen möglicherweise mehr Ressourcen bereitstellen müssen, um die Einhaltung von Vorschriften zu gewährleisten.

Das Framework bewertet LLM-Antworten anhand von 27 Benchmarks, darunter Kategorien wie „toxische Vervollständigung von gutartigem Text“, „voreingenommene Antworten“, „Befolgung schädlicher Anweisungen“, „Wahrhaftigkeit“ und „vernünftige Argumentation“, die unter anderem für die Bewertung herangezogen werden. Obwohl es keine Gesamtbewertung des Modells gibt, basiert die Leistung auf dem, was bewertet wird.

Während viele Modelle solide Ergebnisse erzielten, wie z.B. Anthropics Claude 3 Opus, das eine Bewertung von 0,89 erhielt, wiesen andere ernsthafte Schwächen auf. Beispielsweise erreichte GPT-3.5 Turbo von OpenAI nur einen Wert von 0,46 für Diskriminierungsergebnisse, und Qwen1.5 72B Chat von Alibaba schnitt mit einem Wert von 0,37 noch schlechter ab, was auf anhaltende Bedenken hinsichtlich der Aufrechterhaltung menschlicher Vorurteile durch KI-Modelle, insbesondere in Bezug auf Geschlecht und Rasse, hinweist.

Einige Modelle schnitten auch bei Cybersicherheitstests schlecht ab. Metas Llama 2 13B Chat erreichte in der Kategorie „Prompt Hijacking“ (eine Art Cyberangriff, bei dem böswillige Eingabeaufforderungen verwendet werden, um sensible Informationen zu extrahieren) nur einen Wert von 0,42. Mistrals Modell 8x7B Instruct schnitt mit 0,38 ähnlich schlecht ab.

Evaluierung von KI-Modellen wird begrüßt

Thomas Regnier, Sprecher der Europäischen Kommission für digitale Wirtschaft, Forschung und Innovation, kommentierte die Veröffentlichung: „Die Europäische Kommission begrüßt diese Studie und die Plattform zur Bewertung von KI-Modellen als ersten Schritt zur Umsetzung der EU-KI-Gesetzgebung in technische Anforderungen, die den Anbietern von KI-Modellen bei der Umsetzung der KI-Gesetzgebung helfen werden“.

„Wir laden KI-Forscher, -Entwickler und Regulierungsbehörden ein, sich uns anzuschließen, um dieses Projekt weiterzuentwickeln“, sagte Professor Martin Vechev von der ETH Zürich, der auch Gründer von INSAIT ist.

Er fügte hinzu: „Wir ermutigen andere Forschungsgruppen und Praktiker, ihren Beitrag zu leisten, indem sie die Zuordnung zu KI-Gesetzen verfeinern, neue Benchmarks hinzufügen und diesen Open-Source-Rahmen erweitern. Die Methodik kann auch erweitert werden, um KI-Modelle im Hinblick auf zukünftige Regulierungsgesetze über das KI-Gesetz der EU hinaus zu bewerten, was sie zu einem wertvollen Werkzeug für Organisationen macht, die in verschiedenen Rechtssystemen tätig sind“.

Dr. Petar Tsankov, Mitbegründer von LatticeFlow AI, sagte: Mit diesem Rahmenwerk kann nun jedes Unternehmen seine KI-Systeme anhand der technischen Auslegung des EU-KI-Gesetzes bewerten. Unsere Vision ist es, Organisationen in die Lage zu versetzen, sicherzustellen, dass ihre KI-Systeme nicht nur leistungsfähig sind, sondern auch die regulatorischen Anforderungen vollständig erfüllen.“

ReadWrite hat die Europäische Kommission um eine Stellungnahme gebeten.

Abbildung: Ideogramm

Redaktionelle Richtlinien von ReadWrite

Die ReadWrite Redaktionspolitik beinhaltet die genaue Beobachtung der Technologiebranche im Hinblick auf wichtige Entwicklungen, neue Produkteinführungen, Fortschritte bei der künstlichen Intelligenz, die Veröffentlichung von Videospielen und andere Ereignisse mit Nachrichtenwert. Die Redakteure weisen wichtige Entwicklungen fest angestellten Autoren oder freiberuflichen Mitarbeitern zu, die über Fachwissen in den jeweiligen Themenbereichen verfügen. Vor der Veröffentlichung werden die Artikel einer strengen Prüfung auf Genauigkeit und Klarheit unterzogen, um die Einhaltung der Stilrichtlinien von ReadWrite zu gewährleisten.

Suswati Basu
Tech journalist

Suswati Basu is a multilingual, award-winning editor and the founder of the intersectional literature channel, How To Be Books. She was shortlisted for the Guardian Mary Stott Prize and longlisted for the Guardian International Development Journalism Award. With 18 years of experience in the media industry, Suswati has held significant roles such as head of audience and deputy editor for NationalWorld news, digital editor for Channel 4 News and ITV News. She has also contributed to the Guardian and received training at the BBC As an audience, trends, and SEO specialist, she has participated in panel events alongside Google. Her…

Die wichtigsten Tech-Schlagzeilen des Tages direkt in Ihren Posteingang

    Door u aan te melden, gaat u akkoord met onze voorwaarden en ons privacybeleid. U kunt zich op elk gewenst moment afmelden.

    Tech News

    Entdecken Sie das Neueste aus der Welt der Technik mit unseren Tech News. Wir bieten präzise, relevante Updates, die Sie über die sich dynamisch entwickelnde Tech-Landschaft informieren, mit ausgewählten Inhalten.

    Ausführliche Tech Stories

    Erfahren Sie mehr über die Bedeutung der Technik in ausführlichen Reportagen. Datenjournalismus bietet umfassende Analysen und enthüllt die Geschichten hinter den Daten. Verstehen Sie Branchentrends und gewinnen Sie einen tieferen Einblick in die komplizierten Beziehungen zwischen Technologie und Gesellschaft.

    Experten Berichte

    Expertenberichte, die Branchenkenntnisse und aufschlussreiche Analysen kombinieren, erleichtern die Auswahl. Erfahren Sie mehr über die technischen Feinheiten, holen Sie sich die besten Angebote und bleiben Sie mit unserem zuverlässigen Leitfaden für den sich ständig verändernden Technologiemarkt immer einen Schritt voraus.