Fragen ?
Kontakt

 

ChatGPT«Stanford-Forscher behaupten, dass die Leistung und Genauigkeit von ChatGPT mit der Zeit abgenommen hat», titelt die wissenschaftliche Onlineplattform «Interesting Engineering» am 20. Juli 2023. Es scheint demnach, dass die unkritischen Flitterwochen für das global verbreitete Künstliche-Intelligenz-Sprachmodell ChatGPT schon vorbei sind. Entwickler, Berufsleute aller Art und Unternehmen, die ChatGPT zur Erreichung ihrer Ziele einsetzen, werden von den Verfassern der Studie «How Is ChatGPT’s Behavior Changing over Time?» dringend aufgefordert: «Ihr müsst das Verhalten von ChatGPT in Euren produktiven Anwendungen kontinuierlich überwachen, bewerten und beurteilen.» Lesen Sie Einzelheiten dazu.

Das Studienziel der Forscher aus Stanford und UC Berkeley
GPT-3.5 und GPT-4 sind die beiden am weitesten verbreiteten Anwendungen für grosse Sprachmodelle der Künstlichen Intelligenz (Large Language Models LLM). Die Forscher aus Stanford und UC Berkeley wollten mit der Studie «How Is ChatGPT’s Behavior Changing over Time?» herausfinden, ob sich ChatGPT verbessert, wenn aufgrund von Daten, Nutzerfeedback oder Designänderungen ChatGPT-Aktualisierungen veröffentlicht werden.
Zu diesem Zweck bewertete das Forscherteam das Verhalten der im März 2023 und Juni 2023 veröffentlichten Versionen von GPT-3.5 und GPT-4 aufgrund von vier Aufgaben: Bei der ersten Aufgabe ging es um das Lösen mathematischer Probleme, bei der zweiten Aufgabe um die Beantwortung sensibler Fragen, bei der dritten Aufgabe um die Generierung von Codes und bei der vierten Aufgabe um die Bewertung der Modelle bezüglich des visuellen Denkens.

Die hauptsächlichen Studienergebnisse
Die Forscher stellten fest, dass die Leistung und das Verhalten von GPT-3.5 und GPT-4 bei den jeweiligen Veröffentlichungen im März 2023 und Juni 2023 variierten. So konnte GPT-4 in seiner Version vom März 2023 Primzahlen mit einer Genauigkeit von 97,6 Prozent identifizieren. In der Version vom Juni 2023 hat GPT-4 bei derselben Fragestellung unglaublich schlecht abgeschnitten und nur noch eine Genauigkeit von 2,4 Prozent erreicht. Und erstaunlich: Die GPT-3.5-Version vom Juni 2023 war bei der gleichen Aufgabe viel besser als die Version vom März 2023.
Das Team stellte ausserdem fest, dass GPT-4 im Juni 2023 weniger bereit war, sensible Fragen zu beantworten als im März 2023. Kommt dazu: Sowohl GPT-4 als auch GPT-3.5 wiesen im Juni 2023 mehr Fehler bei der Codegenerierung auf als im März 2023.

Fazit der Forscher aus Stanford und UC Berkeley
Insgesamt zeigen die Ergebnisse der Studie «How Is ChatGPT’s Behavior Changing over Time?», dass sich das Verhalten eines Sprachmodells der Künstlichen Intelligenz (Large Language Models LLM) wie ChatGPT-3,5 und ChatGPT-4 in relativ kurzer Zeit erheblich ändern kann.
Die Forscher schreiben wörtlich: «Wir planen, die hier vorgestellten Ergebnisse in einer laufenden Langzeitstudie zu aktualisieren, indem wir GPT-3.5, GPT-4 und andere Sprachmodelle der Künstlichen Intelligenz (Large Language Models LLMs) bei verschiedenen Aufgaben im Laufe der Zeit regelmässig evaluieren. Anwendern oder Unternehmen, die sich auf LLM-Dienste als Bestandteil ihres laufenden Workflows verlassen, empfehlen wir, ähnliche Überwachungsanalysen wie hier für ihre Anwendungen zu implementieren.»
Das unterstreicht die Notwendigkeit, dass Entwickler, Berufsleute aller Art und Unternehmen, die ChatGPT zur Erreichung ihrer Ziele einsetzen, das Verhalten von ChatGPT bei produktiven Anwendungen kontinuierlich überwachen, bewerten und beurteilen müssen.

Globale Diskussion der Studienergebnisse
Die Studienergebnisse der Forscher aus Stanford und UC Berkeley werden in der Welt der Künstlichen Intelligenz rund um den Globus eifrig diskutiert. Dabei werden hauptsächlich die folgenden zwei Gründe für die Leistungsschwankungen von ChatGPT genannt:

  • Optimierungen und Updates von Sprachmodellen der Künstlichen Intelligenz führen über veränderte Trainingsdaten und Parameter zu unerwünschten und nicht voraussehbaren Leistungsveränderungen.
  • Die Flut von Anfragen an ChatGPT führt über aufwendige Rechenoperationen zu hohen Kosten: Das könnte OpenAI, die Betreiberin von ChatGPT, mittels vereinfachten Modellen zu qualitätssenkenden Einsparungen verleiten.

Etliche namhafte Experten äussern sich aufgrund der Studienergebnisse der Forscher aus Stanford und UC Berkeley bereits unverfroren: «OpenAI ist mit seinem ChatGPT als Grundlage für Künstliche Intelligenz-Anwendungen von Unternehmen schlicht nicht mehr verlässlich.»

Alternativen zu ChatGPT
OpenAI, die Betreiberin von ChatGPT, legt nicht offen, wie sie ihre Modelle trainiert. Man kann deshalb nicht ganz genau nachvollziehen, weshalb die ChatGPT-Sprachmodelle «dümmer werden». Diese Intransparenz von OpenAI ruft die Konkurrenz auf den Plan. So hat Elon Musk am 12. Juli 2023 angekündigt, er wolle es mit seinem neugegründeten Künstliche Intelligenz-Unternehmen xAI namentlich hinsichtlich der Transparenz besser machen als OpenAI.
Und: Der Facebook-Konzern Meta hat eine neue Version seines Sprachmodells Llama 2 veröffentlicht. Llama2 hat einen grossen Vorteil: Meta stellt das Modell mittels einer Open-Source-Lizenz frei zur Verfügung. Unternehmen dürfen Llama2 lokal herunterladen und auch in kommerziellen Produkten einsetzen. Damit können die Nutzerinnen und Nutzer selbst entscheiden, wann und wie sie das Modell verändern.



Weitere Optionen