von Pavlo Pustovoit
Am 26. Juni hat Ulrich Thiele einen Artikel mit dem ambitionierten Titel „Ein begründeter Verdacht und viele Ungereimtheiten: Die Neue Zürcher Zeitung erlebt ihren KI-Skandal“ veröffentlicht. In diesem scheinbar fachkompetent verfassten Artikel wurde jedoch nur eine Begründung explizit genannt – die Exzellenz von Pangram als einer Anwendung für die Erkennung KI generierter Inhalte. Die Argumentation des Artikels ist jedoch unzulänglich, da methodisch fehlerhaft. Dies wiegt umso schwerer, als dass der Vorwurf berufliche Konsequenzen für den Chef-Redakteur haben sowie seinen Ruf und seine Ehre beschädigen kann. Es ist nicht genug damit getan, KI-Tools und KI-Detektoren anzuwenden, sondern es ist zwingend erforderlich, auch deren Funktionsweise und Bedingungen zu kennen, um die Ergebnisse adäquat einschätzen zu können. Die Anwendung von KI-Detektoren gehört nicht in Laienhände, vor allem dann nicht, wenn die Ergebnisse zur Beschädigung der Autoren der untersuchten Texte führen können.
Um zu starten, fragen wir uns: Was ist ein natürliches, menschliches Schreiben? Zu ihm gehören Wörter (jeder hat ein eigenes spezifisches Vokabular), die Verkettung dieser Wörter zu einem Zeichen für einen Gedanken, die Rhythmik der Sätze und Passagen, lautliche Besonderheiten, Bildwahl und viele andere Stilmerkmale, die die spezifische Komposition und auch die Emotionalität des Textes ausmachen. Autoren entwickeln ein individualtypisches Profil solcher Merkmale, auch wenn sich dieses mit der Zeit mehr oder weniger verändert. Und das Wichtigste dabei ist: Dieses individuelle Schreibprofil ist mehr oder weniger komplex, wobei es alle Ebenen der Sprache auf einmal umfasst, und enthält dabei ein gewisses Chaoselement, das mehr oder weniger stark einer Musterhaftigkeit auf den verschiedenen Ebenen des Textes entgegenwirkt.
Genau nach diesen Merkmalen sucht ein KI-Detektor. Er untersucht, wie unerwartet eine Kombination von zwei Wörtern ist, wie sich die Länge der Sätze im Text ändert, wie sich diese Daten von ihm schon gelernten Mustern unterscheiden.
Jetzt fragen wir uns: Wie schreiben Menschen in der Realität? Wie viele können einen konstruktiven Satz bauen? Im letzten Jahr haben wir schon begriffen, dass ein LLM (Large Language Model) – genau diese Technologie nennen wir fälschlicherweise Künstliche Intelligenz – Sätze bilden kann, die viele Schüler, Studenten und auch akademisch gebildete Erwachsene nicht fähig zu bilden sind. Darüber hinaus nutzen wir im täglichen Leben nur eine geringe Anzahl von Sprachkonstruktionen.
LLMs sind Regressionsmodelle, die Wörter in numerische Vektoren umwandeln und lernen, das nächste Wort vorherzusagen. Das „Large“ im Technologienamen bedeutet lediglich, dass das Modell an Millionen von Texten aus dem Internet trainiert wurde. Es kennt also bereits alle gängigen und einige komplexe Sprachkonstruktionen. LLMs sind nicht klug oder intelligent, sondern sie simulieren nur Intelligenz und täuschen uns damit. Ihr größtes Defizit ist, dass sie nichts Neues in diese Welt bringen können.
Und was ist ein KI-Detektor? Seitdem das Problem besteht, KI-generierte Inhalte zu bestimmen, haben die Entwickler zwei Verfahren ausgedacht. Der erste basiert auf statistischen Methoden der Textanalyse nach den Kriterien ‚Perplexity‘ (Verwirrung) und ‚Burstiness‘ (Sprunghaftigkeit). Es wird durch den ‚Perplexity‘-Wert angezeigt, wie das Modell den Inhalt eines Textes in Bezug auf seinen Grad an Unvorhersagbarkeit einschätzt. Sätze wie "Ich bin eine AI-Kartoffel" oder "Wir können auf den Wolken reiten und der Welt entfliehen" werden beispielsweise einen höheren Perplexity-Wert haben. Der ‚Burstiness‘-Wert gibt Auskunft darüber, wie sich das Kriterium ‚Perplexity‘ im Textganzen verteilt, stuft seine Komplexität ein und beurteilt dabei auch wie unterschiedlich die Satzlängen sind. Wenn diese beiden Kriterien einen hohen Wert ergeben, dann wird eine autorschaft durch einen Menschen als wahrscheinlich angenommen. Wenn diese Werte jedoch in einem mittleren Bereich liegen, fällt der Text in eine Grauzone für die Beurteilung.
Das zweite Verfahren besteht unter anderem in der Verwendung stochastischer Modelle wie BERT. Solche Modelle entsprechen der ersten Konfigurationsstufe von LLM und können für Klassifikationsaufgaben verwendet werden. Man kann diese Modelle also beispielsweise dafür nutzen, Produkte nach ihren Namen in entsprechenden Produktbereichen einzuordnen oder Texte als KI- bzw. Nicht-KI-Texte zu klassifizieren. Dafür ist lediglich ein Datensatz unglaublicher Größe erforderlich, da das Modell lernen muss, welche Strukturen KI-Texte aufweisen und welche Strukturen in Texten menschlicher Autorschaft prägend sind. Wenn die Ergebnisse einer solchen Analyse grundsätzlich gut sein können, weiß man jedoch nie, warum genau das Modell zu seiner Antwort gekommen ist. Die Fehlklassifikationsrate bei der Detektion einer LLM-Genese beträgt mindestens 10 bis 15%,
Und was passiert, wenn wir einen Text eines Schülers, der noch nicht gut ausgebildet ist, auf KI-Generation prüfen? Es kann sein, dass die Verwendung von KI gefunden wird, obwohl der Schüler alles ernsthaft selbst verfasst hat. Seine Gedanken sind schlicht zu einfach. Was passiert, wenn ein Text von jemanden geschrieben wurde, der die Sprache nicht gut beherrscht? Das Ergebnis wird lauten: KI. Wenn jemand einen „leichten“ Text schreibt? KI, auf jeden Fall! Lustig? Nicht? Achten Sie darauf! Die Ergebnisse eines KI-Detektors sind im Prinzip nur eine Aussage über die Textqualität. Wenn jemand einen langen Text über ein unbekanntes Thema schreibt, wird dieser Text genau wie ein von KI-generierter aussehen: schwache Gedankenreihenfolge, fast keine Emotionalität, typische musterhafte „KI“ Konstruktionen.
Auch Texte, die technisch oder wissenschaftlich verfasst werden, beurteilen die Algorithmen oft als generiert. Der Grund dafür ist sehr einfach: Um etwas deutlich zu erklären, muss man Ausdrücke wiederholen, einfache Sprachkonstruktionen nutzen, einen logisch geordneten Aufbau wählen und sollte zum Beispiel keine Scherze oder sonstige Überraschungseffekte einbauen.
Alles ändert sich, wenn wir die zu untersuchenden Texte in ihrem Kontext betrachten: Dann wird klar, dass ein Student eher keine komplizierten Sätze ausdenken können wird; daher ist ein schlichter Text wahrscheinlich eher selbst geschrieben. Und alle Entwickler der KI-Detektoren weisen darauf hin: Wir geben nur den Verdacht, um diesen dann zu überprüfen, achten Sie dabei aber auf den spezifischen Stil des Autors, der sich möglicherweise auch über die Jahre verändert hat. Auch spielt eine wichtige Rolle, wie lang ein Text ist. Wenn ein Text kürzer als 200 Wörter ist, zeigen die Erkennungsalgorithmen kein zuverlässiges Resultat an, da ein kurzer Text zu wenig Sprachkonstruktionen hat, die ein Algorithmus analysieren kann. Außerdem bekommen wir, wenn ein Detektor ein kleines Trainingsset für eine bestimmte Sprache hat (die meisten von ihnen sind natürlich englischsprachig), auch keine zuverlässige Antwort.
Die LLMs (wie von ChatGPT, Grok, Claude usw.) haben alle möglichen Informationen des Internets aufgenommen und können uns jetzt mit ihren Fähigkeiten, unsere Sprachkompetenzen zu imitieren, verwundern und irritieren. Durch Verfeinerung ihrer Konfiguration lassen sich neuerdings auch Stilrichtungen erstellen, die der Textgestaltung menschlicher Autoren immer ähnlicher werden. Oftmals ist nicht mehr feststellbar, ob der Autor ein LLM ist.
Daher sind nun fast alle KI-Detektoren sind mit einer Plagiatserkennung verknüpft: Sie suchen nach Ähnlichkeiten zu bereits veröffentlichten Inhalten. Wenn wir über eine Person sprechen, deren Texte seit Jahren im Internet präsent ist, was denken Sie, wie viele ihrer Texte haben LLMs in ihre Datensätze eingefügt? Wahrscheinlich alle, die im Internet vorhanden sind. Wie bekannt ihre Formulierungen sind? Im NZZ-Verdachtsfall steht die Frage offen im Raum, ob die früheren, angeblich nicht als KI detektierten Texte einfach für LLMs nicht verfügbar waren.
Und jetzt das Letzte und das Wichtigste: Das Ergebnis „100% KI“ heißt lediglich, dass das Modell den Inhalt analysiert hat, mit den bereits gelernten Muster verglichen hat und das Ergebnis folgert, dass dieser Inhalt von KI generiert wurde. Das bedeutet keineswegs, dass es wirklich so war, und hängt von dem Datensatz des KI-Detektors ab und wie gut er überhaupt trainiert wurde.
Pangram behauptet, dass sein Detektor die KI-Nutzung mit einer Wahrscheinlichkeit von 99,98% bestimmen kann. Die erste Frage, die wir stellen müssen, lautet: Wie groß und vielfältig war der Testdatensatz? Es werden zwangsläufig falsch positive Ergebnisse entstehen. Nehmen wir an, dass Pangram mindestens 98 % der KI-Texte richtig erkennen soll, dann werden in einer Gruppe, in der Menschen 150 und LLMs 50 Texte geschrieben haben, dennoch neun menschliche Texte fälschlich als KI-Texte markiert. Die tatsächliche Richtigkeit der Detektion sinkt dann auf 94 % ab. Wenn der Datensatz ausbalanciert ist, d. h., wenn es viel mehr KI-Inhalte als menschliche gibt, dann wird die veröffentlichte Wahrscheinlichkeit, dass der Detektor alles richtig erkennt, sehr groß.
Dieser Verdacht, dass eine öffentlich bekannte Person generierte Inhalte verwendet hat, ist kein Einzelfall und wird zunehmend als Mittel für Cancel Culture verwendet. Daher benötigen gerade Fälle, in denen eine öffentlich bekannte Person, die mit Texten professionell arbeitet, unter solchen Verdacht gerückt wird, eine besonders strenge Untersuchung durch Fachleute, die sich mit Erkennungsalgorithmen auskennen und eine computerlinguistische Analyse des individuellen Stilprofils der infrage stehenden Texte unter Berücksichtigung der möglichen stilistischen Entwicklung des Verfassers in Zeitabschnitten durchführen können.
Auch die Redakteure betroffener Presse sollten sich schützen und die Texte mindestens mit statistischen Verfahren selbst überprüfen. Das kann nicht nur dabei helfen, die Inhalte zu verbessern, sondern schützt auch vor solchen Angriffen.
Laut Pangram ist dieser Text hier übrigens zu 100 % von einem Menschen verfasst worden – der aber bisher auch nicht im Internet veröffentlicht hat.
