SPRACHMODELLE:
Wie KI reden lernt

Obwohl das automatisierte Lernen von Sprachmodellen wie ChatGPT viele Vorteile hat, gibt es auch einige potenzielle Gefahren und Herausforderungen. So lernen ChatGPT und ähnliche Systeme aus einer riesigen Menge von Texten. Die Inhalte dieser Texte können nur so gut, korrekt und vollständig sein, wie sie beschaffen sind. Möglicherweise beinhalten sie Vorurteile („bias“) oder Verzerrungen oder stellen unerwartete Verbindungen her. Dies führt mitunter zu unerwarteten und unerwünschten Ergebnissen, wenn das Modell zum Beispiel rassistische oder sexistische Sprachmuster erlernt, die in den Trainingsdaten vorhanden sind. Auch gegen Manipulation sind sie nicht gefeit – beispielsweise durch gezielte Eingabe von Texten oder durch Verzerrung der Trainingsdaten, die das Modell täuschen.

Picture of Nikolai Zotow

Nikolai Zotow

Science Editor

Picture of Nikolai Zotow

Nikolai Zotow

Science Editor

Neuronales Netzwerk als Basis

Als ein sprachliches KI-Modell verwendet beispielsweise ChatGPT ein neuronales Netzwerk, um natürliche Sprache zu verstehen und zu produzieren. Damit kann das Sprachmodell aber lediglich die sprachliche Form nachvollziehen. Zu einem richtigen, den tieferen Sinn eines Themas nachvollziehenden Verständnis ist es allerdings nicht fähig. Mit dieser Technologie lernt dieses Large Language Model (LLM) und verbessert dadurch seine Antworten und Ergebnisse. Hierzu durchsucht ChatGPT eine riesige Menge an digitalisierten Texten in mehreren Sprachen, einschließlich Büchern, Zeitschriften, Artikeln, Websites und sozialen Medien. Diese Texte werden in kleinere Einheiten zerlegt, die als Wörter oder Subwörter bezeichnet werden.

Sobald dies geschehen ist, verwendet das System einen Algorithmus, der als Transformer bezeichnet wird, um Beziehungen zwischen den Tokens zu erkennen und zu analysieren. Transformer sind neuronale Netze, die speziell für die Verarbeitung von Texten entwickelt wurden. Die Transformer-Architektur besteht aus einer Matrix von (Computer-)Neuronen, die als Multi-Head-Attention-Blöcke bezeichnet werden. Jeder Multi-Head-Attention-Block besteht aus mehreren Sub-Neuronen, die in der Lage sind, auf verschiedene Aspekte des Texts zu achten und diese Aspekte zu analysieren.

Modelloptimierung auch mit menschlicher Hilfe

Während des Lernprozesses durchläuft ChatGPT das Fine-Tuning. Dabei handelt es sich um einen iterativen Prozess, bei dem das Modell – auch durch menschliches Zutun, also spezialisierten Teams oder der Interaktion mit den Nutzern – schrittweise verbessert wird, indem es bestimmte Aufgaben trainiert. Diese können alles von der Generierung von Texten bis zur Beantwortung von Fragen umspannen. Ein Beispiel für eine solche Aufgabe ist das Erzeugen von Texten, bei dem das Modell eine bestimmte Eingabe erhält (beispielsweise ein Teil eines Satzes) und dann versucht, den Rest des Satzes basierend auf dem bisherigen Kontext zu vervollständigen.

Um das Modell auf eine bestimmte Aufgabe, etwa eine Textkategorisierung, zu trainieren, wird eine kleine Menge an Daten verwendet, die als Trainingsdaten bezeichnet werden. Diese Daten werden mit der Fine-Tuning-Technik verwendet, um das Modell auf die spezifische Aufgabe anzupassen. Wenn das Modell auf die Aufgabe abgestimmt ist, kann es verwendet werden, um neue Texte zu generieren oder Fragen zu beantworten, die mit der spezifischen Aufgabe zusammenhängen.

Zur Leistungsverbesserung wird auch Data Augmentation eingesetzt – eine Methode des maschinellen Lernens, die künstlich neue Trainingsdaten generiert, indem sie vorhandene Daten verändert oder umformt. Dabei wird der Trainingsdatensatz manipuliert, um das Modell auf verschiedene Szenarien vorzubereiten. Beispielsweise können die Daten durch Hinzufügen von Synonymen oder Antonymen manipuliert werden, um die Fähigkeit des Modells zu verbessern, unterschiedliche Bedeutungen und Kontexte zu erfassen.

Ein weiterer wichtiger Schritt beim Training von ChatGPT ist Backpropagation. Dabei wird der Fehler des Modells durch Vergleich der Ausgabe mit den erwarteten Ergebnissen berechnet. Anschließend wird der Fehler rückwärts durch das Netzwerk propagiert, um zu bestimmen, welche Ebenen und Gewichte des Netzwerks für den Fehler verantwortlich sind. Auf diese Weise kann das Modell optimiert werden, um zukünftige Fehler zu minimieren.

Mehr Hintergründe

Abstrakte Darstellung von Sprache

Künstliche Intelligenz im Verkehrssystem Ingolstadt (KIVI)

Lang andauernde Staus auf den Straßen, gefährliche Verkehrssituationen, häufige Unfälle – jeden Tag in jeder Stadt finden sich mehr als genug kritische Situationen im Stadtverkehr. Abhilfe schafft hier künftig die Künstliche Intelligenz (KI).