Lösbare hochdimensionale Attention-Modelle: Eine Theorie der Generalisierung für Token-Sequenzen – 29.01.2026
Die Lecture widmet sich der theoretischen Analyse von Attention-Layern, die heute das Herz moderner Machine-Learning-Architekturen bilden. Im Fokus steht die Frage, wie solche Systeme aus Daten generalisieren und welche Prinzipien ihr Lernverhalten auf Sequenzen von Tokens bestimmen. Anhand analysierbarer hochdimensionaler Modelle werden Lern- und Generalisierungsleistungen erstmals in geschlossener Form charakterisiert.
Im Mittelpunkt stehen überwachte Lernszenarien, in denen die Modelle präzise theoretische Vorhersagen ermöglichen und mechanistische Einblicke in das Repräsentationslernen von Attention-basierten Architekturen liefern. Abschließend wird ein Ausblick gegeben, wie diese Ergebnisse den Weg zu handhabbaren theoretischen Modellen für selbstüberwachtes und generatives Training mit Attention ebnen.
Weitere Informationen finden Sie auf der Startseite der Munich AI Lectures:
https://baiosphere.org/science/munich-ai-lectures
Zur Vortragenden: Lenka Zdeborová ist Professorin für Physik und Informatik an der École Polytechnique Fédérale de Lausanne (EPFL) und leitet dort das Statistical Physics of Computation Laboratory. Ihre Forschung verbindet Methoden der statistischen Physik mit Fragestellungen aus Machine Learning, Inferenz und Optimierung. Sie wurde vielfach ausgezeichnet, unter anderem mit dem CNRS Bronze Medal, dem Irène-Joliot-Curie-Preis sowie ERC Grants, und arbeitet an theoretischen Modellen, die erklären, wie moderne KI-Systeme lernen, generalisieren und skalieren.
Veranstalter: Technische Universität München (TUM)
Hier findet die Lecture statt: https://nav.tum.de/room/0101.Z1.090
Sprache: Englisch
Zielgruppe: Forschende, Studierende, Wissenschaftlerinnen und Wissenschaftler aus Machine Learning, KI, Mathematik, Physik und theoretischer Informatik