Vorlesung “Modellierung 2”
Vorlesungsvideos & Lehreinheiten

Stand: 07.04.2023

Inhalt

Aktuelle Information

Vorläufige Webseite

Achtung: Die finale Aufteilung in Lehreinheiten erfolgt erst nach der Vorbesprechung in der ersten Vorleusungswoche (erste Präsenzveranstaltung). Die Inhalte hier sind noch vorläufig.

Technische Hinweise

Backup Videoserver

Hinweis: Alle Videos werden auch auf dem Panopto-System der JGU gespiegelt. Anders als auf diesen Webseiten stehen die Videos dort im h264/mp4 Format zur Verfügung, das auf mehr Geräten (insbesondere Apple Safari/IPhone ohne Erweiterungen) abspielbar ist. Das Panopto System ist auch skalierbarer und kann noch genutzt werden, falls unser eigener Server die Last nicht bewältigen kann. Klicken Sie auf diesen Link, um auf die Panopto-Seite zu gelangen.

Wöchentliche Lehreinheiten / Videosammlungen

Im Laufe des Semesters finden 11 Präsenzveranstaltungen statt. In der ersten starten wir mit einer Wiederholung von maschinellem Lernen; hierzu gibt es auch einige Hintergrundvideos, die man sich optional anschauen kann. Danach gehen wir auf ca. 10 vertiefende Themen ein.

Die genaue Zusammensetzung der Inhalte wird aber erst in der Vorbesprechung festgelegt und im Laufe der ersten Vorlesungswoche in Bezug auf den Text auf diesem Server finalisiert.

Lehreinheit 1: Grundlagen / Wiederholung Statistisches Lernen
(17. April - 30. April 2023)

Sokrates sagte so schön: “Ich weiß das ich nichts weiß.” – Aber was machen, wenn das nicht reicht?

Gaining Knowledge from Observations (73min)
Video: Uncertainty (73min)
1920x1080 (webm)     853x480 (webm)
Folien
pdf
Addendum
Statistics & Stochastics Recap (69min)
Video: Probability (18min)
1920x1080 (webm)     853x480 (webm)
Folien
pdf
Video: Statistical (In)dependence (21min)
1920x1080 (webm)     853x480 (webm)
Video: Moments and Measures of Distributions (30min)
1920x1080 (webm)     853x480 (webm)
Classical vs. Bayesian Statistics (53min)
Video: Frequentist and Bayesian Statistics (53min)
1920x1080 (webm)     853x480 (webm)
Folien
pdf
Bayesian Data Analysis & Machine Learning (98min)
Video: Machine Learning Basics (33min)
1920x1080 (webm)     853x480 (webm)
Folien
pdf
Video: Baysian Methods for ML (35min)
1920x1080 (webm)     853x480 (webm)
Addendum
Video: Learning and Inference (30min)
1920x1080 (webm)     853x480 (webm)

Literatur: Die folgenden Quellen, die zum Teil im Video bereits erwähnt wurden, vertiefen den Vorlesungsstoff

  • Aaron Hertzman: Introduction to Bayesian Learning. ACM Siggraph 2004 Course.
    [Project Page] [Course Notes] [Course Slides]
    Bemerkung: Eine kompakte und einsteigerfreundliche / praxisorientierte Einführung in Bayessche Statistik. Wenn man nicht viel Zeit zum Lesen hat, steht hier (fast) alles wichtige auf den Punkt gebracht.
  • David J.C.MacKay: Information Theory, Inference, and Learning Algorithms. Cambridge University Press, 2003. Online Version.
    Bemerkung: Ein sehr empfehlenswertes Lehrbuch über Bayessche Statistik, maschinelles Lernen und die Verbindung zur Informationstheorie.
  • Richard O. Duda, Peter E. Hart, David G. Stork: Pattern Classification, Second Edition. Wiley, 2001.
    Bemerkung: Eine einsteigerfreundliche Einführung in Bayessche Statistik und Klassifikationsalgorithmen, die darauf aufbauen. Das Buch startet mit dem Fisch-Classifier, der Vorbild für das Beispiel mit der automatischen Supermarktwaage im Video war.
Hausaufgaben:

Lehreinheit 2: Bayessche Datenanalyse und maschinelles Lernen – Beispiele und klassische Verfahren
(01.-07. Mai 2023)

In diesem Abschnitt schauen wir uns einige Beispiele an, wie man Daten analysieren (z.B. Bildrekonstruktion) oder klassifizieren (z.B. Bilderkennung) kann.

Die Videos stellen verschiedene Beispiele zu elementaren maschinellen Lernverfahren bzw. Bayesscher Datenanalyse vor. Zwei Videos (5a,5c) greifen Beispiele auf, die bereits in Modellierung 1 ausführlich diskutiert wurden (Video 14, 16, 21).

Bayesian Data Analysis and Classical Machine Learning (71 min + 36min optionale Wiederholung Mod-1)
Video: Gaussians, PCA, Least-Squares (Mod-1) (16min, optional)
1920x1080 (webm)     853x480 (webm)
Folien
pdf
Video: Klassische Klassifizierer (37min)
1920x1080 (webm)     853x480 (webm)
Addendum
Video: Bildrekonstruktion (Mod-1) (20min, optional)
1920x1080 (webm)     853x480 (webm)
Video: Bayessche Regression (34min)
1920x1080 (webm)     853x480 (webm)
Hausaufgaben:
Übungsblatt

Literatur: Die folgenden Quellen, die im Video erwähnt wurden, vertiefen den Vorlesungsstoff

Lehreinheit 3: Informationstheorie
(08.-14. Mai 2023)

Man kann Wahrscheinlichkeiten in Informationseinheiten konvertieren. Dazu nehmen wir von allem den Logarithmus. Klingt unspektakulär, ist aber überraschend interessant.

Information (79 min)
Video: Information Theory & Coding (28min)
1920x1080 (webm)     853x480 (webm)
Folien
pdf
Video: Additional Concepts & Applications (51min)
1920x1080 (webm)     853x480 (webm)
Hausaufgaben:
Übungsblatt

Literatur: Die folgenden Quellen, die im Video erwähnt wurden, vertiefen den Vorlesungsstoff

Lehreinheit 4: Generalisierung I
(15. Mai - 21.Mai 2023)

Daten fitten kann man so viel man will. Interessant ist das nur, wenn es auch auf zukünftigen Daten weiterhin funktioniert. Was wissen wir theoretisch darüber, ob das möglich ist, und können wir voraussehen, ob es klappen wird?

Dieser Abschnitt ist vielleicht der wichtigste der ganzen Vorlesung, denn er stellt die Frage, ob (bzw. wann) das ganze überhaupt Sinn macht. Die Argumente sind eigentlich sehr simpel, aber es geht wohl um den Kern der Sache.

Wir starten mit zwei grundlegenden (und nur scheinbar widersprüchlichen) Ergebnissen: Das Mittagessen ist nie umsonst, und Bias und Varianz kann trotzdem man gegeneinander ausspielen. Die Videos erklären, was das alles soll:

Generalisierung (79 min)
Video: The No-Free Lunch Theorem (27min)
1920x1080 (webm)     853x480 (webm)
Folien
pdf
Video: Statistical Learning Theory: Bias-Variance Trade-Off (61min)
1920x1080 (webm)     853x480 (webm)
Hausaufgaben:
Übungsblatt

Literatur: Nachlesen kann man das alles nochmal hier

Lehreinheit 5: Generalisierung II
(22. Mai - 04.Juni 2023)

Nun geht es an die etwas technischeren / subtilen Aspekte des Problems (dennoch von zentraler Bedeutung):

Dieses Video ist wahrscheinlich das wichtigste der ganzen Vorlesung.

tl;dr – Bayes’sche Inferenz ist schon toll (wenn auch leider meist ziemlich teuer). Hier gibt es mehr:
Generalisierung II (80 min)
Video: Bayesian Model Selection (80min)
1920x1080 (webm)     853x480 (webm)
Folien
pdf
Bemerkung: Gleicher Foliensatz für LE06 + LE 07.
Hausaufgaben:
Übungsblatt

Literatur: Die Hingergründe sind technisch etwas anspruchsvoller. Daher ist es hier besonders zu empfehlen, die Quellen genau zu lesen, auf denen das Video basiert.

  • Als erstes geht es um MDL. Die zentrale Quelle dazu ist:
    Peter Grunwald: A tutorial introduction to the minimum description length principle. https://arxiv.org/pdf/math/0406077.pdf, 2004.
  • Eingangs wurden auch allgemeinere Coding-Length-Ansätze mit universellen Maschinen angesprochen, siehe hierzu z.B.: Materialien von J. Schmidhuber zu universellen Lernalgorithmen (mit weiteren Quellen) und dem Speed-Prior.
  • Der Zusammenhang von MDL und Bayes’scher Inferenz wird im Buch von D. MacKay gut erklärt (Kapitel IV-28):
    David J.C.MacKay: Information Theory, Inference, and Learning Algorithms. Cambridge University Press, 2003. Online Version.
    Bemerkung: Grunwald widerspricht der Einstellung zu einem gewissen grade; siehe daher auch die Diskussion dazu in der ersten Quelle.
  • Wer noch tiefer einsteigen möchte: MacKay erwähnt, dass Bayes’sche Inferenz mit Modellgewichtung “echte” Priors braucht. Die folgende Quelle erklärt, wo es sonst schiefgehen kann:
    A.P. Dawid, M. Stone, J.V. Zidek: Critique of E.T. Jaynes’s “Paradox of Probability Theory”, https://www.ucl.ac.uk/drupal/site_statistics/sites/statistics/files/rr172.pdf, 2003.

Lehreinheit 6: Markov’sche Modelle
(05. - 11. Juni 2023)

Oft ist es sinnvoll statistische Abhängigkeiten einzuschränken. Eine wichtige Klasse von Modellen sind Markov-Random-Fields (mit Markovketten als Spezialfall). Hier hängen Zufallsvariablen nur von direkten zeitlichen oder räumlichen Nachbarn ab.

Diese Modelle sind besonders wichtig für die Modellierung physikalischer Systeme, bei denen elementare Wechselwirkungen immer mit der unmittelbaren räumlichen und zeitlichen Nachbarschaft stattfinden.

Man kann die Idee auch approximativ auf Systeme anwenden, die das “nur so ungefähr” erfüllen. Naja, wie immer halt.

Markovsche Modelle (101min)
Video: Markov Ketten (17min)
1920x1080 (webm)     853x480 (webm)
Folien
pdf
Video: Hidden Markov Models (27min)
1920x1080 (webm)     853x480 (webm)
Video: Markov Random Fields (57min)
1920x1080 (webm)     853x480 (webm)
Hausaufgaben:
Übungsblatt

Lehreinheit 7: Grundlagen tiefer Netze
(12.-18. Juni 2023)

Nun schauen wir uns Deep Learning an, die Technik die uns den jüngsten KI-Sommer beschert hat.

In diesem Teil geht es erstmal um die Grundlagen und einige Beispielarchitekturen.

Stack moah’ layers! (reddit)

Deep Learning (96min)
Video: Deep Learning Basics (43min)
1920x1080 (webm)     853x480 (webm)
Folien
pdf
Video: Deep Learning Methods and Architectures (53min)
1920x1080 (webm)     853x480 (webm)
Hinweis: Die Videos auf Folie 80/81 sind in der aktuellen Fassung sehr ruckelig – die Orginale kann man hier anschauen (externer Link auf Youtube).
Hausaufgaben:
Übungsblatt

Lehreinheit 8: Generative Modelle auf Basis tiefer Netze
(19. Juni - 25. Juni 2023)

Als ein (wichtiges und interessantes) Beispiel für komplexere Techniken für die Modellierung tiefer Netze schauen wir uns das Problem an, generative Modelle zu lernen. Das heißt, wir möchten aus Beispielen eine Wahrscheinlichkeitsverteilung rekonstruieren, um diese danach für allerlei Anwendungen einsetzen zu können. Was auf den ersten Blick nach einen recht harmlosen und grundlegenden Problem klingt, entpuppt sich als doch ziemlich herausfordernd.

Generative Deep Networks (95min)
Video: Generative Deep Networks (95min)
1920x1080 (webm)     853x480 (webm)
Folien
pdf
Bemerkung: Generative Modelle im Foliensatz für LE09 enthalten.
Hausaufgaben:
Übungsblatt

Literatur: Mehr zu GANs

  • Blog Artikel mit Übersicht über GAN und WGAN (und vielen weiteren Quellen): Lillian Weng: From GAN to WGAN, https://lilianweng.github.io/lil-log/2017/08/20/from-GAN-to-WGAN.html
  • Tero Karras, Timo Aila, Samuli Laine, Jaakko Lehtinen: Progressive Growing of GANs, ICLR 2018 [paper], [code].
    Diese Arbeit ist nicht nur die Grundlage der derzeit besten GAN-Implementierungen – das Paper enthält auch eine sehr gut Anleitung, wie man ein (W-)GAN stabil trainieren kann. Wenn man den Schritte im Paper genau folgt, sollte es funktionieren.
  • Karras et al.: ProGAN, StyleGAN, StyleGAN2,… – Eine Übersicht über State-of-the-Art GAN Methoden von diesem Team.

Beispiel für Normalizing Flows:

Lehreinheit 9: Distanzen, Sampling, Kernels
(26. Juni - 02. Juli 2023)

Dieses Mal wollen wir besser verstehen, warum viele klassische Lernverfahren nicht funktionieren können, und wo wir zumindest wissen, dass tiefe Netze mehr Potential bieten: Wir schauen uns die Limitierungen distanz-basierter Lernverfahren an, indem wir das mit Samplingtheorie in Verbindung bringen.

Danach steigen wir in Kernelverfahren ein: Was, wenn wir doch einfach nur die Distanz anpassen müssen (und ganz allgemein ist das etwas, was auch ein tiefes Netzwerk macht)? Hier schauen wir uns die Grundlagen dazu an.

Vorschau: Beim nächsten Mal benutzen wir das dann, um verblüffende Eigenschaften von tiefen Netzen in einem einfachen, approximativen Kernel-Modell zu erklären.

Zwischenstand (11min)
Video: Deep Learning ist also magic; was nun? (11min)
1920x1080 (webm)     853x480 (webm)
Folien
pdf

Abschließend fassen wir nochmal zusammen, was wir bislang gelernt haben, und wo die großen offenen Fragen sind (auch als Motivation & Ausblick auf das letzte Drittel der Vorlesung). Wie können wir besser verstehen, warum (künstliche) neuronale Netzwerke eigentlich funktionieren?

Distances, Sampling, and kernels (74min)
Video: The Curse of Dimensionality (28min)
1920x1080 (webm)     853x480 (webm)
Folien
pdf
Video: Algorithms for High Dimensions (19min)
1920x1080 (webm)     853x480 (webm)
Video: Kernel methods (bis 27min / Folie 71). (27min)
1920x1080 (webm)     853x480 (webm)

Bemerkung:Das letzte Video zu Kernel Methoden brauchen Sie für die Diskussion diese Woche nur bis Minute 27 anschauen (Folie 71). Gauß’sche Prozesse machen wir nächstes Mal.

Außerdem ein Hinweis: Die Folien für diese und die nächsten beiden Lehreinheiten sind derzeit in einer Datei zusammengefasst.

Hausaufgaben:
Übungsblatt

Literatur: Der Fluch der hohen Dimension. Außerdem: Kernels

Lehreinheit 10: Gaußsche Prozesse
(03. - 09. Juli 2023)

Ein Spezialfall von Kernelmethoden sind “Gaußsche Prozesse”. Sie verallgemeinern eigentlich nur das Konzept von least-squares-fitting mit Basisfunktionen, wie wir es aus Modellierung 1 (oder LE04 in dieser Vorlesung) kennen auf den Fall unendlich-dimensionaler Basen.

Das ist nicht nur an sich ganz praktisch; es hilft auch dabei, komplexere Systeme wie tiefe Netzwerke zu modellieren und Analysieren. Die Ergebnisse sind durchaus überraschend.

Wir schauen uns nun an, wie man GPs baut, und wie man damit einige der Geheimnisse des tiefen Lernens lüften kann.

Gaussche Prozesse (53min)
Video: Kernel Methods & Gaussian Processes (53min; ab 27min / F. 72)
1920x1080 (webm)     853x480 (webm)
Folien
pdf

Bemerkung:Das Video zu bitte ab Minute 27 (Folie 72) weiterschauen (Fortsetzung von LE10).

Hinweis: Die Folien für die vorherige, diese und die nächste Lehreinheit sind derzeit in einer Datei zusammengefasst.

Hausaufgaben:
Übungsblatt

Literatur: Gaussche Prozesse & Analyse von tiefen Netzen

Lehreinheit 11: Symmetrie
(10. - 16. Juli 2023)

Empirische Wissenschaften beschäftigen sich seit Jahrtausenden damit, Modelle der Welt zu bauen; hier können wir uns sicherlich ein paar Tricks abschauen. Besonders nah an unseren Bedürfnissen (mathematisch, reduktionistisch, in der Regel simulier- und implementierbar) sind die Ideen der Physiker.

Gehen wir also Ideen sammeln bei den theoretischen und statistischen Physikern. Als erstes fällt uns die Idee der Symmetrie in die Hände.

Symmetrie (74min)
Video: Symmetrie ist nicht vorhandene Information (16min)
1920x1080 (webm)     853x480 (webm)
Folien
pdf
Video: Etwas Gruppentheorie (34min)
1920x1080 (webm)     853x480 (webm)
Video: Equivarianz – strukturerhaltende Änderungen (24min)
1920x1080 (webm)     853x480 (webm)
Hausaufgaben:
Übungsblatt

Literatur: Zur Symmetrie

  • Mary Phuong, Christoph H. Lampert: Functional vs. parametric equivalence of ReLU networks. ICLR 2020. https://openreview.net/forum?id=Bylx-TNKvH
    Das Paper diskutiert, welche unterschiedlichen ReLU Netzwerke die selbe Funktion berechnen können. Für diese Repräsentationssymmetrie gibt es (vielleicht überraschend) relativ wenige Freiheiten.
  • Taco S. Cohen, Max Welling: Group Equivariant Convolutional Networks. ICML 2016. https://arxiv.org/abs/1602.07576 Das Paper erklärt, wie man CNNs zu Netzwerken verallgemeinern kann, die unter allgemeinen Symmetriegruppen equivariant sind.
  • Allan Zhou, Tom Knowles, Chelsea Finn: Meta-learning Symmetries by Reparameterization. ICLR 2021. https://openreview.net/pdf?id=-QxT4mJdijq
    Das Paper zeigt eine Methode, mit der man Symmetrien für ein Netzwerk lernen kann.
  • Crystallographic Space Groups: Wikipedia – alle zweihundernd-und-ein-paar verschiedenen Strukturen für Kristalle (Raumgruppen), und die wilde Geschichte, wie sie entdeckt wurden. Bonus: Dann hat noch jemand 5-fache Rotationssymmetrie gefunden, die es beweisbar nicht geben kann. Quasikristalle
  • Niloy J. Mitra, Mark Pauly, Michael Wand, Duygu Ceylan: Symmetry in 3D Geometry: Extraction and Applications. Eurographics State-of-the-Art-Report, 2012.
    Ein Survey-Paper aus der Computergraphik über Symmetrie, mit einem etwas pragmatischeren und algorithmischem Ansatz. Aus alten Zeiten :-)

Lehreinheit 12: Physik und Emergenz
(17. - 22. Juli 2023)

Was uns besonders interessiert, sind effektive Theorien: Wir haben ein System aus unglaublich vielen kleinen Bestandteilen, und wir verstehen auch ungefähr, was die machen (wobei wir nicht alle Details genau messen können).

Was wir aber nicht wissen, ist was das ganze Ding im Groben so ungefähr machen wird. Statistische Datenmodellierung und statistisches Lernen versucht in der Regel ein solches Problem zu beantworten: Ist das eine Katze - ja oder nein? Egal, wie genau die Pixel aussehen.

Die statistiche Physik beschäftigt sich mit dem Problem, wie aus unwichtigen, mikroskopischen Details, die bekannten physikalischen Gesetzen folgen, gröbere, beobachtbare Strukturen entstehen. Hier ein erster Einstieg in die Methoden, die man sich dort abschauen kann.

Zur Einstimmung ins Thema: Übersicht Physik (53min, optional)
Video: Kurzüberblick: Physikalische Modelle aus Informatiksicht (53min)
1920x1080 (webm)     853x480 (webm)
Folien
pdf

Einordnung: Das Video ist nützlich um insbesondere das letzte, optionale Kapitel zu verstehen. Der Stoff ist nicht prüfungsrelevant, da es nicht um Informatikthemen geht.

Self-Organization & Emergent Structure (62min)
Video: Self-Organization & Emergent Structure (62min)
1920x1080 (webm)     853x480 (webm)
Folien
pdf

Hausaufgaben: Zu diesem Thema gibt es keine Übungsaufgaben mehr (letzte Vorlesungswoche).



Zusammenfassung/Rückblick: Zum Schluss gibt es noch ein kurzes Video mit einem Rückblick auf alle Vorlesungsinhalte, das dazu dienen soll, den Stoff insgesamt nochmal einzuordnen.

Zusammenfassung und Rückblick (10min)
Video: Concluding Remarks (10min)
1920x1080 (webm)     853x480 (webm)
Folien
pdf

Literatur: Physik + ML

  • Henry W. Lin, Max Tegmark, David Rolnick: Why does deep and cheap learning work so well? Journal of Statistical Physics volume 168, pages 1223–1247, 2017. https://arxiv.org/abs/1608.08225
    Das Paper stellt genau die Fragen aus dem Video, und gibt einige Analysen, aber wohl keine endgültige Antwort. Trotzdem sehr zu empfehlen.
  • Daniel A. Roberts, Sho Yaida, Boris Hanin: The Principles of Deep Learning Theory: An Effective Theory Approach to Understanding Neural Networks. Cambridge University Press 2022. Online: https://arxiv.org/abs/2106.10165
    Hier wird noch tiefer in die Trickkiste der theoretischen Physik gepackt, mit erstaunlichen Einsichten.

Optionales Kapitel: Manigfaltigkeiten und Informationsdistanz

Wir können Strukturen in Daten oft besser verstehen bzw. modellieren, wenn wir die Geometrie des Raumes so umdefinieren, dass er nicht mehr “flach” ist, sondern intrinisch gekrümmt.

Ein Beispiel dafür ist die Fischer-Metrik, die ein natürliches Abstandsmaß auf Wahrscheinlichkeitsverteilungen bietet, das im Allgemeinen anders geformt ist als z.B. schlicht die Parameter-Distanz (wenn man nur Parameter des Modells verändern kann, um verschiedene Verteilungen zu erzeugen).

Um das alles besser zu verstehen, machen wir einen kurzen, informellen Ausflug in die Differentialgeometrie und schauen uns dann die Fischer-Metrik genauer an.

Manigfaltigkeiten und Fischer-Information (100min)
Video: Differentialgeometrie und Information (100min)
1920x1080 (webm)     853x480 (webm)
Addendum
Folien
pdf

Hinweis: Die Folien für diese sowie die drei vorherigten Lehreinheiten sind derzeit in einer Datei zusammengefasst.

Literatur: Differentialgeometrie & Fisher-Information







Datenschutz     Impressum