Modellierung 2 – Statistische Datenmodellierung, Sommersemester 2023

Achtung: Die finale Aufteilung in Lehreinheiten erfolgt erst nach der Vorbesprechung in der ersten Vorleusungswoche (erste Präsenzveranstaltung). Die Inhalte hier sind noch vorläufig.

Technische Hinweise

Backup Videoserver

Hinweis: Alle Videos werden auch auf dem Panopto-System der JGU gespiegelt. Anders als auf diesen Webseiten stehen die Videos dort im h264/mp4 Format zur Verfügung, das auf mehr Geräten (insbesondere Apple Safari/IPhone ohne Erweiterungen) abspielbar ist. Das Panopto System ist auch skalierbarer und kann noch genutzt werden, falls unser eigener Server die Last nicht bewältigen kann. Klicken Sie auf diesen Link, um auf die Panopto-Seite zu gelangen.

Wöchentliche Lehreinheiten / Videosammlungen

Im Laufe des Semesters finden 11 Präsenzveranstaltungen statt. In der ersten starten wir mit einer Wiederholung von maschinellem Lernen; hierzu gibt es auch einige Hintergrundvideos, die man sich optional anschauen kann. Danach gehen wir auf ca. 10 vertiefende Themen ein.

Die genaue Zusammensetzung der Inhalte wird aber erst in der Vorbesprechung festgelegt und im Laufe der ersten Vorlesungswoche in Bezug auf den Text auf diesem Server finalisiert.

Lehreinheit 1: Grundlagen / Wiederholung Statistisches Lernen
(17. April - 30. April 2023)

Sokrates sagte so schön: “Ich weiß das ich nichts weiß.” – Aber was machen, wenn das nicht reicht?

Wie können wir Wissen aus Daten (Beobachtungen) gewinnen?
Wir besprechen hier den Zusammenhang von empirischem Wissen im philosophischen Sinne und den Modellen der Statistik.
Danach schauen wir uns Methoden aus der Statistik an, um das ganze zu formalisieren.
Diese mathematischen Modelle nutzen wir dann, um mit Hilfe Bayes’scher Statistik Informationen aus Daten zu gewinnen.
Wenn man das systematisch und algorithmisch macht, führt das zum statistischen maschinellen Lernen.

Gaining Knowledge from Observations (73min)

Video: Uncertainty (73min)

1920x1080 (webm)

853x480 (webm)

Folien

pdf

Addendum

link

Statistics & Stochastics Recap (69min)

Video: Probability (18min)

1920x1080 (webm)

853x480 (webm)

Folien

pdf

Video: Statistical (In)dependence (21min)

1920x1080 (webm)

853x480 (webm)

Video: Moments and Measures of Distributions (30min)

1920x1080 (webm)

853x480 (webm)

Classical vs. Bayesian Statistics (53min)

Video: Frequentist and Bayesian Statistics (53min)

1920x1080 (webm)

853x480 (webm)

Folien

pdf

Bayesian Data Analysis & Machine Learning (98min)

Video: Machine Learning Basics (33min)

1920x1080 (webm)

853x480 (webm)

Folien

pdf

Video: Baysian Methods for ML (35min)

1920x1080 (webm)

853x480 (webm)

Addendum

link

Video: Learning and Inference (30min)

1920x1080 (webm)

853x480 (webm)

Literatur: Die folgenden Quellen, die zum Teil im Video bereits erwähnt wurden, vertiefen den Vorlesungsstoff

Aaron Hertzman: Introduction to Bayesian Learning. ACM Siggraph 2004 Course.
[Project Page] [Course Notes] [Course Slides]
Bemerkung: Eine kompakte und einsteigerfreundliche / praxisorientierte Einführung in Bayessche Statistik. Wenn man nicht viel Zeit zum Lesen hat, steht hier (fast) alles wichtige auf den Punkt gebracht.
David J.C.MacKay: Information Theory, Inference, and Learning Algorithms. Cambridge University Press, 2003. Online Version.
Bemerkung: Ein sehr empfehlenswertes Lehrbuch über Bayessche Statistik, maschinelles Lernen und die Verbindung zur Informationstheorie.
Richard O. Duda, Peter E. Hart, David G. Stork: Pattern Classification, Second Edition. Wiley, 2001.
Bemerkung: Eine einsteigerfreundliche Einführung in Bayessche Statistik und Klassifikationsalgorithmen, die darauf aufbauen. Das Buch startet mit dem Fisch-Classifier, der Vorbild für das Beispiel mit der automatischen Supermarktwaage im Video war.

Hausaufgaben:

Übungsblatt

Übungsblatt 01 (freiwillig)

Lehreinheit 2: Bayessche Datenanalyse und maschinelles Lernen – Beispiele und klassische Verfahren
(01.-07. Mai 2023)

In diesem Abschnitt schauen wir uns einige Beispiele an, wie man Daten analysieren (z.B. Bildrekonstruktion) oder klassifizieren (z.B. Bilderkennung) kann.

Die Videos stellen verschiedene Beispiele zu elementaren maschinellen Lernverfahren bzw. Bayesscher Datenanalyse vor. Zwei Videos (5a,5c) greifen Beispiele auf, die bereits in Modellierung 1 ausführlich diskutiert wurden (Video 14, 16, 21).

Bayesian Data Analysis and Classical Machine Learning (71 min + 36min optionale Wiederholung Mod-1)

Video: Gaussians, PCA, Least-Squares (Mod-1) (16min, optional)

1920x1080 (webm)

853x480 (webm)

Folien

pdf

Video: Klassische Klassifizierer (37min)

1920x1080 (webm)

853x480 (webm)

Addendum

link

Video: Bildrekonstruktion (Mod-1) (20min, optional)

1920x1080 (webm)

853x480 (webm)

Video: Bayessche Regression (34min)

1920x1080 (webm)

853x480 (webm)

Hausaufgaben:

Übungsblatt

Übungsblatt 02

Literatur: Die folgenden Quellen, die im Video erwähnt wurden, vertiefen den Vorlesungsstoff

Wiederholung Mod-1: Zusätzliche Informationen zu den Tehmen aus Modellierung 1 mit Abschnitten zu Least-Squares, PCA und Variationsmodellierung (in der Liste für Modellierung 1 siehe Video 14 für “Least-Squares”, Video 16 für “PCA” und das Ende von Video 21 für die Bildrekonstruktion).
Klassische Klassifizierer Mehr Details zur logistischen Regression Stanford CS229 Course Notes 1 (A. Ng), Stanford CS229 Course Notes 2 (J. Duchi), Wikipedia
Statistik der Bildrekonstruktion (Hintergrundmaterial zur 1-norm): Daniel L. Ruderman: The statistics of natural images. In: Network: Computation in Neural Systems (5) 1994 517-548.

Lehreinheit 3: Informationstheorie
(08.-14. Mai 2023)

Man kann Wahrscheinlichkeiten in Informationseinheiten konvertieren. Dazu nehmen wir von allem den Logarithmus. Klingt unspektakulär, ist aber überraschend interessant.

Information (79 min)

Video: Information Theory & Coding (28min)

1920x1080 (webm)

853x480 (webm)

Folien

pdf

Video: Additional Concepts & Applications (51min)

1920x1080 (webm)

853x480 (webm)

Hausaufgaben:

Übungsblatt

Übungsblatt 02

Literatur: Die folgenden Quellen, die im Video erwähnt wurden, vertiefen den Vorlesungsstoff

Massimiliano Tomassoli: Information Theory for Machine Learning, 2016.
https://github.com/mtomassoli/papers/blob/master/inftheory.pdf
David J.C.MacKay: Information Theory, Inference, and Learning Algorithms. Cambridge University Press, 2003. Online Version.

Lehreinheit 4: Generalisierung I
(15. Mai - 21.Mai 2023)

Daten fitten kann man so viel man will. Interessant ist das nur, wenn es auch auf zukünftigen Daten weiterhin funktioniert. Was wissen wir theoretisch darüber, ob das möglich ist, und können wir voraussehen, ob es klappen wird?

Dieser Abschnitt ist vielleicht der wichtigste der ganzen Vorlesung, denn er stellt die Frage, ob (bzw. wann) das ganze überhaupt Sinn macht. Die Argumente sind eigentlich sehr simpel, aber es geht wohl um den Kern der Sache.

Wir starten mit zwei grundlegenden (und nur scheinbar widersprüchlichen) Ergebnissen: Das Mittagessen ist nie umsonst, und Bias und Varianz kann trotzdem man gegeneinander ausspielen. Die Videos erklären, was das alles soll:

Generalisierung (79 min)

Video: The No-Free Lunch Theorem (27min)

1920x1080 (webm)

853x480 (webm)

Folien

pdf

Video: Statistical Learning Theory: Bias-Variance Trade-Off (61min)

1920x1080 (webm)

853x480 (webm)

Hausaufgaben:

Übungsblatt

Übungsblatt 03

Literatur: Nachlesen kann man das alles nochmal hier

Zum No-Free-Lunch-Theorem:
Richard O. Duda, Peter E. Hart, David G. Stork: Pattern Classification, Second Edition. Wiley, 2001.
Bias-Variance-Trade-Off:
Andrew Ng: CS229 Lecture notes “Learning Theory”. http://cs229.stanford.edu/notes2020spring/cs229-notes4.pdf
More on Statistical Learning Theory (1):
Tengyu Ma: Stanford CS229t “Statistical Learning Theory” courses notes. https://github.com/tengyuma/cs229m_notes/blob/main/master.pdf
More on Statistical Learning Theory (2):
Percy Liang: Stanford CS229t “Statistical Learning Theory” courses notes Winter 2016. https://web.stanford.edu/class/cs229t/2017/Lectures/percy-notes.pdf

Lehreinheit 5: Generalisierung II
(22. Mai - 04.Juni 2023)

Nun geht es an die etwas technischeren / subtilen Aspekte des Problems (dennoch von zentraler Bedeutung):

Wie kann man Occam’s Rasiermesser formalisieren? (hier am Beispiel mit Informationstheorie – es gibt noch diverse andere Ansätze)
Warum macht Bayes’sche Inferenz über mehrere Modellvarianten das (mehr-oder weniger) automatisch?

Dieses Video ist wahrscheinlich das wichtigste der ganzen Vorlesung.

tl;dr – Bayes’sche Inferenz ist schon toll (wenn auch leider meist ziemlich teuer). Hier gibt es mehr:

Generalisierung II (80 min)

Video: Bayesian Model Selection (80min)

1920x1080 (webm)

853x480 (webm)

Folien

pdf

Bemerkung: Gleicher Foliensatz für LE06 + LE 07.

Hausaufgaben:

Übungsblatt

Übungsblatt 04

Literatur: Die Hingergründe sind technisch etwas anspruchsvoller. Daher ist es hier besonders zu empfehlen, die Quellen genau zu lesen, auf denen das Video basiert.

Als erstes geht es um MDL. Die zentrale Quelle dazu ist:
Peter Grunwald: A tutorial introduction to the minimum description length principle. https://arxiv.org/pdf/math/0406077.pdf, 2004.
Eingangs wurden auch allgemeinere Coding-Length-Ansätze mit universellen Maschinen angesprochen, siehe hierzu z.B.: Materialien von J. Schmidhuber zu universellen Lernalgorithmen (mit weiteren Quellen) und dem Speed-Prior.
Der Zusammenhang von MDL und Bayes’scher Inferenz wird im Buch von D. MacKay gut erklärt (Kapitel IV-28):
David J.C.MacKay: Information Theory, Inference, and Learning Algorithms. Cambridge University Press, 2003. Online Version.
Bemerkung: Grunwald widerspricht der Einstellung zu einem gewissen grade; siehe daher auch die Diskussion dazu in der ersten Quelle.
Wer noch tiefer einsteigen möchte: MacKay erwähnt, dass Bayes’sche Inferenz mit Modellgewichtung “echte” Priors braucht. Die folgende Quelle erklärt, wo es sonst schiefgehen kann:
A.P. Dawid, M. Stone, J.V. Zidek: Critique of E.T. Jaynes’s “Paradox of Probability Theory”, https://www.ucl.ac.uk/drupal/site_statistics/sites/statistics/files/rr172.pdf, 2003.

Lehreinheit 6: Markov’sche Modelle
(05. - 11. Juni 2023)

Oft ist es sinnvoll statistische Abhängigkeiten einzuschränken. Eine wichtige Klasse von Modellen sind Markov-Random-Fields (mit Markovketten als Spezialfall). Hier hängen Zufallsvariablen nur von direkten zeitlichen oder räumlichen Nachbarn ab.

Diese Modelle sind besonders wichtig für die Modellierung physikalischer Systeme, bei denen elementare Wechselwirkungen immer mit der unmittelbaren räumlichen und zeitlichen Nachbarschaft stattfinden.

Man kann die Idee auch approximativ auf Systeme anwenden, die das “nur so ungefähr” erfüllen. Naja, wie immer halt.

Markovsche Modelle (101min)

Video: Markov Ketten (17min)

1920x1080 (webm)

853x480 (webm)

Folien

pdf

Video: Hidden Markov Models (27min)

1920x1080 (webm)

853x480 (webm)

Video: Markov Random Fields (57min)

1920x1080 (webm)

853x480 (webm)

Hausaufgaben:

Übungsblatt

Übungsblatt 05

Lehreinheit 7: Grundlagen tiefer Netze
(12.-18. Juni 2023)

Nun schauen wir uns Deep Learning an, die Technik die uns den jüngsten KI-Sommer beschert hat.

In diesem Teil geht es erstmal um die Grundlagen und einige Beispielarchitekturen.

Stack moah’ layers! (reddit)

Deep Learning (96min)

Video: Deep Learning Basics (43min)

1920x1080 (webm)

853x480 (webm)

Folien

pdf

Video: Deep Learning Methods and Architectures (53min)

1920x1080 (webm)

853x480 (webm)

Hinweis: Die Videos auf Folie 80/81 sind in der aktuellen Fassung sehr ruckelig – die Orginale kann man hier anschauen (externer Link auf Youtube).

Hausaufgaben:

Übungsblatt

Übungsblatt 06

Lehreinheit 8: Generative Modelle auf Basis tiefer Netze
(19. Juni - 25. Juni 2023)

Als ein (wichtiges und interessantes) Beispiel für komplexere Techniken für die Modellierung tiefer Netze schauen wir uns das Problem an, generative Modelle zu lernen. Das heißt, wir möchten aus Beispielen eine Wahrscheinlichkeitsverteilung rekonstruieren, um diese danach für allerlei Anwendungen einsetzen zu können. Was auf den ersten Blick nach einen recht harmlosen und grundlegenden Problem klingt, entpuppt sich als doch ziemlich herausfordernd.

Generative Deep Networks (95min)

Video: Generative Deep Networks (95min)

1920x1080 (webm)

853x480 (webm)

Folien

pdf

Bemerkung: Generative Modelle im Foliensatz für LE09 enthalten.

Hausaufgaben:

Übungsblatt

Übungsblatt 07

Literatur: Mehr zu GANs

Blog Artikel mit Übersicht über GAN und WGAN (und vielen weiteren Quellen): Lillian Weng: From GAN to WGAN, https://lilianweng.github.io/lil-log/2017/08/20/from-GAN-to-WGAN.html
Tero Karras, Timo Aila, Samuli Laine, Jaakko Lehtinen: Progressive Growing of GANs, ICLR 2018 [paper], [code].
Diese Arbeit ist nicht nur die Grundlage der derzeit besten GAN-Implementierungen – das Paper enthält auch eine sehr gut Anleitung, wie man ein (W-)GAN stabil trainieren kann. Wenn man den Schritte im Paper genau folgt, sollte es funktionieren.
Karras et al.: ProGAN, StyleGAN, StyleGAN2,… – Eine Übersicht über State-of-the-Art GAN Methoden von diesem Team.

Beispiel für Normalizing Flows:

Laurent Dinh, Jascha Sohl-Dickstein, Samy Bengio: Density estimation using Real NVP. ICLR 2017, https://openreview.net/forum?id=HkpbnH9lx.

Lehreinheit 9: Distanzen, Sampling, Kernels
(26. Juni - 02. Juli 2023)

Dieses Mal wollen wir besser verstehen, warum viele klassische Lernverfahren nicht funktionieren können, und wo wir zumindest wissen, dass tiefe Netze mehr Potential bieten: Wir schauen uns die Limitierungen distanz-basierter Lernverfahren an, indem wir das mit Samplingtheorie in Verbindung bringen.

Danach steigen wir in Kernelverfahren ein: Was, wenn wir doch einfach nur die Distanz anpassen müssen (und ganz allgemein ist das etwas, was auch ein tiefes Netzwerk macht)? Hier schauen wir uns die Grundlagen dazu an.

Vorschau: Beim nächsten Mal benutzen wir das dann, um verblüffende Eigenschaften von tiefen Netzen in einem einfachen, approximativen Kernel-Modell zu erklären.

Zwischenstand (11min)

Video: Deep Learning ist also magic; was nun? (11min)

1920x1080 (webm)

853x480 (webm)

Folien

pdf

Abschließend fassen wir nochmal zusammen, was wir bislang gelernt haben, und wo die großen offenen Fragen sind (auch als Motivation & Ausblick auf das letzte Drittel der Vorlesung). Wie können wir besser verstehen, warum (künstliche) neuronale Netzwerke eigentlich funktionieren?

Distances, Sampling, and kernels (74min)

Video: The Curse of Dimensionality (28min)

1920x1080 (webm)

853x480 (webm)

Folien

pdf

Video: Algorithms for High Dimensions (19min)

1920x1080 (webm)

853x480 (webm)

Video: Kernel methods (bis 27min / Folie 71). (27min)

1920x1080 (webm)

853x480 (webm)

Bemerkung:Das letzte Video zu Kernel Methoden brauchen Sie für die Diskussion diese Woche nur bis Minute 27 anschauen (Folie 71). Gauß’sche Prozesse machen wir nächstes Mal.

Außerdem ein Hinweis: Die Folien für diese und die nächsten beiden Lehreinheiten sind derzeit in einer Datei zusammengefasst.

Hausaufgaben:

Übungsblatt

Übungsblatt 08

Literatur: Der Fluch der hohen Dimension. Außerdem: Kernels

Hoch-dimensionale Räume
- Zum JS-Lemma: S. Dasgupta, A. Gupta: An Elementary Proof of a Theorem of Johnson and Lindenstrauss. Random Structures and Algorithms, 22(1):60-65, 2003, https://cseweb.ucsd.edu/~dasgupta/papers/jl.pdf
- Monte-Carlo Integration: Andrew Glassner: Principles of Digital Image Synthesis, Morgan-Kaufmann, 1995. https://www.realtimerendering.com/Principles_of_Digital_Image_Synthesis_v1.0.1.pdf
Kernel-Methoden
- Mehr zu Kernel-Methoden allgemein: John Shawe-Taylor, Nello Cristianini: Kernel Methods for Pattern Analysis. Cambridge University Press, 2004.
- Modellierung-1 Videos. Duale PCA / MDS wird in Video 17 “MDS & Co - Multi-Dimensional Scaling” erklärt, die Grundlagen (PCA) in Video 16 “Hauptachsenanalyse (Principal Component Analysis/PCA)”.

Lehreinheit 10: Gaußsche Prozesse
(03. - 09. Juli 2023)

Ein Spezialfall von Kernelmethoden sind “Gaußsche Prozesse”. Sie verallgemeinern eigentlich nur das Konzept von least-squares-fitting mit Basisfunktionen, wie wir es aus Modellierung 1 (oder LE04 in dieser Vorlesung) kennen auf den Fall unendlich-dimensionaler Basen.

Das ist nicht nur an sich ganz praktisch; es hilft auch dabei, komplexere Systeme wie tiefe Netzwerke zu modellieren und Analysieren. Die Ergebnisse sind durchaus überraschend.

Wir schauen uns nun an, wie man GPs baut, und wie man damit einige der Geheimnisse des tiefen Lernens lüften kann.

Gaussche Prozesse (53min)

Video: Kernel Methods & Gaussian Processes (53min; ab 27min / F. 72)

1920x1080 (webm)

853x480 (webm)

Folien

pdf

Bemerkung:Das Video zu bitte ab Minute 27 (Folie 72) weiterschauen (Fortsetzung von LE10).

Hinweis: Die Folien für die vorherige, diese und die nächste Lehreinheit sind derzeit in einer Datei zusammengefasst.

Hausaufgaben:

Übungsblatt

Übungsblatt 09

Literatur: Gaussche Prozesse & Analyse von tiefen Netzen

Gaussche Prozesse Allgemein
- Carl Edward Rasmussen, Christopher K. I. Williams: Gaussian Processes for Machine Learning. MIT Press, 2006. http://www.gaussianprocess.org/gpml/
Analyse von DNNs / Netzwerke als GPs
- R.M. Neal: Bayesian Learning for Neural Networks. Springer-Verlag, 1996. https://www.cs.toronto.edu/~radford/ftp/pin.ps
- C. Zhang, S. Bengio, M. Hardt, B. Recht, O. Vinyals: Understanding deep learning requires rethinking generalization. ICLR 2017. https://arxiv.org/pdf/1611.03530.pdf
- A. Achille, S. Soatto: Emergence of Invariance and Disentanglement in Deep Representations. Journal of Machine Learning Research 18 (2018) 1-34. https://arxiv.org/pdf/1706.01350.pdf
- M. Belkin, D. Hsu, S. Ma, S. Mandal: Reconciling modern machine-learning practice and the classical bias–variance trade-off. Proc. of the National Academy of Sciences 116 (32), 15849-15854, 2019. https://arxiv.org/pdf/1812.11118.pdf
- P. Nakkiran, G. Kaplun, Y. Bansal, T. Yang, B. Barak I. Sutskever: Deep Double Descent: Where Bigger Models and More Data Hurt. ICLR 2020. https://openreview.net/forum?id=B1g5sA4twr
Bayesian Model Averaging for DNNs
- A. Gordon W. P. Izmailov: Bayesian Deep Learning and a Probabilistic Perspective of Generalization, 2020. https://arxiv.org/pdf/2002.08791.pdf

Lehreinheit 11: Symmetrie
(10. - 16. Juli 2023)

Empirische Wissenschaften beschäftigen sich seit Jahrtausenden damit, Modelle der Welt zu bauen; hier können wir uns sicherlich ein paar Tricks abschauen. Besonders nah an unseren Bedürfnissen (mathematisch, reduktionistisch, in der Regel simulier- und implementierbar) sind die Ideen der Physiker.

Gehen wir also Ideen sammeln bei den theoretischen und statistischen Physikern. Als erstes fällt uns die Idee der Symmetrie in die Hände.

Symmetrie (74min)

Video: Symmetrie ist nicht vorhandene Information (16min)

1920x1080 (webm)

853x480 (webm)

Folien

pdf

Video: Etwas Gruppentheorie (34min)

1920x1080 (webm)

853x480 (webm)

Video: Equivarianz – strukturerhaltende Änderungen (24min)

1920x1080 (webm)

853x480 (webm)

Hausaufgaben:

Übungsblatt

Übungsblatt 10

Literatur: Zur Symmetrie

Mary Phuong, Christoph H. Lampert: Functional vs. parametric equivalence of ReLU networks. ICLR 2020. https://openreview.net/forum?id=Bylx-TNKvH
Das Paper diskutiert, welche unterschiedlichen ReLU Netzwerke die selbe Funktion berechnen können. Für diese Repräsentationssymmetrie gibt es (vielleicht überraschend) relativ wenige Freiheiten.
Taco S. Cohen, Max Welling: Group Equivariant Convolutional Networks. ICML 2016. https://arxiv.org/abs/1602.07576 Das Paper erklärt, wie man CNNs zu Netzwerken verallgemeinern kann, die unter allgemeinen Symmetriegruppen equivariant sind.
Allan Zhou, Tom Knowles, Chelsea Finn: Meta-learning Symmetries by Reparameterization. ICLR 2021. https://openreview.net/pdf?id=-QxT4mJdijq
Das Paper zeigt eine Methode, mit der man Symmetrien für ein Netzwerk lernen kann.
Crystallographic Space Groups: Wikipedia – alle zweihundernd-und-ein-paar verschiedenen Strukturen für Kristalle (Raumgruppen), und die wilde Geschichte, wie sie entdeckt wurden. Bonus: Dann hat noch jemand 5-fache Rotationssymmetrie gefunden, die es beweisbar nicht geben kann. Quasikristalle
Niloy J. Mitra, Mark Pauly, Michael Wand, Duygu Ceylan: Symmetry in 3D Geometry: Extraction and Applications. Eurographics State-of-the-Art-Report, 2012.
Ein Survey-Paper aus der Computergraphik über Symmetrie, mit einem etwas pragmatischeren und algorithmischem Ansatz. Aus alten Zeiten :-)

Lehreinheit 12: Physik und Emergenz
(17. - 22. Juli 2023)

Was uns besonders interessiert, sind effektive Theorien: Wir haben ein System aus unglaublich vielen kleinen Bestandteilen, und wir verstehen auch ungefähr, was die machen (wobei wir nicht alle Details genau messen können).

Was wir aber nicht wissen, ist was das ganze Ding im Groben so ungefähr machen wird. Statistische Datenmodellierung und statistisches Lernen versucht in der Regel ein solches Problem zu beantworten: Ist das eine Katze - ja oder nein? Egal, wie genau die Pixel aussehen.

Die statistiche Physik beschäftigt sich mit dem Problem, wie aus unwichtigen, mikroskopischen Details, die bekannten physikalischen Gesetzen folgen, gröbere, beobachtbare Strukturen entstehen. Hier ein erster Einstieg in die Methoden, die man sich dort abschauen kann.

Zur Einstimmung ins Thema: Übersicht Physik (53min, optional)

Video: Kurzüberblick: Physikalische Modelle aus Informatiksicht (53min)

1920x1080 (webm)

853x480 (webm)

Folien

pdf

Einordnung: Das Video ist nützlich um insbesondere das letzte, optionale Kapitel zu verstehen. Der Stoff ist nicht prüfungsrelevant, da es nicht um Informatikthemen geht.

Self-Organization & Emergent Structure (62min)

Video: Self-Organization & Emergent Structure (62min)

1920x1080 (webm)

853x480 (webm)

Folien

pdf

Hausaufgaben: Zu diesem Thema gibt es keine Übungsaufgaben mehr (letzte Vorlesungswoche).

Zusammenfassung/Rückblick: Zum Schluss gibt es noch ein kurzes Video mit einem Rückblick auf alle Vorlesungsinhalte, das dazu dienen soll, den Stoff insgesamt nochmal einzuordnen.

Zusammenfassung und Rückblick (10min)

Video: Concluding Remarks (10min)

1920x1080 (webm)

853x480 (webm)

Folien

pdf

Literatur: Physik + ML

Henry W. Lin, Max Tegmark, David Rolnick: Why does deep and cheap learning work so well? Journal of Statistical Physics volume 168, pages 1223–1247, 2017. https://arxiv.org/abs/1608.08225
Das Paper stellt genau die Fragen aus dem Video, und gibt einige Analysen, aber wohl keine endgültige Antwort. Trotzdem sehr zu empfehlen.
Daniel A. Roberts, Sho Yaida, Boris Hanin: The Principles of Deep Learning Theory: An Effective Theory Approach to Understanding Neural Networks. Cambridge University Press 2022. Online: https://arxiv.org/abs/2106.10165
Hier wird noch tiefer in die Trickkiste der theoretischen Physik gepackt, mit erstaunlichen Einsichten.

Optionales Kapitel: Manigfaltigkeiten und Informationsdistanz

Wir können Strukturen in Daten oft besser verstehen bzw. modellieren, wenn wir die Geometrie des Raumes so umdefinieren, dass er nicht mehr “flach” ist, sondern intrinisch gekrümmt.

Ein Beispiel dafür ist die Fischer-Metrik, die ein natürliches Abstandsmaß auf Wahrscheinlichkeitsverteilungen bietet, das im Allgemeinen anders geformt ist als z.B. schlicht die Parameter-Distanz (wenn man nur Parameter des Modells verändern kann, um verschiedene Verteilungen zu erzeugen).

Um das alles besser zu verstehen, machen wir einen kurzen, informellen Ausflug in die Differentialgeometrie und schauen uns dann die Fischer-Metrik genauer an.

Manigfaltigkeiten und Fischer-Information (100min)

Video: Differentialgeometrie und Information (100min)

1920x1080 (webm)

853x480 (webm)

Addendum

link

Folien

pdf

Hinweis: Die Folien für diese sowie die drei vorherigten Lehreinheiten sind derzeit in einer Datei zusammengefasst.

Literatur: Differentialgeometrie & Fisher-Information

Alfred Gray, Elsa Abbena, Simon Salamon: Modern Differential Geometry of Curves and Surfaces with Mathematica, Third Edition, Taylor & Francis, 2006. (Lehrbuch zu Differentialgeometrie, sehr verständlich geschrieben; den “Mathematica”-Teil kann man überblättern, wenn man nur die Theorie nachlesen will).
James Martens: New Insights and Perspectives on the Natural Gradient Method
Journal of Machine Learning Research 21 (2020) 1-76
https://jmlr.org/papers/volume21/17-678/17-678.pdf
(Fisher-Information Matrix & Natural Gradient Descent)
Agustinus Kristiadi: Fisher Information Matrix / Natural Gradient Descent
https://wiseodd.github.io/techblog/2018/03/11/fisher-information/
https://wiseodd.github.io/techblog/2018/03/14/natural-gradient/
(schöner Blog-Post, der das wichtigste zusammenfasst)

Vorlesung “Modellierung 2”
Vorlesungsvideos & Lehreinheiten

Inhalt

Aktuelle Information

Vorläufige Webseite

Technische Hinweise

Backup Videoserver

Wöchentliche Lehreinheiten / Videosammlungen

Lehreinheit 1: Grundlagen / Wiederholung Statistisches Lernen
(17. April - 30. April 2023)

Lehreinheit 2: Bayessche Datenanalyse und maschinelles Lernen – Beispiele und klassische Verfahren
(01.-07. Mai 2023)

Lehreinheit 3: Informationstheorie
(08.-14. Mai 2023)

Lehreinheit 4: Generalisierung I
(15. Mai - 21.Mai 2023)

Lehreinheit 5: Generalisierung II
(22. Mai - 04.Juni 2023)

Lehreinheit 6: Markov’sche Modelle
(05. - 11. Juni 2023)

Lehreinheit 7: Grundlagen tiefer Netze
(12.-18. Juni 2023)

Lehreinheit 8: Generative Modelle auf Basis tiefer Netze
(19. Juni - 25. Juni 2023)

Lehreinheit 9: Distanzen, Sampling, Kernels
(26. Juni - 02. Juli 2023)

Lehreinheit 10: Gaußsche Prozesse
(03. - 09. Juli 2023)

Lehreinheit 11: Symmetrie
(10. - 16. Juli 2023)

Lehreinheit 12: Physik und Emergenz
(17. - 22. Juli 2023)

Optionales Kapitel: Manigfaltigkeiten und Informationsdistanz

Vorlesung “Modellierung 2” Vorlesungsvideos & Lehreinheiten

Inhalt

Aktuelle Information

Vorläufige Webseite

Technische Hinweise

Backup Videoserver

Wöchentliche Lehreinheiten / Videosammlungen

Lehreinheit 1: Grundlagen / Wiederholung Statistisches Lernen (17. April - 30. April 2023)

Lehreinheit 2: Bayessche Datenanalyse und maschinelles Lernen – Beispiele und klassische Verfahren (01.-07. Mai 2023)

Lehreinheit 3: Informationstheorie (08.-14. Mai 2023)

Lehreinheit 4: Generalisierung I (15. Mai - 21.Mai 2023)

Lehreinheit 5: Generalisierung II (22. Mai - 04.Juni 2023)

Lehreinheit 6: Markov’sche Modelle (05. - 11. Juni 2023)

Lehreinheit 7: Grundlagen tiefer Netze (12.-18. Juni 2023)

Lehreinheit 8: Generative Modelle auf Basis tiefer Netze (19. Juni - 25. Juni 2023)

Lehreinheit 9: Distanzen, Sampling, Kernels (26. Juni - 02. Juli 2023)

Lehreinheit 10: Gaußsche Prozesse (03. - 09. Juli 2023)

Lehreinheit 11: Symmetrie (10. - 16. Juli 2023)

Lehreinheit 12: Physik und Emergenz (17. - 22. Juli 2023)

Optionales Kapitel: Manigfaltigkeiten und Informationsdistanz

Vorlesung “Modellierung 2”
Vorlesungsvideos & Lehreinheiten

Lehreinheit 1: Grundlagen / Wiederholung Statistisches Lernen
(17. April - 30. April 2023)

Lehreinheit 2: Bayessche Datenanalyse und maschinelles Lernen – Beispiele und klassische Verfahren
(01.-07. Mai 2023)

Lehreinheit 3: Informationstheorie
(08.-14. Mai 2023)

Lehreinheit 4: Generalisierung I
(15. Mai - 21.Mai 2023)

Lehreinheit 5: Generalisierung II
(22. Mai - 04.Juni 2023)

Lehreinheit 6: Markov’sche Modelle
(05. - 11. Juni 2023)

Lehreinheit 7: Grundlagen tiefer Netze
(12.-18. Juni 2023)

Lehreinheit 8: Generative Modelle auf Basis tiefer Netze
(19. Juni - 25. Juni 2023)

Lehreinheit 9: Distanzen, Sampling, Kernels
(26. Juni - 02. Juli 2023)

Lehreinheit 10: Gaußsche Prozesse
(03. - 09. Juli 2023)

Lehreinheit 11: Symmetrie
(10. - 16. Juli 2023)

Lehreinheit 12: Physik und Emergenz
(17. - 22. Juli 2023)