Seminar “Visual Computing”, Sommersemester 2021

Organisatorisches

Wählen Sie eines der unten genannten Themen aus (einige Themen können doppelt belegt werden - siehe Beschreibung - in dem Fall müssen allerdings die Wahl des Unterthemas angegeben werden).

Um ein Thema (verbindlich!) zu wählen, posten Sie den Namen des Papers in den MS-Teams-Channel “Themenauswahl Seminar”. Schauen Sie dort vorher nach, ob das Thema schon vergeben wurde. Falls das Thema nicht explizit als ein solches markiert wurde, welches die Bearbeitung durch mehrere Studierende zulässt, kann es in der Regel nicht nochmal vergeben werden. Das sollte nicht so schlimm sein - die Auswahl ist sehr groß.

Die Auswahl sollte bis Ende Juli 2021 (31.07.2021) erfolgen. Allerdings werden Themen first-come-first-served vergeben.

Es ist zulässig, selbst Themen vorzuschlagen; diese werden dann entsprechend geprüft (Schwierigkeit, Umfang) und zugelassen, falls das Thema geeignet ist. Grundlage muss in jedem Fall eine aktuelle Forschungsarbeit der letzten 10 Jahre im Gebiet maschinelles Lernen oder Computer Vision (und deren Anwendungen) sein. Vorschläge können nur bis zum 15. Juli 2021 entgegengenommen werden.

Anforderungsstufen

Die Themen sind grob in drei Anforderungsstufen eingeteilt:

Themen, die nahtlos an die Vertiefenden Themen in der Vorlesung Modellierung 2 aus dem Sommersemester 2021 anschließen, sind wie folgt markiert:

Hinweis: Für Studierende im Master “Digitale Methodik in den Geistes- und Kulturwissenschaften” gelten die Anforderungen des Informatik-Bachelors.

Aufgabenstellung

Die Themenliste gibt für jedes Thema eine grobe Aufgabenstellung an. Dies soll zur Orientierung dienen - die genaue Aufgabenstellung werden Sie mit Ihrem Betreuer festlegen.

Die Beschreibung der Aufgabenstellung soll vor allem bei komplexeren Themen die Aufgabe etwas einschränken, damit es nicht zu kompliziert wird. Bei einfacheren Themen stehen dort in der Regel leichte Variationen von “stellen Sie das Paper vor” (bzw., wenn nichts angegeben ist, ist das die Aufgabe).

Hinweise zu den Betreuer/innen

Die Verweise auf die Betreuer/innen ist noch vorläufig. Dies wird sich voraussichtlich nochmal ändern.

Themenliste

Applications & Architectures

Yoshua Bengio, Jérôme Louradour, Ronan Collobert, Jason Weston: Curriculum learning ICML ’09: Proceedings of the 26th Annual International Conference on Machine Learning, Pages 41–48, June 2009. https://doi.org/10.1145/1553374.1553380

Inhalt: Es ist einfacher, zunächst einfache Sachen zu lernen.

Anforderungen: Schwierigkeitsgrad 1 Relativ einfach zu verstehen, keine wilde Mathematik.

Betreuer: David HARTMANN

Stanislav Pidhorskyi, Donald Adjeroh, Gianfranco Doretto:
Adversarial Latent Autoencoders.
CVPR 2020

Inhalt: Noch mehr hübsche Bilder via tiefe generativer Netze? Wie wäre es mit einer Kombination von GANs und Autoencodern? Sehr hübsche Bilder! :-)

Aufgabe: Erklären Sie die Grundidee der Methode, wie sie umgesetzt wurde und wie sie sich in Experimenten schlägt.

Anspruch: Schwierigkeitsgrad 2 Methodisch nicht sehr kompliziert, aber man muss den Hingergrund der diversen GAN-Varianten verstehen, um das Paper richtig verstehen zu können. Das ist etwas Aufwand.

Betreuer: Sebastian BRODEHL

Cecilia Summers, Michael J. Dinneen:
Four Things Everyone Should Know to Improve Batch Normalization.
ICLR 2020
https://openreview.net/forum?id=HJx8HANFDH

Inhalt: Vier einfache kleine Verbesserungen, mit denen man die Performance von BN-Netzwerken etwas verbessern kann (ohne großen Aufwand). Dazu ein schöner Überblick über die verschiedenen Normalisierungsstrategien.

Aufgabe: Erklären Sie die grundlegenden Normalisierungsschemata (BatchNorm, InstanceNorm, GroupNorm, LayerNorm) und danach, welche Tricks hier vorgeschlagen wurden. Damit es nicht ausufert, können Sie sich eine Teilmenge aussuchen, die Sie genauer vorstellen (und den Rest nur am Rande erwähnen).

Anspruch: Schwierigkeitsgrad 2 Im Master wird eine tiefere Diskussion der Grundlagen und Zusammenhänge erwartet.

Betreuer: David HARTMANN

Antoine Yang, Pedro M Esperança, Fabio Maria Carlucci:
NAS Evaluation is Frustratingly Hard.
ICLR 2020

Inhalt: Automatisch gute Architekturen zu suchen scheint ein Weg zu sein, näher an “richtige” Intelligenz zu kommen. Aber funktionieren die Algorithmen, die es bisher so gibt eigentlich vernünftig? Dieses Paper versucht, herauszufinden, was “neural architecture search” so drauf hat.

Aufgabe: Fassen Sie die Untersuchungsmethode(n) und Ergebnisse zusammen.

Anspruch: Schwierigkeitsgrad 1 / Schwierigkeitsgrad 2 relativ einfach; man kann den Anspruch steigern, indem man Vorarbeiten zu NAS genauer diskutiert.

Betreuer: Christian ALI MEHMETI-GÖPEL

Wesley J. Maddox, Pavel Izmailov, Timur Garipov, Dmitry P. Vetrov, Andrew Gordon Wilson A Simple Baseline for Bayesian Uncertainty in Deep Learning
NeurIPS 2019
https://papers.nips.cc/paper/2019/hash/118921efba23fc329e6560b27861f0c2-Abstract.html

Inhalt: Warum nicht volle Bayes’sche Inferenz mit tiefen Netzen? Ist ein Versuch Wert!

Anspruch: Schwierigkeitsgrad 2 Mit Hintergrund aus der Vorlesung sollte es nicht zu schwer zu verstehen sein.

Betreuer: Jan DISSELHOFF

Andrew Gordon Wilson, Pavel Izmailov Bayesian Deep Learning and a Probabilistic Perspective of Generalization.
ICML 2020
https://arxiv.org/abs/2002.08791

Inhalt: Eine etwas aufwendigere Methode, um Bayesian Model Averaging mit tiefen Netzen zu machen. Baut auf dem vorherigen Paper auf. Die Ergebnisse sind allerdings sehr gut und sehr interessant.

Anspruch: Schwierigkeitsgrad 2 / Schwierigkeitsgrad 3 Mathematisch ist es nicht super-schwierig, aber man muss sich den Kontext erarbeiten

Betreuer: Jan DISSELHOFF

Mohamed Ishmael Belghazi, Aristide Baratin, Sai Rajeswar, Sherjil Ozair, Yoshua Bengio, Aaron Courville, R Devon Hjelm:
MINE: Mutual Information Neural Estimation.
ICML 2018
https://arxiv.org/pdf/1801.04062.pdf

Inhalt: Die Mutual Information hochdimensionaler Zufallsvariablen abzuschätzen, ist leider ein fieses (=exponentielles) Problem. Kann man das mit tiefen Netzen approximieren? (Klar – ist ein Versuch wert!)

Aufgabe: Erklären Sie die Grundidee der Method und was erreicht wurde. Navigieren sie vorsichtig durch die mathematischen Untiefen des Ansatzes.

Anspruch: Schwierigkeitsgrad 3 Das Paper setzt einiges an Vorkenntnissen, z.B. über Informationstheorie, voraus.

Betreuer: Sebastian BRODEHL

Understanding Deep Learning – Experiments

Preetum Nakkiran, Gal Kaplun,Yamini Bansal, Tristan Yang, Boaz Barak, Ilya Sutskever:
Deep Double Descent: Where Bigger Models and More Data Hurt
ICLR 2020
https://openreview.net/forum?id=B1g5sA4twr

Inhalt: Interessantes Experiment über das Generalisierungsverhalten von tiefen Netzen bei verschiedener Modellkomplexität und Trainingsdauer. Es ist anders als man denkt - es geht zweimal bergab.

Aufgabe: Fassen Sie die Ergebnisse und Hintergründe zusammen.

Anspruch: Schwierigkeitsgrad 1 / Schwierigkeitsgrad 2 relativ einfach zu verstehen, trotzdem ein sehr interessantes Ergebnis. ML-Grundwissen nötig. Für Mastervorträge sollten die Hintergründe (z.B. mit Bezug auf Vorarbeiten) genauer erklärt werden.

Betreuer: David HARTMANN

M. Belkin, D. Hsu, S. Ma, S. Mandal: Reconciling modern machine-learning practice and the classical bias–variance trade-off.
Proc. of the National Academy of Sciences 116 (32), 15849-15854, 2019.
https://arxiv.org/pdf/1812.11118.pdf

Inhalt: Führt den Double-Descent ein, und liefert eine recht plausible Erklärung dafür

Aufgabe: Erklären Sie das Phänomen (und wodurch es entsteht) an ein oder zwei Beispielen (das Paper liefert mehrere).

Anspruch: Schwierigkeitsgrad 2

Betreuer: Christian ALI MEHMETI-GÖPEL

Jingtong Su,Yihang Chen, Tianle Cai, Tianhao Wu, Ruiqi Gao, Liwei Wang, Jason D. Lee:
Sanity-Checking Pruning Methods: Random Tickets can Win the Jackpot
NeurIPS 2020
https://proceedings.neurips.cc/paper/2020/file/eae27d77ca20db309e056e3d2dcd7d69-Paper.pdf

Inhalt: Die “Lottery-Ticket-Hypothese” besagt, dass ein überparametrisiertes Netzwerk ein Subnetzwerk enthält, dass die Aufgabe gut löst, und dass das Training dieses findet. Dieses Paper zeigt, dass das alles vielleicht ganz anders ist, und es keine “besonderen” Lotterie-Tickets gibt.

Aufgabe: Erklären Sie, was das Paper herausgefunden hat, und was das für die “Lottery-Ticket”-Hypothese bedeutet.

Anspruch: Schwierigkeitsgrad 2 Relativ einfach zu verstehen, aber man muss sich die Vorarbeiten zum “Lottery-Ticket” anschauen, um den “Impact” zu verstehen. Daher insgesamt durchaus anspruchsvoll.

Betreuer: David HARTMANN

Xiao Zhang, Dongrui Wu:
Empirical Studies on the Properties of Linear Regions in Deep Neural Networks.
ICLR 2020

Inhalt: Ein ReLu-Netzwerk teilt den Eingaberaum in stückweise lineare Funktionen auf, die auf einem Netzwerk von konvexen Polyedern wirken. Aber wie sehen die aus, wenn man verschiedene Architekturen oder Trainingsmethoden anwendet?

Aufgabe: Fassen Sie die Ideen, Methoden und Ergebnisse zusammen

Anspruch: Schwierigkeitsgrad 2 Die experimentellen Aspekte sind nicht besonders schwer zu verstehen. Die Modelle für die Experimente sind etwas anspruchsvoller, aber auch kein Hexenwerk.

Betreuer: Christian ALI MEHMETI-GÖPEL

Chiyuan Zhang, Samy Bengio, Yoram Singer:
Are All Layers Created Equal?
ICML Workshop on Deep Phenomena 2019

Inhalt: In einem mehrlagigen Feed-Forward-Netzwerk kann man einige Layer nach dem Training neu initialisieren und wieder von vorne trainieren, ohne dass das besonders schlimm wäre. Bei anderen ist die Performance dahin. Nicht alle Layer sind gleich.

Aufgabe: Fassen Sie die Ergebnisse und die Methoden zur Analyse der Netzwerke zusammen

Anspruch: Schwierigkeitsgrad 1 / Schwierigkeitsgrad 2 relativ einfach zu verstehen, viele Experimente.

Betreuer: Christian ALI MEHMETI-GÖPEL

Understanding Deep Learning – Theory

G. Cybenko: Approximation by superpositions of a sigmoidal function. Mathematics of Control, Signals and Systems volume 2, pp. 303–314, 1989.

oder alternativ:

Michael A. Nielsen: A visual proof that neural nets can compute any function. Chapter 4 of “Neural Networks and Deep Learning”, Determination Press, 2015.
http://neuralnetworksanddeeplearning.com/chap4.html

Inhalt: Ein einfaches theoretisches Thema – Beweis, dass neuronale Netzwerke unverselle Funktionsapproximatoren sind (die erste Quelle ist etwas formaler, die zweite anschaulicher).

Aufgabe: Erklären Sie, was da bewiesen wurde und was uns das sagt. Erklären Sie auch, wo die Grenzen dieses Ergebnisses liegen; warum ist damit noch nicht “alles gelöst”?

Anforderungen: Schwierigkeitsgrad 1 Theorie, aber nicht besonders schwer.

Betreuer: Christian ALI MEHMETI-GÖPEL

Patrick Kidger, Terry Lyons: Universal Approximation with Deep Narrow Networks.
Proceedings of Thirty Third Conference on Learning Theory, PMLR 125:2306-2327, 2020.
http://proceedings.mlr.press/v125/kidger20a.html

Inhalt: Eine anspruchsvollere Version des Themas oben, diesmal mit schmalen, aber tiefen Netzen.

Aufgabe: Erklären Sie auch hier, was gezeigt wurde, und grob wie. Warum ist dies eine Verbesserung gegenüber der Arbeit von 1989

Anforderungen: Schwierigkeitsgrad 3 Deutlich anspruchsvoller als das vorherige Thema.

Betreuer: Christian ALI MEHMETI-GÖPEL

Radford M. Neal:
Priors for Infinite Networks.
Bayesian Learning for Neural Networks, Lecture Notes in Statistics (LNS vol. 118), pp. 29-53, 1996.
Technical Report: https://www.cs.toronto.edu/~radford/ftp/pin.pdf

Inhalt: Das erste Paper, das Gauß’sche Prozesse und Neuronale Netze verbindet. Der Großvater aller NTK-Papers.

Anspruch: Schwierigkeitsgrad 2 / Schwierigkeitsgrad 3

Betreuer: Christian ALI MEHMETI-GÖPEL

Jaehoon Lee , Yasaman Bahri, Roman Novak, Samuel S. Schoenholz, Jeffrey Pennington, Jascha Sohl-Dickstein:
Deep Neural Networks as Gaussian Processes.
ICLR 2018

Inhalt: Es ist schon länger bekannt, dass ein 1-Layer-Netzwerk für unendliche Breite gegen einen Gaußschen Prozess konvergiert (was man sich als eine Kernel-Version einer Normalverteilung vorstellen kann, d.h., nach einer nicht-linearen Featuretransformation, welche sich durch ein modifiziertes Skalarprodukt indirekt darstellen lässt, ist es nur noch eine gewöhnliche Normalverteilung). Dieses Paper zeigt, dass dies auch für mehrlagige Netzwerke gilt, und zeigt Experimente, in denen direkt mit den Grenzwert-Kernel trainiert wird (was in den relativ einfachen Benchmarks in dem Paper besser funktioniert als endlich-große Netzwerke; i.Alg. ist das aber weniger klar).

Aufgabe: Wichtigste Aufgabe ist hier, die Kernergebnisse herauszuarbeiten und möglichst klar zu erklären, was dort herausgefunden wurde und warum das stimmt. Die formalen Beweise im Anhang gehen wahrscheinlich zu weit.

Anspruch: Schwierigkeitsgrad 3 Das Thema ist relativ anspruchsvoll; man muss sich gut mit linearer Algebra auskennen und sollte schonmal etwas von Kernelmethoden gehört haben. Trotzdem vielleicht zugänglicher als das nächste Paper (“NTK”).

Tipp: Dieser Blog-Artikel erklärt es sehr gut und anschaulich: Rajat Vadiraj Dwaraknath: Understanding the Neural Tangent Kernel. https://rajatvd.github.io/NTK/

Betreuer: Jan DISSELHOFF

Arthur Jacot, Franck Gabriel, Clément Hongler:
Neural Tangent Kernel: Convergence and Generalization in Neural Networks.
NeurIPS 2018.

Inhalt: Nachdem gezeigt wurde, dass unendlich breite neuronale Netze wie Gaussche Prozesse funktionieren (also lineare, convexe Optimierungsprobleme sind, nach einer nicht-linearen Abbildung (“Feature Map”), die sich durch Ersetzen des Standardskalarproduktes durch einen Kernel darstellen lässt), zeigt dieses Paper nun, dass der Gradientenabstieg ebenfalls “kernelisiert” werden kann, wobei im allgemeinen dieser “Neural Tangent Kernel” (NTK) im Parameterraum variiert. Im Grenzfall von unendlich weiten Netzwerken wird dieser NTK stationär und man kann mit einer Eigenfunktionsanalyse verstehen, wohin die ganze Optimierung konvergiert.

Anspruch: Schwierigkeitsgrad 3 Das Thema ist relativ anspruchsvoll; man muss sich gut mit linearer Algebra auskennen und sollte schonmal etwas von Kernelmethoden gehört haben. Ein bischen Funktionalanalysis schadet auch nicht.

Aufgabe: Das Paper behandelt eine ganze Menge verwandter Fragen. Wichtigste Aufgabe ist daher, die Kernergebnisse herauszuarbeiten und möglichst klar zu erklären, was dort herausgefunden wurde und warum das stimmt. Die formalen Beweise im Anhang gehen hier wahrscheinlich zu weit.

Tipp: Dieser Blog-Artikel erklärt es sehr gut und anschaulich: Rajat Vadiraj Dwaraknath: Understanding the Neural Tangent Kernel. https://rajatvd.github.io/NTK/

Betreuer: Jan DISSELHOFF

Yang Song, Jascha Sohl-Dickstein, Diederik P. Kingma, Abhishek Kumar, Stefano Ermon, Ben Poole: Score-Based Generative Modeling Through Stochastic Differential Equations.
ICLR 2021
https://arxiv.org/pdf/2011.13456.pdf

Inhalt: SOTA-Performance für generative Modelle (z.B. Bilderzeugung) ohne GANs. Das ist doch mal was!

Anspruch: Schwierigkeitsgrad 3 Benutzt anspruchsvollere mathematische Werkzeuge, aber die Grundidee ist nicht zu abstrakt. Hübsche Bilder im Anhang.

Betreuer: Jan Disselhoff

Boris Hanin, David Rolnick:
Deep ReLU Networks Have Surprisingly Few Activation Patterns.
NeurIPS 2019

Inhalt: Eine theoretische Analyse, gestützt durch Experimente mit echten Netzwerken, die die Komplexität von tiefen Netzwerken abschätzt (im Sinne der Anzahl stückweise linearer Regionen). Es sind nicht ganz so viele, wie man meinen könnte (aber immer noch eine Menge).

Aufgabe: Fassen Sie die wesentlichen Ideen und Ergebnisse zusammen, und erklären Sie, warum das so ist. Man muss dazu nicht alle mathematischen Feinheiten nachvollziehen; die Grundideen sind am wichtigsten.

Anspruch: Schwierigkeitsgrad 3 Mathematisch nicht ganz einfach.

Betreuer: Jan DISSELHOFF

David Balduzzi, Marcus Frean, Lennox Leary, JP Lewis, Kurt Wan-Duo Ma, Brian McWilliams:
The Shattered Gradients Problem: If resnets are the answer, then what is the question?
ICML 2017

Inhalt: Residual Networks funktionieren ziemlich gut. Aber warum eigentlich? Das Paper beschreibt ein Modell, welches ein chaotisches Verhalten der Gradienten im Parameterraum als Erklärungsmodell anführt, welches bei ResNets verrinngert wird.

Aufgabe: Erklären Sie die Ideen/Modelle/Experimente in dem Paper!

Anspruch: Schwierigkeitsgrad 2 / Schwierigkeitsgrad 3 Je nachdem, wie tief man in die Theorie einsteigt, ist das Paper mehr oder weniger schwer zu verstehen.

Betreuer: Christian ALI MEHMETI-GÖPEL

L. Zhang, G. Naitzat, L.-H. Lim:
Tropical Geometry of Deep Neural Networks.
ICML 2018

Inhalt: Die Arbeit beschreibt, wie man ReLu-Netzwerke als rationale Polynome in sogenannter “Tropischer Algebra” auffassen kann, einer Struktur, die ähnlich zu einem Körper ist, aber gewisse Eigenschaften ausläßt. Danach wird diese Analogie angewandt, um die Komplexität und Struktur der berechneten Funktionen eines Netzwerkes zu characterisieren.

Aufgabe: Geben Sie einen Überblick über den Ansatz und die Hauptergebnisse, stellen sie exemplarisch dar, wie das Modell des Papiers aufgebaut wird. Geben Sie dem Publikum eine Anschauung dessen, was hier gemacht wird. Wichtig ist es, eine sinnvolle Auswahl dessen zu treffen, was man im Seminarvortrag erklären möchte.

Anforderungen: Schwierigkeitsgrad 3 Für Studierende mit Haupt- oder Nebenfach Mathematik im Master empfohlen.

Betreuer: Jan DISSELHOFF

Will Grathwohl, Kuan-Chieh Wang, Joern-Henrik Jacobsen, David Duvenaud, Mohammad Norouzi, Kevin Swersky:
Your classifier is secretly an energy based model and you should treat it like one.
ICLR 2020

Inhalt: Man kann bei einem Klassifizierer p(y|x) nebenbei auch die unnormalisierte Dichte p(x,y) und p(x) mittrainieren. Dazu werden EBM-Methoden auf Sampling-Basis benutzt. Man bekommt ein generativ-discriminatives Hybrid, welches sich in beiden Disziplinen erstaunlich gut schlägt. Die Optimierung ist allerdings eine ziemliche Fummelei.

Anforderungen: Schwierigkeitsgrad 3 Relativ tiefe ML-Kenntnisse erforderlich, um das Problem zu verstehen.

Betreuer: David HARTMANN

Niladri Chatterji, Behnam Neyshabur, Hanie Sedghi:
The intriguing role of module criticality in the generalization of deep networks.
ICLR 2020

Inhalt: Wie stark darf man die Parameter eines Moduls (Layer bzw. allgemeiner bei ResNets) zurück zur Initialisierung schieben, bis die Performance unter einen Threshold fällt? Nicht alle Module sind kritisch, und man kann aus dieser Analyse generalisierungsschranken ableiten (da sie die Variabilität der Klassifizierungsfunktion messen).

Anforderungen: Schwierigkeitsgrad 3 Vorkenntnisse in statistischer Lerntheorie, Covering-Numbers/Rademacher, PAC-Bayes notwendig (sonst kaum verständlich). Dann sind die Ideen aber gut nachvollziehbar.

Betreuer: David HARTMANN







Datenschutz     Impressum