Seminar “Visual Computing”, Sommersemester 2022

Stand: 01.07.2022, 23:30


Organisatorisches

Wählen Sie eines der unten genannten Themen aus.

Um ein Thema (verbindlich!) zu wählen, posten Sie den Namen des Papers in den MS-Teams-Channel “Themenauswahl Seminar”. Schauen Sie dort vorher nach, ob das Thema schon vergeben wurde. Falls das Thema nicht explizit als ein solches markiert wurde, welches die Bearbeitung durch mehrere Studierende zulässt, kann es in der Regel nicht nochmal vergeben werden. Das sollte nicht so schlimm sein - die Auswahl ist sehr groß.

Die Themen first-come-first-served vergeben.

Es ist zulässig, selbst Themen vorzuschlagen; diese werden dann entsprechend geprüft (Schwierigkeit, Umfang) und zugelassen, falls das Thema geeignet ist. Grundlage muss in jedem Fall eine aktuelle Forschungsarbeit der letzten 10 Jahre im Gebiet maschinelles Lernen oder Computer Vision (und deren Anwendungen) sein.

Anforderungsstufen

Die Themen sind grob in drei Anforderungsstufen eingeteilt:

Hinweis: Für Studierende im Master “Digitale Methodik in den Geistes- und Kulturwissenschaften” sowie “Angewandte Bioinformatik” gelten ggf. andere Anforderungen; hier Bitte um persönliche Absprache bei Teilnahme.

Aufgabenstellung

Die Themenliste gibt für jedes Thema eine grobe Aufgabenstellung an. Dies soll zur Orientierung dienen - die genaue Aufgabenstellung werden Sie mit Ihrem Betreuer festlegen.

Die Beschreibung der Aufgabenstellung soll vor allem bei komplexeren Themen die Aufgabe etwas einschränken, damit es nicht zu kompliziert wird. Bei einfacheren Themen stehen dort in der Regel leichte Variationen von “stellen Sie das Paper vor” (bzw., wenn nichts angegeben ist, ist das die Aufgabe).

Themenliste

Es gibt zwei Themengebiete: - Eines mit Fokus self-attention-Methoden (vor allem Transformer), mit vielen Beispielen aus der Computer-Vision und Natural Language Processing. - Sowie ein zweites mit mehr Bezug zur Physik (methodisch oder in der Anwendung). Zu letzteren gehören auch die allerneusten generative Modelle, die auf inversen Diffusionsgleichungen beruhen.

Themengebiet 1: Attention!

Aufmerksamkeit und sprechende Autos – Grundlagen und Bestandsaufnahme


Thema 1.1: Attention in Machine Learning and Neural Networks

Aufgabenstellung: Erklären Sie, wie “Attention”-Mechanismen in Machine Learning bzw. bei neuronalen Netzen grundsätzlich funktionieren. Die u.g. Quelle ist das Paper, dass die Sache im Bereich “Deep Learning” ins Rollen gebracht hat. Sie können dieses Paper im Detail vorstellen, aber auch gerne etwas mehr Kontext einbringen (und dann weniger tief einsteigen).

Literatur:

Schwierigkeit: Mittel / Schwierigkeitsgrad 2


Thema 1.2: Die “Transformer”-Architektur

Aufgabenstellung: Erklären Sie, wie “Transformers” funktionieren (die tiefen Netze, nicht die sprechenden Autos). Die unten angegebene Quelle ist das original-Paper, dass die Architektur eingeführt hat. Es ist aber nicht so einfach zu lesen und zu verstehen. Sie können daher gerne andere Quellen hinzuziehen (auch Sekundärliteratur wir Lehrbücher und Blogs). Wichtig ist, dass im Vortrag klar wird, wie Transformers funktionieren (und warum man das so gemacht hat). Die angegebene Quelle dient als Startpunkt (Aufgabe ist nicht, dass Paper selbst zusammenzufassen, sondern die Idee darin zu erklären und einzuordnen.)

Literatur:

Schwierigkeit: Mittel / Schwierigkeitsgrad 2


Thema 1.3: GPT-3 – ein System, das eine EIP-Klausur automatisch lösen kann (unter anderem)

Aufgabenstellung: Erklären Sie die Struktur von GPT-3 und dessen praktische Umsetzung sowie einige experimentelle Ergebnisse (Zusammenfassung Paper unten).

Literatur:

Schwierigkeit: Mittel / Schwierigkeitsgrad 2


Thema 1.4: Aufmerksamkeit in Computer Vision – frühe Ansätze (I)

Aufgabenstellung: Bei dem “DRAW”-Netzwerk handelt es sich um einen älteren Ansatz, der Attention-Mechanismen für generative Bildmodellierung benutzt. Erklären Sie uns, wie das funktioniert und was dabei herausgekommen ist (also Zusammenfassung Paper unten).

Literatur:

Schwierigkeit: Mittel / Schwierigkeitsgrad 2


Thema 1.5: Aufmerksamkeit in Computer Vision – frühe Ansätze (II)

Aufgabenstellung: Das unten angegebene Paper ist eine der ersten Anwendungen von Attention im Sinne von Bahdanau et al. (Thema 1.1) auf Computer Vision Aufgaben. Erklären Sie uns die Method und die Ergebnisse (also: Paper zusammenfassen).

Literatur:

Schwierigkeit: Mittel / Schwierigkeitsgrad 2


Thema 1.6: Vision Transformers

Aufgabenstellung: Transformers kann man auch auf Computer-Vision-Aufgaben anwenden, und die Ergebnisse sind beeindruckend. Erklären Sie das folgende Paper, welches die Idee der NLP-Transformer (natural language processsing) recht “wörtlich” auf Bilder anwendet.

Literatur:

Schwierigkeit: Mittel / Schwierigkeitsgrad 2


Thema 1.7: GPT-2 für Pixel

Aufgabenstellung: Das folgende Paper benutzt die GPT-2 Architektur, um Bilderkennung zu betreiben. Insbesondere wird mittels unsupervised-learning vortrainiert, was durchaus praktisch ist. Fassen Sie das u.g. Paper zusammen.

Literatur:

Schwierigkeit: Mittel / Schwierigkeitsgrad 2


Thema 1.8: Transformer in 3D

nein, nicht die Autos, die Netze

Aufgabenstellung: Man kann die Idee von Transformers auch auf 3D Punktwolken anwenden, und das haben natürlich einige gleich ausprobiert. Aufgabe ist, das u.g. Paper zusammenzufassen, das genau das tut.

Literatur:

Schwierigkeit: Mittel / Schwierigkeitsgrad 2


Thema 1.9: Schnellere Transformer 1: Hierarchische Transformer

Aufgabenstellung: Transformer Architekturen sind relativ rechenintensiv (da eine quadratische Attention-Matrix berechnet werden muss); man kann verschiedene Tricks anwenden, um die Berechnung zu beschleunigen. Eine Idee ist die Verwendung von hierarchischen Repräsentationen (alte Informatik Regel: langsam → Baum → schnell). Aufgabe ist es, das Problem und dessen Lösung in u.g. Paper zu diskutieren.

Literatur:

Schwierigkeit: Mittel bis etwas anspruchsvoller Schwierigkeitsgrad 2 / Schwierigkeitsgrad 3


Thema 1.10: Schnellere Transformer 2: Landmark-MDS

Alles ist PCA

Aufgabenstellung: Transformer Architekturen sind relativ rechenintensiv (da eine quadratische Attention-Matrix berechnet werden muss); man kann verschiedene Tricks anwenden, um die Berechnung zu beschleunigen. Warum also nicht mal Dimensionsreduktion? Hilft doch fast immer. Aufgabe ist es, das Problem und dessen Lösung in u.g. Paper zu diskutieren. Das Paper bietet auch eine sehr schöne Literaturübersicht; es kann Sinn machen (optional), die Arbeit etwas einzuordnen (es gibt mehr als nur PCA).

Literatur:

Schwierigkeit: Mittel bis etwas anspruchsvoller Schwierigkeitsgrad 2 / Schwierigkeitsgrad 3


Thema 1.11: Neues aus der Graphik - Generative Modelle für 2D+3D

Aufgabenstellung: Es gibt sein einiger Zeit “neural rendering”-Architekturen, die volumetrische Repräsentationen von Reflektanzfeldern lernen. Hier nun ein Paper, dass diese Idee mit 3D Rekonstruktion von Geometrie verbindet. Aufgabe: Stellen Sie vor, was die wesentlichen Ideen sind, wie das gesamte System funktioniert, und was es in der Praxis leistet (also Paper grob zusammenfassen).

Literatur:

Schwierigkeit: Mittel Schwierigkeitsgrad 2 (bei Vorkenntnissen in Graphik & Vision)


Thema 1.12: Noch mehr 3D Rekonstruktion

Aufgabenstellung: Eine aktuelle Arbeit, die (noch besser) 3D Geometrie aus Bildern rekonstruiert. Fassen Sie das u.g. Paper zusammen.

Literatur:

Schwierigkeit: Mittel Schwierigkeitsgrad 2 (bei Vorkenntnissen in Graphik & Vision)


Themengebiet 2: Anwendungen und Modelle/Methoden aus der Physik

Handgemalte Kunst ist so 2021


Thema 2.1: Langevin Dynamics & Diffusionsmodelle für Unsupervised Learning

Aufgabenstellung: Die beiden angegebenen Papers beschreiben die Idee, eine stochastische Differentialgleichung rückwärts laufen zu lassen, um generative statistische Modelle zu lernen. Überraschenderweise gelingt dies unter gewissen Bedingungen, und ist die Basis für “Diffusionsmodell”, die in jüngerer Zeit die GANs vom Tron der besten Bildfälscher gestoßen haben. Das Papers sind theoretisch etwas anspruchsvoller. Die Aufgabe ist hier nicht, alle Inhalte der Papers zusammenzufassen sondern die Kernidee(n) wiederzugeben, so das die Teilnehmer/innen verstehen, wie Diffusionsmodelle funktionieren.

Literatur:

Schwierigkeit: Anspruchsvoll Schwierigkeitsgrad 3


Thema 2.2: Diffusion beats GANs

Aufgabenstellung: Vor kurzem haben die Diffusionsmodelle stark an Popularität gewonnen. In dem Paper unten werden die Ergebnisse mit GANs verglichen. Die Aufgabe ist, die Erkenntniss dazu aus dem u.g. Paper zusammenzufassen und die Hintergründe grob einzuordnen (z.B. Kapitel 2). Je nachdem, wie tief man in letztere Aufgabe einsteigt, kann das Thema recht anspruchsvoll werden.

Literatur:

Tipps:

Schwierigkeit: Mittel Schwierigkeitsgrad 2 (mit tieferer Erklärung der Hintergründe auch “Schwer”.)


Thema 2.3: GLIDE - Almost DALL-E2

Aufgabenstellung: Der Vorgänger von DALL-E2. Ein sehr komplexes System, dass Textmodelle und Diffusionsmodelle kombiniert um eindrucksvolle Bilder nach Texteingaben zu synthetisieren. Aufgabe ist es, so gut wie möglich zu eklären, wie GLIDE funktioniert. Die verschiedenen Betandtteile kann man dabei nicht alle tiefgehend diskutieren. Sinnvoll als Teamarbeit mit Aufgabe 2.4 (und ggf. auch 2.1, 2.2).

Literatur:

Schwierigkeit: Schwer Schwierigkeitsgrad 3

Thema 2.4: It is getting surreal: DALL-E2

Aufgabenstellung: DALL-E2 kann Bilder synthetisieren, die bislang nur von (begabten) Menschen gemalt werden konnten. Das System benutzt eine Kombination aus Diffusionsmodellen und (inverser) Textannotation. Das Modell ist recht komplex und stützt sich auf z.T. komplizierte Vorarbeiten (insbesondere Diffusionsmodelle zur Bildgenerierung). Aufgabe ist es, so gut wie möglich zu eklären, wie DALL-E2 funktioniert. Die verschiedenen Betandtteile kann man dabei nicht alle tiefgehend diskutieren. Sinnvoll als Teamarbeit mit Aufgabe 2.3 (und ggf. 2.1, 2.2).

Literatur:

Schwierigkeit: Schwer Schwierigkeitsgrad 3

Tipps: - Die Ergebnisse sind “beunruhigend” gut


Thema 2.5: Anwendungen in der Physik – automatisches statistisches Coarse-Graining

Aufgabenstellung: Mal etwas ganz anderes: Wir wollen physikalische Simulationen grob ablaufen lassen, und möchten eine Repräsentation lernen, die automatisch ein solches “Coarse Graining” lernt, also eine geeignete Darstellung dafür, wie ein physikalisches System sich “im großen und ganzen” entwickeln wird. Kann man mit tiefen Netzen machen. Aufgabe ist es auch hier, das u.g. Paper zu diskutieren (vor allen die Kernideen und Ergebnisse vorzustellen und zu diskutieren).

Literatur:

Schwierigkeit: Mittel-Schwer Schwierigkeitsgrad 2 / Schwierigkeitsgrad 3 (je nach Vorkenntnissen)


Thema 2.6: PDEs Lernen mit Basisfunktionen und physikalischen Constraints

Aufgabenstellung: Das u.g. Paper diskutiert eine Methode (in einer ganzen Reihe von ähnlichen Arbeiten), Differentialgleichungen für physikalische Phänomene in einer Entwicklung in eine Linearkombination von Basisfunktionen zu lernen (sozusagen eine finite-Elmente Version der Standard CNNs et al.). Aufgabe ist es, die Grundlagen und Hauptideen des Lernens von Operatoren zu erklären. Dazu sollte man ggf. auch in die in Kapitel 1 angegebene Literatur schauen.

Literatur:

Schwierigkeit: Mittel-Schwer Schwierigkeitsgrad 2 / Schwierigkeitsgrad 3 (je nach Vorkenntnissen)


Thema 2.7: Bessere Diffusionsmodelle (I)

Aufgabenstellung: Eine Methode, um die hohen Kosten für Diffusionsmodelle zu reduzieren, indem vortrainierte Autoencoder benutzt werden. Fassen Sie die Kernideen der Methode zusammen und erklären Sie wie und warum das besser funktioniert (schneller ist bei guter Qualität). Anders gesagt: Paper (grob) zusammenfassen.

Literatur:

Schwierigkeit: Mittel-Schwer Schwierigkeitsgrad 2 / Schwierigkeitsgrad 3 (man muss auch hier grob verstehen, wie das Diffusionsmodell funktioniert; der Rest ist aber zugänglicher)


Thema 2.8: Bessere Diffusionsmodelle (II)

Aufgabenstellung: Eine Ähnliche Idee wie bei 2.7, mit Fokus auf Kontrolle durch latente Paramter. Erklären Sie die wesentlichen Ideen und Ergebnisse des u.g. Papers.

Literatur:

Schwierigkeit: Schwer Schwierigkeitsgrad 3







Datenschutz     Impressum