Anmerkung zu Video 10c: “Manigfaltigkeiten”
- Auf Folie 217 (aktualisiertes PDF) wurde noch eine Bemerkung eingefügt, die im Video etwas untergeht: Es stimmt natürlich nicht, dass der Erwartungswert von Score-Funktionen (Ableitungen der log-likelihood) immer Null ist – dann würde Gradientabstieg auf log-likelihoods (z.B. bei Tiefen Netzen mit X-Entropy-Loss) keinen Sinn machen. Das ganze stimmt nur, wenn man an einem “Optimum” ist, also die Parameter der “richtigen” Verteilung entsprechen. Dies ist in dem Scenario im Video der Fall, da wir uns infinitesimal von einer Verteilung ptheta wegbewegen; theta ist also implizit die richtige Verteilung (und wird auch im Erwartungswert benutzt). Wäre die “richtige” Verteilung an einer anderen Stelle, dann würden die Terme sich nicht wie gezeigt wegkürzen.
tl;dr – bitte Folie 217 im aktualisierten PDF beachten.
(Weitere) Hinweise gerne via Teams oder Email!
Datenschutz
Impressum