Anmerkung zu Video
10c: “Manigfaltigkeiten”
- Auf Folie 217 (aktualisiertes PDF) wurde noch eine Bemerkung
eingefügt, die im Video etwas untergeht: Es stimmt natürlich nicht, dass
der Erwartungswert von Score-Funktionen (Ableitungen der log-likelihood)
immer Null ist – dann würde Gradientabstieg auf log-likelihoods (z.B.
bei Tiefen Netzen mit X-Entropy-Loss) keinen Sinn machen. Das ganze
stimmt nur, wenn man an einem “Optimum” ist, also die Parameter der
“richtigen” Verteilung entsprechen. Dies ist in dem Scenario im Video
der Fall, da wir uns infinitesimal von einer Verteilung ptheta
wegbewegen; theta
ist also implizit die richtige Verteilung (und wird auch im
Erwartungswert benutzt). Wäre die “richtige” Verteilung an einer anderen
Stelle, dann würden die Terme sich nicht wie gezeigt wegkürzen.
tl;dr – bitte Folie 217 im aktualisierten PDF
beachten.
(Weitere) Hinweise gerne via Teams oder Email!
Datenschutz
Impressum