The earth is round (p < .05)
In diesem Paper wetterte Jocob Cohen gegen die falsche Verwendung von \(p\)-Werten in Nullhypothesen-Signifikanztests.
Dec 1994
If your experiment needs a statistician, you need a better experiment.
— Ernest Rutherford
According to Wiki known as „the father of nuclear physics“
In den folgenden Aufgaben üben wir die Bayes'sche Statistik.
Wir werden mit Regeln von Wahrscheinlichkeitsmaßen arbeiten und einige der wichtigsten technischen Werkzeuge ausprobieren, wie z. B. Marginalisierung und Inferenz durch Berechnung einer Posterior-Dichte. Wir werden auch Anomalien von hochdimensionalen Datenräumen betrachten.
Aufgabe 1: Basics Wahrscheinlichkeitstheorie
Verwenden Sie Kolmogorov's Axiome (und die Regeln der Mengenlehre), um die folgenden Rechenregeln zu zeigen.
Es sei \(\Omega\) eine Menge von Elementarereignissen und \(P:σ(\Omega) \rightarrow \mathbb{R}\) ein Wahrscheinlichkeitsmaß. Zeigen Sie, dass für alle Ereignisse \(A,B,C \in \sigma(\Omega)\) folgende Regeln gelten:
- \(P(\overline{A}) := P(\Omega \setminus A) = 1 - P(A)\)
- \(P(\emptyset) = 0\)
- \(P(A) \in [0,1]\)
- Es seien \(A,B,C\) disjunkte Mengen, dann gilt: \[
P(A\cup B\cup C) = P(A) + P(B) + P(C).
\]
- Es seien \(A,B\) beliebige Mengen, dann gilt: \[
P(A\cup B) = P(A) + P(B) - P(A \cap B).
\]
Augabe 2: Bayes'sche Inferenz
(Verschoben auf nächste Woche).
Aufgabe 3: Marginalisierung & die Anomalie des Pfeilwurfs
Wir Stellen uns einen Pfeilwurf auf eine Dartscheibe vor. Üblicherweise versuchen wir beim Zielen die Mitte des Boards \((0,0)\) anzuvisieren. (Für's Erste ignorieren wir dazu die Punktzahl auf einer herkömmlichen Dartscheibe.) Wir nehmen weiter an, dass die tatsächlichen Treffer auf dem Board einer (Einheits-)Gauß-Verteilung um das Zentrum mit der Wahrscheinlichkeitsdichte \[
P((x,y)) = \mathcal{N}_{{\begin{pmatrix}0\\0\end{pmatrix}},{\begin{pmatrix}1 & 0\\0 & 1\end{pmatrix}}} = \frac{1}{2\pi} e^{-\frac{1}{2}\left(x^2+y^2\right)}
\] genügen. (Wir nehmen der Einfachheit halber eine radialsymmetrische Einheits-Kovarianzmatrix an.)
- Berechnen Sie die (marginale) Wahrscheinlichkeitsdichte, einen Ort zu treffen, der sich in einem Abstand \(r≥0\) vom Zentrum befindet.
Um die Berechnung zu vereinfachen, können Sie die Normierung der Dichte ignorieren (schreiben Sie einfach \(1/Z\), wie in \(P((x,y)) = \frac{1}{Z} e^{-\frac{1}{2}\left(x^2+y^2\right)}\). Physiker machen das ja auch. ;)). - Gegeben Sei nun eine \(d\)-dimensionale Normalverteilung. Berechnen Sie die marginalen Dichte für den Erhalt einer Stichprobe mit Abstand \(r\) zum Zentrum.
Auch hier können Sie die Normalisierungskonstante ignorieren, die die Wahrscheinlichkeitsdichte zu \(1\) integriert. - Beweisen Sie, dass das Maximum der marginalen Dichte bei \(r=\sqrt{d}\) liegt.
Hinweis: Ergebnis aus 3b ableiten und \(=0\) setzen. - Beweisen/erläutern Sie dass die relative Standardabweichung von \(r\) (nämlich \(\frac{r}{\sqrt{d}}\)) für \(d\rightarrow \infty\) verschwindet.
Hinweis: Zeigen Sie zuerst, dass diese für \(r^2\) verschwindet. - Schließen Sie daraus: (Kleine) Punktmengen aus Gaußschem Rauschen in hohen Dimensionen haben mit hoher Wahrscheinlichkeit gleichmäßige Abstände zwischen allen Punktpaaren.
Praxisaufgabe 4: Aber wohin werfe ich nun den Pfeil?
Zugegeben ins Zentrum \((0,0)\), a.k.a. in das Bulls-Eye, möchte man als Anfänger stets treffen. Tatsächlich bekommt man dort jedoch nur 50 Punkte. Sogar 60 Punkte erhält man, wenn man den Pfeil in das kleine Feld unter der 20 trifft. (Treffer im inneren Ring multiplizieren die Punktzahl des getroffenen Feldes mit 3, treffer im äußeren Ring multiplizieren die Punktzahl des getroffenen Feldes mit 2, der Ring um das Bullseye gibt 25 Punkte). Um nun noch etwas praktisches zu üben möchten wir herausfinden wohin wir Zielen sollen, wenn wir grob einschätzen können wie hoch die Standardabweichung unseres Wurfs ist.
Wir nehmen wie in Aufgabe 3 an, dass bei einem gezielten Pfeilwurf auf \(x\), der Treffer normalverteilt um sein eigentliches Ziel ist.
Bestimmen Sie nun für verschiedene (aber feste) Varianzen die erwartete Punktzahl bei einem verrauschten Wurf.
- Überlegen Sie sich dazu zuerst wie Sie die erwartete Punktzahl beim Zielen auf eine bestimmte Position bekommen können.
- Schreiben Sie nun eine Python-Funktion, die Abhängig von der Standardabweichung der werfenden Person, die erwartete Punktzahl beim Zielen auf den jeweiligen Pixel ausgibt.
Plotten Sie für verschiedene (aber feste) Standardabweichungen, die entsprechenden erwarteten Punktzahlen pro Pixel.
Zeichnen Sie auch jeweils die Position \((x_\sigma, y_\sigma)\) der maximalen erwarteten Punktzahl \(p_\sigma\) ein. - Bestimmen Sie zuletzt die parametrische Kurve: \(\sigma \mapsto (x_\sigma, y_\sigma)\) auf dem Board und plotten Sie auch die zugehörige Punktzahl, also den Graphen zu \(\sigma \mapsto p_\sigma\).
Welche Strategien können wir diesem Ergebnis entnehmen, wenn wir nicht wissen wie hoch unsere eigene Wurf-Standardabweichung ist?
(Am Sinnvollsten ist es hier \(\sigma\) auf einer logarithmischen Skala von \(1\) bis \(10000\) laufen zu lassen).
Hinweis: Um ihnen das die Modellierung des Experiments zu vereinfachen, habe ich Ihnen ein Bild (unten, links) vorbereitet, bei dem sie eine pixelgenaue Punktzahl (encodiert durch den Graustufen-Wert) entnehmen können.
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
img = Image.open('dart.png')
dart = np.asarray(img)
dart = np.rint(dart[:,:,0]/255*100)
plt.imshow(dart)
plt.show()
# Sie können nun mit der Maus über die Felder fahren und die resultierende Punktzahl ablesen.