Die Unterscheidung zwischen Wahrscheinlichkeit und Likelihood ist extrem wichtig, wird aber oft missverstanden. Ich erinnere gerne daran, dass sich die Wahrscheinlichkeit auf mögliche Ergebnisse bezieht, während sich die Wahrscheinlichkeit auf Hypothesen bezieht.
Angenommen, es handelt sich um ein Experiment, bei dem eine Person das Ergebnis von jedem von 10 Münzwürfen vorhersagen muss. Nach der Durchführung des Versuchs könnten Sie feststellen, dass die Person 0 richtige Vorhersagen oder bis zu 10 richtige Vorhersagen hat, was 11 mögliche Ergebnisse für das Experiment ergibt. Diese 11 Ergebnisse schließen sich gegenseitig aus (d. h. er kann nicht 5 und 7 korrekte Vorhersagen erhalten) und sind erschöpfend (d. h. 0 bis 11 korrekte Vorhersagen decken alle möglichen Ergebnisse ab).
Auf der anderen Seite sind Hypothesen weder gegenseitig ausschließend noch erschöpfend. Nehmen wir an, dass die Person 8 Ergebnisse korrekt vorhergesagt hat. Ihre Hypothese könnte sein, dass er nur geraten und Glück gehabt hat. Meine Hypothese könnte sein, dass er ein Zauberer ist, der den Wurf zu seinen Gunsten gesteuert hat. Beide Hypothesen schließen sich nicht gegenseitig aus: Er könnte ein erfahrener Magier mit einem leichten Vorsprung sein, der zufällig auch Glück hatte. Sie könnten wiederum die Hypothese aufstellen, dass er eine Maschine mit nahezu perfekter Genauigkeit ist und dass das beobachtete Ergebnis tatsächlich die Wahrscheinlichkeit unterschätzt, dass seine nächste Vorhersage richtig sein wird. Es gibt keine Begrenzung der Hypothesen, die wir in Erwägung ziehen können, und daher werden sie niemals erschöpfend sein.
Da wir niemals sicher sein können, dass wir uns alle möglichen Hypothesen ausgedacht haben, wird es uns nur darum gehen, abzuschätzen, inwieweit die experimentellen Ergebnisse die relative Wahrscheinlichkeit der betrachteten Hypothesen beeinflussen. Die Wahrscheinlichkeiten, die einer bestimmten Hypothese zugeordnet sind, haben für sich selbst keine Bedeutung, wohl aber ihre Verhältnisse.
Darstellung jeder Funktion
Der Unterschied zwischen Wahrscheinlichkeit und Wahrscheinlichkeit wurde mir sehr klar, als ich mit Wahrscheinlichkeitsverteilungsfunktionen in einer Statistiksoftware spielte (ja, ich habe damit gespielt). In diesem Beitrag werde ich R
und seine dbinom
Funktion für Binomialverteilungen verwenden. Wir interessieren uns für drei Eingaben: die Anzahl der Erfolge, die Anzahl der Versuche und die Erfolgswahrscheinlichkeit.
Wenn wir Wahrscheinlichkeiten berechnen, gehen wir davon aus, dass die Anzahl der Versuche und die Erfolgswahrscheinlichkeit gegeben sind, also Parameter der Verteilung sind. Was wir variieren, ist die Anzahl der Erfolge, und während wir dies tun, ordnen wir jedem dieser Ergebnisse Wahrscheinlichkeiten zu. Wir können die Binomial-Wahrscheinlichkeitsverteilungsfunktion mit diesen Parametern in R darstellen:
barplot( dbinom(x = 0:10, size = 10, prob = 0.5), names.arg = 0:10, ylab="Probability", xlab="Number of successes")
Wenn wir die Likelihood-Funktion berechnen, nehmen wir die Anzahl der Erfolge als gegeben an (z.B. 8), sowie die Anzahl der Versuche. Mit anderen Worten: Das gegebene Ergebnis wird nun als Parameter der Funktion behandelt. Anstatt die möglichen Ergebnisse zu variieren, variieren wir die Erfolgswahrscheinlichkeit, um die unten dargestellte binomische Wahrscheinlichkeitsfunktion zu erhalten.
curve( dbinom(8,10,x), xlim = c(0,1), ylab="Likelihood", xlab=expression(paste("Binomial ", rho)),)
Warten Sie einen Moment, um diese letzte Abbildung zu verstehen. Sie sagt uns, dass, wenn wir 8 Erfolge in 10 Versuchen beobachtet haben, der Wahrscheinlichkeitsparameter der Binomialverteilung, aus der wir ziehen (d.h. die Verteilung der erfolgreichen Vorhersagen unseres Testtyps), sehr unwahrscheinlich bei, sagen wir, 0,4 liegt. Es ist viel wahrscheinlicher, dass er 0,8 ist, obwohl auch 0,7 oder 0,9 wahrscheinlich sind. Die Hypothese, dass die Langzeiterfolgsrate 0,8 ist, ist fast dreimal so wahrscheinlich wie die Hypothese, dass die Langzeiterfolgsrate 0,6 ist.
Formalisierung der Intuition
Wir haben einen stochastischen Prozess, der diskrete Werte annimmt (d.h. Ergebnisse des zehnmaligen Werfens einer Münze). Wir haben die Wahrscheinlichkeit für die Beobachtung eines bestimmten Satzes von Ergebnissen (8 korrekte Vorhersagen) berechnet, indem wir Annahmen über den zugrundeliegenden stochastischen Prozess getroffen haben, d. h. die Wahrscheinlichkeit, dass unsere Testperson das Ergebnis des Münzwurfs korrekt vorhersagen kann, ist \(p\) (z. B. 0,8). Wir haben auch implizit angenommen, dass die Münzwürfe unabhängig sind.
Lassen Sie \(O\) die Menge der beobachteten Ergebnisse und \(\theta\) die Menge der Parameter sein, die den stochastischen Prozess beschreiben. Wenn wir also von Wahrscheinlichkeit sprechen, berechnen wir eigentlich \(P(O \theta)\): Bei bestimmten Werten für \(\theta\) ist \(P(O \theta)\) die Wahrscheinlichkeit, dass wir die Ergebnisse in \(O\) beobachten würden.
Wenn wir einen realen stochastischen Prozess modellieren, kennen wir \(\theta\) nicht; wir beobachten einfach \(O\). Unser Ziel ist es dann, eine Schätzung für \(\theta\) zu haben, die eine plausible Wahl angesichts der beobachteten Ergebnisse \(O\) wäre. Wir wissen, dass bei einem Wert von \(\theta\) die Wahrscheinlichkeit, \(O\) zu beobachten, \(P(O \vert \theta)\) ist. Es ist also sinnvoll, den Wert von \(\theta\) zu wählen, der die Wahrscheinlichkeit maximieren würde, dass wir tatsächlich \(O\) beobachten würden. Mit anderen Worten, wir finden die Parameterwerte \(\theta\), die maximieren
\
wobei \(\mathcal{L}(\theta \vert O)\) die Likelihood-Funktion ist, über die ich in einem Beitrag über Maximum-Likelihood-Schätzung gesprochen habe. Beachten Sie, dass die Likelihood-Funktion per Definition von dem beobachteten \(O\) abhängt und eine Funktion der unbekannten Parameter \(\theta\) ist.
Erweiterung auf kontinuierliche Zufallsvariablen
Die Situation ist ähnlich, aber offensichtlich können wir nicht mehr über die Wahrscheinlichkeit sprechen, dass wir \(O\) bei \(\theta\) beobachtet haben, da im kontinuierlichen Fall \(P(O \vert \theta) = 0\). Wir wissen also, dass \(f(O \vert \theta)\) die Wahrscheinlichkeitsdichtefunktion (PDF) ist, die mit den Ergebnissen \(O\) verbunden ist. Im kontinuierlichen Fall schätzen wir \(\theta\) bei beobachteten Ergebnissen \(O\) durch Maximierung
\
Beachten Sie, dass wir in dieser Situation nicht behaupten können, dass wir den Parameterwert finden, der die Wahrscheinlichkeit maximiert, dass wir \(O\) beobachten, da wir die mit den beobachteten Ergebnissen \(O\) verbundene PDF maximieren. Hier finden Sie weitere Informationen darüber, warum \(\mathcal{L}\) keine PDF ist.