Het onderscheid tussen kans en waarschijnlijkheid is uiterst belangrijk, maar wordt vaak verkeerd begrepen. Ik herinner me graag dat waarschijnlijkheid verwijst naar mogelijke resultaten, terwijl waarschijnlijkheid verwijst naar hypotheses.
Voorstel een experiment waarbij iemand de uitkomst van elk van 10 muntopgooiingen moet voorspellen. Na het uitvoeren van de test zou je kunnen vaststellen dat de persoon 0 juiste voorspellingen heeft of tot 10 juiste voorspellingen, wat neerkomt op 11 mogelijke uitkomsten voor het experiment. Deze 11 uitkomsten sluiten elkaar uit (d.w.z. hij kan geen 5 en 7 juiste voorspellingen krijgen) en zijn uitputtend (d.w.z. 0 tot 11 juiste voorspellingen omvatten alle mogelijke uitkomsten).
Aan de andere kant sluiten hypothesen elkaar niet uit en zijn ze niet uitputtend. Stel dat de persoon 8 uitkomsten correct heeft voorspeld. Jouw hypothese zou kunnen zijn dat hij gewoon geraden heeft en geluk heeft gehad. Mijn hypothese zou kunnen zijn dat hij een tovenaar is die de toss in zijn voordeel heeft gestuurd. Beide hypothesen sluiten elkaar niet uit: hij kan een ervaren goochelaar zijn met een kleine voorsprong die toevallig ook geluk had. Je zou op je beurt kunnen veronderstellen dat hij een machine is met een bijna perfecte nauwkeurigheid en dat het waargenomen resultaat in feite de waarschijnlijkheid onderschat dat zijn volgende voorspelling juist zal zijn. Er is geen grens aan de hypothesen die we kunnen overwegen, en dus zullen ze nooit volledig zijn.
Gezien het feit dat we er nooit zeker van kunnen zijn dat we alle mogelijke hypothesen hebben bedacht, gaat het er ons alleen om in te schatten in hoeverre de experimentele resultaten van invloed zijn op de relatieve waarschijnlijkheid van de overwogen hypothesen. De aan een gegeven hypothese verbonden waarschijnlijkheden hebben op zichzelf geen betekenis, maar hun verhoudingen wel.
Plotten van elke functie
Het verschil tussen waarschijnlijkheid en waarschijnlijkheid werd me heel duidelijk toen ik speelde met waarschijnlijkheidsverdelingsfuncties in een statistisch programma (ja, daar heb ik mee gespeeld). In deze post zal ik R
en zijn dbinom
functie gebruiken voor binomiale verdelingen. We zijn geïnteresseerd in drie inputs: het aantal successen, het aantal pogingen en de kans op succes.
Als we kansen berekenen, nemen we aan dat het aantal pogingen en de kans op succes gegeven zijn, dat wil zeggen dat het parameters van de verdeling zijn. Wat we variëren is het aantal successen, en terwijl we dat doen hechten we waarschijnlijkheden aan elk van die resultaten. We kunnen de binomiale kansverdelingsfunctie met deze parameters in R plotten:
barplot( dbinom(x = 0:10, size = 10, prob = 0.5), names.arg = 0:10, ylab="Probability", xlab="Number of successes")
Als we de waarschijnlijkheidsfunctie berekenen, nemen we het aantal successen als gegeven (bijv. 8), evenals het aantal pogingen. Met andere woorden, het gegeven resultaat wordt nu behandeld als parameter van de functie. In plaats van de mogelijke resultaten te variëren, variëren we de kans op succes om de hieronder uitgezette binomiale waarschijnlijkheidsfunctie te krijgen.
curve( dbinom(8,10,x), xlim = c(0,1), ylab="Likelihood", xlab=expression(paste("Binomial ", rho)),)
Neem even de tijd om deze laatste figuur te begrijpen. Het vertelt ons dat als we 8 successen in 10 pogingen hebben waargenomen, de kansparameter van de binomiale verdeling waaruit we putten (d.w.z. de verdeling van succesvolle voorspellingen van onze testpersoon) zeer waarschijnlijk niet, laten we zeggen, 0,4 zal zijn. Het is veel waarschijnlijker dat hij 0,8 is, hoewel 0,7 of 0,9 ook waarschijnlijk zijn. De hypothese dat de succeskans op lange termijn 0,8 is, is bijna drie keer zo waarschijnlijk als de hypothese dat de succeskans op lange termijn 0,6 is.
Formaliseren van de intuïtie
We hebben een stochastisch proces dat discrete waarden aanneemt (d.w.z. uitkomsten van het 10 keer opgooien van een munt). We berekenden de kans op een bepaalde reeks uitkomsten (8 juiste voorspellingen) door aannames te doen over het onderliggende stochastische proces, dat wil zeggen, de kans dat onze proefpersoon de uitkomst van het opgooien van een muntstuk juist kan voorspellen is (bijv. 0,8). We hebben ook impliciet aangenomen dat de munt opgooiingen onafhankelijk zijn.
Zie O de verzameling van waargenomen uitkomsten en O de verzameling van parameters die het stochastische proces beschrijven. Dus als we het over kans hebben, berekenen we eigenlijk P(O): gegeven specifieke waarden voor O, is P(O) de kans dat we de uitkomsten in O zouden waarnemen.
Als we een echt stochastisch proces modelleren, weten we P(O) niet; we nemen alleen O waar. Ons doel is dan om een schatting te maken van de waarde die een plausibele keuze zou zijn, gegeven de waargenomen uitkomsten. We weten dat, gegeven een waarde van O, de kans dat we O waarnemen gelijk is aan P(Oomthetta). Het is dus logisch om de waarde van O te kiezen die de kans dat we O werkelijk waarnemen zo groot mogelijk maakt. Met andere woorden, we vinden de parameterwaarden \(\theta) die de kans maximaliseren
waarbij \(\mathcal{L}(\theta \vert O)\) de likelihood functie is, waarover ik sprak in een post over maximum likelihood schatting. Merk op dat de waarschijnlijkheidsfunctie per definitie geconditioneerd is op de waargenomen \(O) en dat het een functie is van de onbekende parameters \(\theta).
Uitbreiding naar continue willekeurige variabelen
De situatie is vergelijkbaar, maar we kunnen natuurlijk niet meer spreken over de kans dat we \(O) hebben waargenomen gegeven \(\theta) omdat in het continue geval \(P(O \vert \theta) = 0). Dus laten we de kansdichtheidsfunctie (PDF) die hoort bij de uitkomsten van O de kansdichtheidsfunctie (f(O deta) = 0) zijn. In het continue geval schatten we (\theta) gegeven de waargenomen uitkomsten door te maximaliseren
Merk op dat we in deze situatie niet kunnen beweren dat we de parameterwaarde vinden die de kans maximaliseert dat we \(O) waarnemen, omdat we de PDF maximaliseren die bij de waargenomen uitkomsten \(O) hoort. Ga hier naar toe voor meer informatie over waarom \(\mathcal{L}\) geen PDF is.