La distinzione tra probabilità e probabilità è estremamente importante, anche se spesso viene fraintesa. Mi piace ricordare che la probabilità si riferisce ai risultati possibili, mentre la probabilità si riferisce alle ipotesi.
Supponiamo un esperimento in cui una persona deve prevedere il risultato di ciascuno dei 10 lanci di monete. Dopo aver effettuato il test, si potrebbe osservare che la persona ha 0 previsioni corrette o fino a 10 previsioni corrette, il che equivale a 11 risultati possibili per l’esperimento. Questi 11 risultati sono mutuamente esclusivi (cioè non può ottenere 5 e 7 previsioni corrette) ed esaustivi (cioè da 0 a 11 previsioni corrette coprono tutti i risultati possibili).
D’altra parte, le ipotesi non sono né mutuamente esclusive né esaustive. Supponiamo che la persona abbia previsto correttamente 8 risultati. La tua ipotesi potrebbe essere che ha solo indovinato e ha avuto fortuna. La mia ipotesi potrebbe essere che è un mago che potrebbe aver controllato il lancio a suo favore. Entrambe le ipotesi non si escludono a vicenda: potrebbe essere un mago esperto con un leggero vantaggio che ha anche avuto fortuna. Si potrebbe a sua volta ipotizzare che sia una macchina con una precisione quasi perfetta e che il risultato osservato in realtà sottostimi la probabilità che la sua prossima previsione sia corretta. Non c’è un limite alle ipotesi che possiamo sostenere, e quindi non saranno mai esaustive.
Dato che non potremo mai essere sicuri di aver sognato tutte le ipotesi possibili, la nostra preoccupazione sarà solo quella di stimare la misura in cui i risultati sperimentali influenzano la probabilità relativa delle ipotesi considerate. Le probabilità collegate a qualsiasi ipotesi non hanno un significato in sé, ma i loro rapporti sì.
Tracciare ogni funzione
La differenza tra probabilità e probabilità mi è diventata molto chiara quando ho giocato con le funzioni di distribuzione delle probabilità in un software statistico (sì, ho giocato con quelle). In questo post userò R
e la sua dbinom
funzione per le distribuzioni binomiali. Siamo interessati a tre input: il numero di successi, il numero di tentativi e la probabilità di successo.
Se calcoliamo le probabilità, assumiamo che il numero di tentativi e la probabilità di successo siano dati, cioè sono parametri della distribuzione. Ciò che varia è il numero di successi, e mentre lo facciamo attribuiamo delle probabilità a ciascuno di questi risultati. Possiamo tracciare la funzione di distribuzione di probabilità binomiale con questi parametri in R:
barplot( dbinom(x = 0:10, size = 10, prob = 0.5), names.arg = 0:10, ylab="Probability", xlab="Number of successes")
Se calcoliamo la funzione di probabilità, prendiamo il numero di successi come dato (per esempio 8), così come il numero di tentativi. In altre parole, il risultato dato è ora trattato come parametro della funzione. Invece di variare i possibili risultati, varieremo la probabilità di successo per ottenere la funzione di probabilità binomiale tracciata qui sotto.
curve( dbinom(8,10,x), xlim = c(0,1), ylab="Likelihood", xlab=expression(paste("Binomial ", rho)),)
Fate un momento per capire quest’ultima figura. Ci sta dicendo che se abbiamo osservato 8 successi in 10 tentativi, il parametro di probabilità della distribuzione binomiale da cui stiamo attingendo (cioè la distribuzione delle previsioni di successo del nostro tipo di test) è molto improbabile che sia, diciamo, 0,4. È molto più probabile che sia 0,8, sebbene anche 0,7 o 0,9 siano probabili. L’ipotesi che il tasso di successo a lungo termine sia 0,8 è quasi tre volte più probabile dell’ipotesi che il tasso di successo a lungo termine sia 0,6.
Formalizzare l’intuizione
Abbiamo un processo stocastico che assume valori discreti (cioè i risultati del lancio di una moneta 10 volte). Abbiamo calcolato la probabilità di osservare un particolare insieme di risultati (8 previsioni corrette) facendo delle ipotesi sul processo stocastico sottostante, cioè, la probabilità che il nostro soggetto di prova possa prevedere correttamente il risultato del lancio della moneta è \(p\) (ad esempio 0,8). Abbiamo anche assunto implicitamente che i lanci della moneta siano indipendenti.
Lasciamo che \(O\) sia l’insieme dei risultati osservati e \(\theta\) sia l’insieme dei parametri che descrivono il processo stocastico. Così, quando parliamo di probabilità, in realtà calcoliamo \(P(O \vert \theta)\: dati valori specifici per \(\theta\), \(P(O \vert \theta)\ è la probabilità di osservare gli esiti in \(O\).
Quando modelliamo un processo stocastico della vita reale non conosciamo \(\theta\); semplicemente osserviamo \(O\). Il nostro obiettivo è quindi quello di avere una stima di \(\theta\) che sarebbe una scelta plausibile dati i risultati osservati \(O\). Sappiamo che dato un valore di \(\theta\) la probabilità di osservare \(O) è \(P(O \vert \theta)\). Quindi ha senso scegliere il valore di \(\theta\) che massimizza la probabilità di osservare effettivamente \(O). In altre parole, troviamo i valori dei parametri \(\theta\) che massimizzano
dove \(\mathcal{L}(\theta \vert O)\) è la funzione di likelihood, di cui ho parlato in un post sulla stima della massima verosimiglianza. Notate che per definizione la funzione di verosimiglianza è condizionata all’osservato \(O) e che è una funzione dei parametri sconosciuti \(\theta\).
Estensione alle variabili casuali continue
La situazione è simile, ma ovviamente non possiamo più parlare della probabilità di osservare \(O) dato \(\theta\) perché nel caso continuo \(P(O \vert \theta) = 0\). Quindi sappiamo che \(f(O \vert \theta)\ è la funzione di densità di probabilità (PDF) associata ai risultati \(O\). Nel caso continuo stimiamo \(\theta\) dati i risultati osservati \(O\) massimizzando
Nota che in questa situazione non possiamo affermare che stiamo trovando il valore del parametro che massimizza la probabilità di osservare \(O\), poiché massimizziamo la PDF associata ai risultati osservati \(O\). Vai qui per maggiori informazioni sul perché \(\mathcal{L}) non è una PDF.