La distinction entre probabilité et vraisemblance est extrêmement importante, bien que souvent mal comprise. J’aime rappeler que la probabilité fait référence aux résultats possibles, tandis que la vraisemblance fait référence aux hypothèses.
Supposons une expérience où une personne doit prédire le résultat de chacun des 10 tirages à pile ou face. Après avoir effectué le test, vous pourriez observer que la personne a 0 prédiction correcte ou jusqu’à 10 prédictions correctes, ce qui revient à 11 résultats possibles pour l’expérience. Ces 11 résultats sont mutuellement exclusifs (c’est-à-dire qu’il ne peut pas obtenir 5 et 7 prédictions correctes) et exhaustifs (c’est-à-dire que 0 à 11 prédictions correctes couvrent tous les résultats possibles).
En revanche, les hypothèses ne sont ni mutuellement exclusives ni exhaustives. Supposons que la personne ait correctement prédit 8 résultats. Votre hypothèse pourrait être qu’il a simplement deviné et a eu de la chance. Mon hypothèse pourrait être qu’il s’agit d’un magicien qui a pu contrôler le tirage au sort en sa faveur. Ces deux hypothèses ne s’excluent pas mutuellement : il pourrait s’agir d’un magicien chevronné ayant un léger avantage et qui aurait également eu de la chance. Vous pouvez également supposer qu’il s’agit d’une machine d’une précision presque parfaite et que le résultat observé sous-estime en fait la probabilité que sa prochaine prédiction soit correcte. Il n’y a pas de limite aux hypothèses que nous pouvons envisager, et elles ne seront donc jamais exhaustives.
Du fait que nous ne serons jamais sûrs d’avoir imaginé toutes les hypothèses possibles, notre préoccupation sera seulement d’estimer dans quelle mesure les résultats expérimentaux affectent la vraisemblance relative des hypothèses envisagées. Les vraisemblances attachées à une hypothèse donnée n’ont aucune signification en soi, mais leurs rapports en ont une.
Tracer chaque fonction
La différence entre probabilité et vraisemblance m’est apparue très clairement en jouant avec la fonction de distribution de probabilité dans un logiciel statistique (oui, j’ai joué avec ceux-là). Dans ce billet, je vais utiliser R
et sa fonction dbinom
pour les distributions binomiales. Nous nous intéressons à trois entrées : le nombre de succès, le nombre d’essais et la probabilité de succès.
Si nous calculons des probabilités, nous supposons que le nombre d’essais et la probabilité de succès sont donnés, c’est-à-dire qu’ils sont des paramètres de la distribution. Ce que nous faisons varier, c’est le nombre de réussites et, ce faisant, nous attachons des probabilités à chacun de ces résultats. Nous pouvons tracer la fonction de distribution de probabilité binomiale avec ces paramètres dans R:
barplot( dbinom(x = 0:10, size = 10, prob = 0.5), names.arg = 0:10, ylab="Probability", xlab="Number of successes")
Si nous calculons la fonction de vraisemblance, nous prenons le nombre de succès comme donné (par exemple 8), ainsi que le nombre d’essais. En d’autres termes, le résultat donné est maintenant traité comme paramètre de la fonction. Au lieu de faire varier les résultats possibles, nous faisons varier la probabilité de réussite afin d’obtenir la fonction de vraisemblance binomiale tracée ci-dessous.
curve( dbinom(8,10,x), xlim = c(0,1), ylab="Likelihood", xlab=expression(paste("Binomial ", rho)),)
Prenez un moment pour comprendre cette dernière figure. Elle nous dit que si nous avons observé 8 succès en 10 essais, le paramètre de probabilité de la distribution binomiale d’où nous tirons (c’est-à-dire la distribution des prédictions réussies de notre type de test) a très peu de chances d’être, disons, 0,4. Il est beaucoup plus probable qu’il soit de 0,8, bien que 0,7 ou 0,9 soient également probables. L’hypothèse selon laquelle le taux de réussite à long terme est de 0,8 est presque trois fois plus probable que l’hypothèse selon laquelle le taux de réussite à long terme est de 0,6.
Formalisation de l’intuition
Nous avons un processus stochastique qui prend des valeurs discrètes (c’est-à-dire les résultats de lancer une pièce de monnaie 10 fois). Nous avons calculé la probabilité d’observer un ensemble particulier de résultats (8 prédictions correctes) en faisant des hypothèses sur le processus stochastique sous-jacent, c’est-à-dire que la probabilité que notre sujet de test puisse prédire correctement le résultat du lancer de pièce est \(p\) (par exemple 0,8). Nous avons également supposé implicitement que les tirages à pile ou face sont indépendants.
Disons que \(O\) est l’ensemble des résultats observés et \(\theta\) l’ensemble des paramètres qui décrivent le processus stochastique. Ainsi, lorsque nous parlons de probabilité, nous calculons en fait \(P(O \vert \theta)\) : étant donné des valeurs spécifiques pour \(\theta\), \(P(O \vert \theta)\) est la probabilité que nous observions les résultats dans \(O\).
Lorsque nous modélisons un processus stochastique réel, nous ne connaissons pas \(\theta\) ; nous observons simplement \(O\). Notre objectif est alors d’avoir une estimation de \(\theta\) qui serait un choix plausible étant donné les résultats observés \(O\). Nous savons que pour une valeur de \(\theta\), la probabilité d’observer \(O\) est \(P(O \vert \theta)\). Il est donc logique de choisir la valeur de \(\theta\) qui maximise la probabilité que nous observions effectivement \(O\). En d’autres termes, nous trouvons les valeurs de paramètre \(\theta\) qui maximisent
\
où \(\mathcal{L}(\theta \vert O)\) est la fonction de vraisemblance, dont j’ai parlé dans un article sur l’estimation du maximum de vraisemblance. Remarquez que par définition la fonction de vraisemblance est conditionnée à l’observé \(O\) et qu’elle est fonction des paramètres inconnus \(\theta\).
Extension aux variables aléatoires continues
La situation est similaire, mais évidemment nous ne pouvons plus parler de la probabilité que nous ayons observé \(O\) étant donné \(\theta\) car dans le cas continu \(P(O \vert \theta) = 0\). Nous savons donc que \(f(O \vert \theta)\) est la fonction de densité de probabilité (PDF) associée aux résultats \(O\). Dans le cas continu, nous estimons \(\theta\) étant donné les résultats observés \(O\) en maximisant
\
Notez que dans cette situation, nous ne pouvons pas affirmer que nous trouvons la valeur du paramètre qui maximise la probabilité que nous observions \(O\), car nous maximisons la PDF associée aux résultats observés \(O\). Allez ici pour plus d’informations sur la raison pour laquelle \(\mathcal{L}\) n’est pas une PDF.