Les mesures de tendance centrale vous aident à trouver le milieu, ou la moyenne, d’un ensemble de données. Les 3 mesures de tendance centrale les plus courantes sont le mode, la médiane et la moyenne.
- Mode : la valeur la plus fréquente.
- Médiane : le nombre moyen dans un ensemble de données ordonnées.
- Moyenne : la somme de toutes les valeurs divisée par le nombre total de valeurs.
En plus de la tendance centrale, la variabilité et la distribution de votre ensemble de données sont importantes à comprendre lorsque vous effectuez des statistiques descriptives.
Distributions et tendance centrale
Un ensemble de données est une distribution d’un nombre n de scores ou de valeurs.
Distribution normale
Dans une distribution normale, les données sont distribuées de manière symétrique et sans asymétrie. La plupart des valeurs se regroupent autour d’une région centrale, les valeurs s’amenuisant à mesure qu’elles s’éloignent du centre. La moyenne, le mode et la médiane sont exactement les mêmes dans une distribution normale.
Distribution asymétrique
Dans les distributions asymétriques, plus de valeurs tombent d’un côté du centre que de l’autre, et la moyenne, la médiane et le mode diffèrent tous les uns des autres. Un côté a une queue plus étalée et plus longue, avec moins de résultats à une extrémité qu’à l’autre. La direction de cette queue vous indique le côté de l’asymétrie
Dans une distribution positivement asymétrique, il y a un groupe de scores plus faibles et une queue étalée sur la droite. Dans une distribution négativement asymétrique, il y a un groupe de scores plus élevés et une queue étalée sur la gauche.
- Distribution positivement biaisée
- Distribution négativement skewed distribution
Mode
Le mode est la valeur la plus fréquente dans l’ensemble de données. Il est possible de n’avoir aucun mode, un mode ou plus d’un mode.
Pour trouver le mode, triez votre ensemble de données numériquement ou catégoriquement et sélectionnez la réponse qui apparaît le plus fréquemment.
Pour trouver le mode, triez vos données par catégorie et trouvez quelle réponse a été choisie le plus fréquemment.
Pour faciliter les choses, vous pouvez créer un tableau de fréquence pour compter les valeurs de chaque catégorie.
Idéologie politique | Fréquence |
---|---|
Conservateur | 2 |
Modéré | 3 |
Libéral | 4 |
Mode : Libéral
Le mode est facilement visible dans un graphique à barres car c’est la valeur dont la barre est la plus haute.
Quand utiliser le mode
Le mode s’applique surtout aux données d’un niveau nominal de mesure. Les données nominales sont classées en catégories mutuellement exclusives, le mode vous indique donc la catégorie la plus populaire.
Pour les variables continues ou les niveaux de mesure des rapports, le mode peut ne pas être une mesure utile de la tendance centrale. C’est parce qu’il y a beaucoup plus de valeurs possibles que dans un niveau de mesure nominal ou ordinal. Il est peu probable qu’une valeur se répète dans un niveau de mesure de ratio.
Participant | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
---|---|---|---|---|---|---|---|---|---|
Temps de réaction. (millisecondes) | 267 | 345 | 421 | 324 | 401 | 312 | 382 | 298 | 303 |
Dans cet ensemble de données, il n’y a pas de mode, car chaque valeur n’apparaît qu’une seule fois.
Médiane
La médiane d’un ensemble de données est la valeur qui se situe exactement au milieu lorsqu’elle est ordonnée de la plus basse à la plus haute.
Participant | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
---|---|---|---|---|---|---|---|
Vitesse | Moyenne | Lente | Rapide | Rapide | Moyenne | Rapide | Lente |
Pour trouver la médiane, vous ordonnez d’abord toutes les valeurs du plus bas au plus haut. Ensuite, vous trouvez la valeur au milieu de l’ensemble des données ordonnées – dans ce cas, la valeur en 4ème position.
Ensemble de données ordonné | Lent | Lent | Moyen | Moyen | Fast | Fast | Fast |
---|
Médiane : Moyenne
Dans les grands ensembles de données, il est plus facile d’utiliser des formules simples pour déterminer la position de la valeur médiane dans la distribution. Vous utilisez différentes méthodes pour trouver la médiane d’un ensemble de données selon que le nombre total de valeurs est pair ou impair.
Médiane d’un ensemble de données à nombre impair
Pour un ensemble de données à nombre impair, trouvez la valeur qui se trouve à la position (n+1)/2, où n est le nombre de valeurs dans l’ensemble de données.
Temps de réaction (millisecondes) | 287 | 298 | 345 | 365 | 380 |
---|
La position centrale est calculée en utilisant (n+1)/2, où n = 5.
(5+1)/2 = 3
Cela signifie que la médiane est la 3e valeur de votre ensemble de données ordonnées.
Médiane : 345 millisecondes
Médiane d’un ensemble de données à nombre pair
Pour un ensemble de données à nombre pair, trouvez les deux valeurs au milieu de l’ensemble de données : les valeurs aux positions n/2 et (n/2) + 1. Trouvez ensuite leur moyenne.
Temps de réaction (millisecondes) | 287 | 298 | 345 | 357 | 365 | 380 |
---|
Les positions intermédiaires sont calculées en utilisant n/2 et (n/2) + 1, où n = 6.
6/2 = 3
(6/2) + 1 = 4
Ce qui signifie que les valeurs médianes sont la 3e valeur, qui est 345, et la 4e valeur, qui est 357.
Pour obtenir la médiane, on prend la moyenne des 2 valeurs médianes en les additionnant et en les divisant par deux.
(345 + 357)/2 = 351
Médiane : 351 millisecondes
Moyenne
La moyenne arithmétique d’un ensemble de données est la somme de toutes les valeurs divisée par le nombre total de valeurs. C’est la mesure de tendance centrale la plus couramment utilisée car toutes les valeurs sont utilisées dans le calcul.
Participant | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|
Temps de réaction time (millisecondes) | 287 | 345 | 365 | 298 | 380 |
D’abord, vous additionnez la somme de toutes les valeurs :
⅀x = 287 + 345 + 365 + 298 + 380 = 1675
Puis vous calculez la moyenne en utilisant la formule ⅀x/n. Il y a 5 valeurs dans l’ensemble de données, donc n = 5.
Moyenne (x̄) = 1675/5 = 335
Moyenne : 335 millisecondes
Effet des valeurs aberrantes sur la moyenne
Les valeurs aberrantes peuvent augmenter ou diminuer considérablement la moyenne lorsqu’elles sont incluses dans le calcul. Comme toutes les valeurs sont utilisées pour calculer la moyenne, celle-ci peut être affectée par des valeurs aberrantes extrêmes. Une valeur aberrante est une valeur qui diffère considérablement des autres dans un ensemble de données.
Participant | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|
Temps de réaction (millisecondes) | 832 | 345 | 365 | 298 | 380 |
⅀x = 832 + 345 + 365 + 298 + 380 = 2220
Moyenne (x̄) = ⅀x/n = 2220/5 = 444
En raison de la valeur aberrante, la moyenne devient beaucoup plus élevée, même si tous les autres chiffres de l’ensemble de données restent les mêmes.
Moyenne : 444 millisecondes
Moyenne de la population versus moyenne de l’échantillon
Un ensemble de données contient des valeurs provenant d’un échantillon ou d’une population. Une population est le groupe entier sur lequel vous souhaitez faire des recherches, tandis qu’un échantillon n’est qu’un sous-ensemble de cette population.
Alors que les données d’un échantillon peuvent vous aider à faire des estimations sur une population, seules les données de la population complète peuvent vous donner une image complète.
En statistique, la notation d’une moyenne d’échantillon et d’une moyenne de population et leurs formules sont différentes. Mais les procédures de calcul des moyennes de population et d’échantillon sont les mêmes.
- Formule de la moyenne d’échantillon
- Formule de la moyenne de population
La moyenne d’échantillon s’écrit M ou x̄ (prononcé x-bar). Pour calculer la moyenne d’un échantillon, utilisez cette formule :
La moyenne de la population s’écrit μ (terme grec mu). Pour calculer la moyenne d’une population, utilisez cette formule:
Quand faut-il utiliser la moyenne, la médiane ou le mode ?
Les 3 principales mesures de tendance centrale sont mieux utilisées en combinaison les unes avec les autres car elles ont des forces et des limites complémentaires. Mais parfois, seules 1 ou 2 d’entre elles sont applicables à votre ensemble de données, selon le niveau de mesure de la variable.
- Le mode peut être utilisé pour tout niveau de mesure, mais il est plus significatif pour les niveaux nominaux et ordinaux.
- La médiane ne peut être utilisée que sur des données qui peuvent être ordonnées – c’est-à-dire à partir des niveaux de mesure ordinaux, d’intervalle et de rapport.
- La moyenne ne peut être utilisée que sur les niveaux de mesure d’intervalle et de rapport car elle nécessite un espacement égal entre les valeurs ou les scores adjacents dans l’échelle.
Niveaux de mesure | Exemples | Mesure de la tendance centrale |
---|---|---|
Nominale |
|
|
Ordinale |
. d’anxiété |
|
Intervalle et rapport |
. |
|
Pour décider des mesures de tendance centrale à utiliser, vous devez également tenir compte de la distribution de votre ensemble de données.
Pour les données normalement distribuées, les trois mesures de tendance centrale vous donneront la même réponse, elles peuvent donc toutes être utilisées.
Dans les distributions asymétriques, la médiane est la meilleure mesure car elle n’est pas affectée par les aberrations extrêmes ou les distributions non symétriques des scores. La moyenne et le mode peuvent varier dans les distributions asymétriques.
Questions fréquemment posées sur la tendance centrale
Les mesures de tendance centrale vous aident à trouver le milieu, ou la moyenne, d’un ensemble de données.
Les 3 mesures de tendance centrale les plus courantes sont la moyenne, la médiane et le mode.
- Le mode est la valeur la plus fréquente.
- La médiane est le nombre intermédiaire dans un ensemble de données ordonné.
- La moyenne est la somme de toutes les valeurs divisée par le nombre total de valeurs.
Les mesures de tendance centrale que vous pouvez utiliser dépendent du niveau de mesure de vos données.
- Pour un niveau nominal, vous pouvez uniquement utiliser le mode pour trouver la valeur la plus fréquente.
- Pour un niveau ordinal ou des données classées, vous pouvez également utiliser la médiane pour trouver la valeur au milieu de votre ensemble de données.
- Pour un niveau d’intervalle ou de rapport, en plus du mode et de la médiane, vous pouvez utiliser la moyenne pour trouver la valeur moyenne.
La moyenne est la mesure de tendance centrale la plus fréquemment utilisée car elle utilise toutes les valeurs de l’ensemble de données pour vous donner une moyenne.
Pour les données issues de distributions asymétriques, la médiane est meilleure que la moyenne car elle n’est pas influencée par des valeurs extrêmement grandes.
Le mode est la seule mesure que vous pouvez utiliser pour les données nominales ou catégorielles qui ne peuvent pas être ordonnées.
.