Miary tendencji centralnej pomagają znaleźć środek lub średnią zestawu danych. Trzy najbardziej powszechne miary tendencji centralnej to tryb, mediana i średnia.
- Tryb: najczęstsza wartość.
- Mediana: środkowa liczba w uporządkowanym zestawie danych.
- Średnia: suma wszystkich wartości podzielona przez całkowitą liczbę wartości.
W dodatku do tendencji centralnej, zmienność i dystrybucja twojego zestawu danych jest ważna do zrozumienia podczas wykonywania statystyk opisowych.
Rozkłady i tendencja centralna
Zestaw danych jest rozkładem n liczby wyników lub wartości.
Rozkład normalny
W rozkładzie normalnym, dane są symetrycznie rozłożone bez nachylenia. Większość wartości skupia się wokół centralnego regionu, a wartości zmniejszają się w miarę oddalania się od centrum. Średnia, tryb i mediana są dokładnie takie same w rozkładzie normalnym.
Rozkłady skośne
W rozkładach skośnych więcej wartości znajduje się po jednej stronie środka niż po drugiej, a średnia, mediana i sposób różnią się od siebie. Jedna strona ma bardziej rozłożony i dłuższy ogon z mniejszą liczbą wyników na jednym końcu niż na drugim. Kierunek tego ogona mówi nam, która strona jest skośna
W rozkładzie pozytywnie skośnym, jest skupisko niższych wyników i rozłożony ogon po prawej stronie. W rozkładzie ujemnie skośnym, jest skupisko wyższych wyników i rozłożony ogon po lewej stronie.
- Rozkład dodatnio skośny
- Rozkład ujemnie skewed distribution
Mode
Tryb jest najczęściej występującą wartością w zbiorze danych. Możliwy jest brak trybu, jeden tryb lub więcej niż jeden tryb.
Aby znaleźć tryb, posortuj swój zbiór danych numerycznie lub kategorycznie i wybierz odpowiedź, która występuje najczęściej.
Aby znaleźć tryb, posortuj dane według kategorii i znajdź, która odpowiedź była wybierana najczęściej.
Aby to ułatwić, możesz stworzyć tabelę częstotliwości, aby policzyć wartości dla każdej kategorii.
Ideologia polityczna | Częstotliwość |
---|---|
Konserwatysta | 2 |
Moderate | 3 |
Liberal | 4 |
Tryb: Liberalny
Tryb jest łatwo widoczny na wykresie słupkowym, ponieważ jest to wartość z najwyższym słupkiem.
Kiedy stosować tryb
Tryb ma największe zastosowanie do danych z nominalnego poziomu pomiaru. Dane nominalne są klasyfikowane do wzajemnie wykluczających się kategorii, więc tryb mówi o najbardziej popularnej kategorii.
Dla zmiennych ciągłych lub stosunkowych poziomów pomiaru, tryb może nie być pomocną miarą tendencji centralnej. Dzieje się tak dlatego, że istnieje o wiele więcej możliwych wartości niż w przypadku nominalnego lub porządkowego poziomu pomiaru. Jest mało prawdopodobne, aby wartość powtarzała się na poziomie proporcji pomiaru.
Uczestnik | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
---|---|---|---|---|---|---|---|---|---|
Czas reakcji (milisekundy) | 267 | 345 | 421 | 324 | 401 | 312 | 382 | 298 | 303 |
W tym zestawie danych, nie ma trybu, ponieważ każda wartość występuje tylko raz.
Mediana
Mediana zbioru danych to wartość, która znajduje się dokładnie pośrodku, gdy jest uporządkowana od niskiej do wysokiej.
Uczestnik | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
---|---|---|---|---|---|---|---|
Szybkość | Medium | Slow | Fast | Medium | Fast | Slow |
Aby znaleźć medianę, należy najpierw uporządkować wszystkie wartości od najniższej do najwyższej. Następnie znajdujemy wartość w środku uporządkowanego zestawu danych – w tym przypadku wartość na 4. pozycji.
Zestaw danych uporządkowanych | Powolny | Powolny | Średni | Średni | Szybki | Fast | Fast | Fast |
---|
Mediana: Średnia
W większych zbiorach danych łatwiej jest użyć prostych wzorów, aby dowiedzieć się, jakie jest położenie środkowej wartości w rozkładzie. Używasz różnych metod, aby znaleźć medianę zestawu danych w zależności od tego, czy całkowita liczba wartości jest parzysta czy nieparzysta.
Mediana nieparzystego zestawu danych
Dla nieparzystego zestawu danych znajdź wartość, która leży na pozycji (n+1)/2, gdzie n jest liczbą wartości w zestawie danych.
Czas reakcji (milisekundy) | 287 | 298 | 345 | 365 | 380 |
---|
Pozycja środkowa jest obliczana przy użyciu (n+1)/2, gdzie n = 5.
(5+1)/2 = 3
To oznacza, że mediana jest 3. wartością w twoim uporządkowanym zbiorze danych.
Mediana: 345 milisekund
Mediana parzystego zbioru danych
Dla parzystego zbioru danych znajdź dwie wartości w środku zbioru danych: wartości na pozycjach n/2 i (n/2) + 1. Następnie znajdź ich średnią.
Czas reakcji (milisekundy) | 287 | 298 | 345 | 357 | 365 | 380 |
---|
Pozycje środkowe są obliczane przy użyciu n/2 i (n/2) + 1, gdzie n = 6.
6/2 = 3
(6/2) + 1 = 4
To oznacza, że środkowe wartości to 3. wartość, która wynosi 345, i 4. wartość, która wynosi 357.
Aby uzyskać medianę, weź średnią z 2 środkowych wartości, dodając je razem i dzieląc przez dwa.
(345 + 357)/2 = 351
Mediana: 351 milisekund
Średnia
Średnia arytmetyczna zbioru danych to suma wszystkich wartości podzielona przez całkowitą liczbę wartości. Jest to najczęściej używana miara tendencji centralnej, ponieważ wszystkie wartości są używane w obliczeniach.
Uczestnik | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|
Czas reakcji (milisekundy) time (milliseconds) | 287 | 345 | 365 | 298 | 380 |
Najpierw sumujemy wszystkie wartości:
⅀x = 287 + 345 + 365 + 298 + 380 = 1675
Następnie obliczamy średnią korzystając ze wzoru ⅀x/n. W zbiorze danych znajduje się 5 wartości, więc n = 5.
Mean (x̄) = 1675/5 = 335
Średnia: 335 milisekund
Wpływ wartości odstających na średnią
Outylia mogą znacznie zwiększyć lub zmniejszyć średnią, gdy zostaną uwzględnione w obliczeniach. Ponieważ wszystkie wartości są używane do obliczania średniej, mogą mieć na nią wpływ skrajne wartości odstające. Wartość odstająca to wartość, która znacznie różni się od innych w zbiorze danych.
Uczestnik | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|
Czas reakcji (milisekundy) | 832 | 345 | 365 | 298 | 380 |
⅀x = 832 + 345 + 365 + 298 + 380 = 2220
Mean (x̄) = ⅀x/n = 2220/5 = 444
Dzięki wartościom odstającym, średnia staje się znacznie wyższa, nawet jeśli wszystkie inne liczby w zbiorze danych pozostają takie same.
Mean: 444 milisekundy
Średnia z populacji kontra średnia z próbki
Zbiór danych zawiera wartości z próbki lub populacji. Populacja to cała grupa, której badaniem jesteśmy zainteresowani, natomiast próbka to tylko podzbiór tej populacji.
Pomimo że dane z próbki mogą pomóc w oszacowaniu populacji, tylko dane z całej populacji mogą dać nam pełny obraz sytuacji.
W statystyce zapis średniej z próbki i średniej z populacji oraz ich wzory są różne. Jednak procedury obliczania średniej dla populacji i średniej z próby są takie same.
- Wzór na średnią z próby
- Wzór na średnią dla populacji
Średnią z próby zapisuje się jako M lub x̄ (wymawiane jako x-bar). Do obliczenia średniej z próby należy użyć następującego wzoru:
Średnią populacji zapisuje się jako μ (termin grecki mu). Do obliczenia średniej populacji należy użyć tego wzoru:
Kiedy należy stosować średnią, medianę lub tryb?
Trzy główne miary tendencji centralnej najlepiej stosować w połączeniu ze sobą, ponieważ mają one uzupełniające się mocne strony i ograniczenia. Czasami jednak tylko 1 lub 2 z nich mają zastosowanie do Twojego zestawu danych, w zależności od poziomu pomiaru zmiennej.
- Model może być użyty dla każdego poziomu pomiaru, ale jest najbardziej znaczący dla poziomów nominalnych i porządkowych.
- Mediana może być używana tylko na danych, które mogą być uporządkowane – to jest z rzędowych, interwałowych i stosunkowych poziomów pomiaru.
- Średnia może być używana tylko na interwałowych i stosunkowych poziomach pomiaru, ponieważ wymaga równych odstępów między sąsiednimi wartościami lub punktami w skali.
Poziomy pomiaru | Przykłady | Pomiar tendencji centralnej |
---|---|---|
Nominal |
|
|
Ordinal |
|
|
Interwał i stosunek |
|
|
Aby zdecydować, które miary tendencji centralnej zastosować, należy również wziąć pod uwagę rozkład zbioru danych.
W przypadku danych o normalnym rozkładzie wszystkie trzy miary tendencji centralnej dadzą taką samą odpowiedź, więc można ich użyć.
W rozkładach skośnych mediana jest najlepszą miarą, ponieważ nie mają na nią wpływu skrajne wartości odstające ani niesymetryczne rozkłady wyników. Średnia i tryb mogą się różnić w rozkładach skośnych.
Często zadawane pytania na temat tendencji centralnej
Pomiary tendencji centralnej pomagają znaleźć środek lub średnią w zbiorze danych.
3 najbardziej powszechne miary tendencji centralnej to średnia, mediana i tryb.
- Tryb jest najczęstszą wartością.
- Mediana to liczba środkowa w uporządkowanym zbiorze danych.
- Średnia to suma wszystkich wartości podzielona przez całkowitą liczbę wartości.
Miary tendencji centralnej, których możesz użyć, zależą od poziomu pomiaru Twoich danych.
- Dla poziomu nominalnego, możesz użyć tylko trybu, aby znaleźć najczęstszą wartość.
- Dla poziomu porządkowego lub danych uszeregowanych, możesz również użyć mediany, aby znaleźć wartość w środku Twojego zestawu danych.
- Dla poziomów interwałowych lub proporcji, oprócz trybu i mediany, można użyć średniej, aby znaleźć średnią wartość.
Średnia jest najczęściej stosowaną miarą tendencji centralnej, ponieważ wykorzystuje wszystkie wartości w zbiorze danych, aby podać średnią.
Dla danych z rozkładów skośnych mediana jest lepsza niż średnia, ponieważ nie mają na nią wpływu skrajnie duże wartości.
Model jest jedyną miarą, którą można zastosować dla danych nominalnych lub kategorycznych, które nie mogą być uporządkowane.