Aria: Suita, ratuj siostrzyczko. Wzięłam w łapy wielką i grubą książkę o statystyce i nic z niej nie rozumiem – sama matematyka i to trudna.
Suita: Statystka to obszerna i skomplikowana nauka. Sama jej do końca nie znam i nie rozumiem. Ale mogę ci wytłumaczyć podstawy podstaw. Pójście dalej może być zbyt trudne.
Aria: Świetnie, wcale więcej nie chcę wiedzieć. Wystarczy mi znajomość paru podstawowych terminów.
Suia: Załóżmy, że chciałabyś zbadać jaka jest długość psich ogonów w mieście. Co powinnaś zrobić?
Aria: Złapać wszystkie psy i zmierzyć. Ale trzeba by je namierzyć, zatrzymać siłą lub przekupić i zmierzyć. I jakoś oznakować, że dany pies był już mierzony. Zupełnie niewykonalne.
Suita: I tu właśnie z pomocą przychodzi statystyka. Łapiesz niewielką liczbę psów, wybranych losowo i mierzysz im ogony. Nazywamy to pobraniem próby. Statystyka pozwala oszacować długość ogonów psów w mieście na podstawie pobranej, losowej próby.
Aria: O to świetnie. Ae czy te wyniki będą dokładne?
Suita: Dokładne to będa jak złapiesz i zmierzysz wszystkie psy. Dokładność oszacowania z próby jest tym większa im większą próbę pobierzesz. Statystyka mówi o prawdopodobieństwie błędu.
Aria: Czy są jakieś limity?
Suita: Zakłada się, że dostateczne jest zmierzenie 30 lub więcej osobników. Ocenia się z prawdopodobieństwem 5%. To oznacza, że gdyby 100 uczonych pobierało próby i mierzyło niezależnie od siebie, to dziewięćdziesięciu pięciu uzyskało by wyniki odpowiadające rzeczywistości, a 5 z nich uzyskało by wyniki odbiegające od rzeczywistości. Oczywiście można też założyć, że błąd powinien być 1%. Na ogół powinno się wtedy znacznie zwiększyć liczebność próby.
Aria: A jakiś konkretny przykład?
Suita: Załóżmy, że zmierzyłaś 11 Jack Russell Terrierów płci męskiej i uzyskałaś następujące długości ogona w cm. Wyniki zostały uporządkowane od największego do najmniejszego: [34, 28, 25, 25, 23, 23, 23, 22, 22, 20, 19]. Jaki jest największy wynik?
Aria: 34.
Suita: Najmniejszy?
Aria: 19
Suita: Rozstęp między nimi?
Aria: 15.
Suita: Suma wyników?
Aria: 264.
Suita: Teraz oblicz średnią. Trzeba dodać wszystkie wyniki i podzielić przez ich liczbę.
Aria: 264/11=24. Średnia wynosi 24.
Suita: A gdybyśmy usunęli największy wynik?
Aria: 230/10=23.
Suita: To dowodzi, że skrajne wyniki (majmniejszy i największy) w istotny sposób wpływają na średnią. Który wynik dzieli nasz szereg dokładnie na pół (występuje w połowie szeregu)?
Aria: To szósty wynik i równa się 23.
Suita: To jest tak zwana mediana. Oznacza, że dokładnie tyle samo wyników jest poniżej mediany co powyżej mediany. Mediana nie zależy od wartości skrajnych. Jaki wynik występuje najczęściej?
Aria: Wynik 23 występuje trzy razy.
Suita: To jest tak zwana dominanta. Może być więcej niż jedna dominanta. Taką sytuację mielibyśmy, gdy inny wynik też powtarzał się trzy razy. Często jeszcze oblicza się tzw. percentyle, 25, 50, 75. Określają one rozkład wyników. Percentyl 50 odpowiada medianie. Percentyl 25 jest w połowie między najwyższym wynikiem, a medianą, a percentyl 75% w połowie między największym wynikiem, a medianą. Percentyle dzielą wyniki na cztery ćwiartki zwane kwartylami
Aria: Dużo tego.
Suita: Tak. Istnieje dużo więcej wskaźników statystycznych, ale już te pozwalają powiedzieć bardzo dużo o wynikach. A teraz to podsumujmy:
1) 34 (maks)
2) 28
3) 25 (percentyl 75)
4) 25
średnia 24
5) 23
6) 23 (mediana, dominanta)
7) 23
8) 22
8) 22 (percentyl 25)
10) 20
11) 19 (min)
rozstęp: 15
suma: 264
Co możesz powiedzieć?
Aria: Średnia nie jest równa ani medianie, ani dominancie. Ponieważ znajduje sie powyżej mediany to znaczy, że wyniki percentyla 75 zawyżają wyniki. Należałoby pomyśleć, czy wynik 34 należy do szeregu, czy należy go odrzucić. Gdy go odrzuciłyśmy średnia odpowiadała i dominancie i medianie, tyle że nie obliczaliśmy dominanty ani mediany dla skróconego szeregu.
Suita: Tak. I zwróć uwagę na rozstęp pomiędzy percentylami:
kwartyl 4: 34 – 25 = 9
kwartyl 3: 25 – 23 = 2
kwartyl 2: 23 – 22 = 1
kwartyl 1: 22 – 19 = 3
Suma to 15, podzielona na 4, daje 3,75. Gdyby wyniki były liniowe odstepy byłyby równe 3,75, a nie są. Czyli?
Aria: Czyli wszystko wskazuje, że ten jeden, a może nawet dwa największe ogony należą do jakichś mutantów. Czy są jakieś narzędzia do podjęcia decyzji?
Suita: Tak, istnieją testy, które pozwalają ocenić czy dany wynik należy do szeregu czy jest artefaktem (mutant, pomyłka), ale to zbyt zaawansowane zagadnienie. A zatem co powiesz o swoim ogonie?
Aria: Ma 22 cm. A więc jest mniejszy od mediany, czyli mam ogon krótszy niż połowa psów. Nie jest to wartość najczęściej spotykana, a więc jest drobne upośledzenie. Jest wyraźnie krótszy od średniej, a ponieważ nie odbiega zanadto od mediany i dominanty, tzn. że ktoś lub coś fałszuje średnią. Gdyby to była wypłata lub porcja obiadowa, zaczęłabym sie poważnie martwić. Ale gdyby nie przejmować się sfałszowaną średnią, to mój ogon wypada całkiem dobrze. Nie muszę martwić się długością swojego ogona. Przeciętne jest najpiękniejsze.
Suita: Brawo siostrzyczko. Jesteś bardzo pojętna.
Aria: Staram się. Zawieszasz mi poprzeczkę bardzo wysoko siostrzyczko.