Co jsou neparametrické statistiky?
Neparametrické statistiky se vztahují ke statistické metodě, ve které se data nevyžadují pro normální rozdělení. Neparametrická statistika používá data, která jsou často pořadová, což znamená, že se nespoléhá na čísla, ale spíše na pořadí nebo pořadí druhů. Například průzkum, který vyjadřuje preference spotřebitelů v rozmezí od lajků k nechuti, by byl považován za běžná data.
Neparametrické statistiky zahrnují neparametrické popisné statistiky, statistické modely, inference a statistické testy. Modelová struktura neparametrických modelů není a priori specifikována, nýbrž je určena z dat. Termín neparametrický nemá znamenat, že takové modely zcela postrádají parametry, ale spíše to, že počet a povaha parametrů jsou flexibilní a nejsou předem stanoveny. Histogram je příklad neparametrického odhadu rozdělení pravděpodobnosti.
Porozumění neparametrickým statistikám
Ve statistice zahrnuje parametrická statistika parametry jako průměr, medián, směrodatná odchylka, rozptyl atd. Tato forma statistiky používá pozorovaná data k odhadu parametrů distribuce. V parametrické statistice se předpokládá, že data odpovídají normálnímu rozdělení s neznámými parametry μ (průměr populace) a σ 2 (odchylka populace), které se poté odhadují pomocí průměrné hodnoty vzorku a rozptylu vzorku.
Neparametrická statistika nepředpokládá velikost vzorku ani to, zda jsou pozorovaná data kvantitativní.
Neparametrické statistiky nepředpokládají, že data jsou čerpána z normální distribuce. Místo toho se tvar distribuce odhaduje podle této formy statistického měření. I když existuje mnoho situací, ve kterých lze předpokládat normální rozdělení, existují i některé scénáře, ve kterých nebude možné určit, zda budou data normálně distribuována.
Příklady neparametrických statistik
V prvním příkladu zvažte vědce, který chce odhadnout počet dětí v Severní Americe narozených hnědýma očima, může se rozhodnout odebrat vzorek 150 000 dětí a provést analýzu datového souboru. Měření, které odvodí, bude použito jako odhad celé populace kojenců s hnědýma očima narozených v následujícím roce.
Jako druhý příklad zvažte jiného vědce, který chce vědět, zda jít do postele brzy nebo pozdě, souvisí s tím, jak často člověk onemocní. Za předpokladu, že vzorek je vybrán náhodně z populace, lze rozložení velikosti vzorku frekvence onemocnění považovat za normální. Nelze však předpokládat, že experiment, který měří odolnost lidského těla vůči kmenu bakterií, má normální distribuci.
Je to proto, že náhodně vybraná data vzorku mohou být rezistence vůči kmeni. Na druhé straně, pokud vědec vezme v úvahu faktory, jako je genetické složení a etnicita, může zjistit, že velikost vzorku vybraná pomocí těchto charakteristik nemusí být vůči kmenu rezistentní. Proto nelze předpokládat normální rozdělení.
Tato metoda je užitečná, pokud data nemají jasnou numerickou interpretaci a je nejlepší ji použít s daty, která mají hodnocení podle druhu. Například test hodnocení osobnosti může mít hodnocení svých metrik nastaveno jako silně nesouhlasím, nesouhlasím, lhostejným, souhlasím a silně souhlasím. V tomto případě by měly být použity neparametrické metody.
Zvláštní úvahy
Neparametrické statistiky získaly ocenění díky jejich snadnému použití. Jakmile je potřeba parametrů zmírněna, data se stávají více použitelnými pro větší škálu testů. Tento typ statistiky lze použít bez střední hodnoty, velikosti vzorku, standardní odchylky nebo odhadu dalších souvisejících parametrů, pokud žádná z těchto informací není k dispozici.
Protože neparametrická statistika má méně předpokladů o vzorových datech, její aplikace je svým rozsahem širší než parametrická statistika. V případech, kdy je vhodnější parametrické testování, budou neparametrické metody méně účinné. Je to proto, že výsledky získané z neparametrických statistik mají nižší stupeň spolehlivosti, než kdyby byly výsledky získány pomocí parametrické statistiky.
Klíč s sebou
- Neparametrické statistiky se snadno používají, ale nenabízejí přesnou přesnost jiných statistických modelů. Tento typ analýzy se nejlépe hodí při zvažování pořadí něčeho, kde i když se číselné údaje změní, výsledky pravděpodobně zůstanou stejné.
