Co je statistika Chi-Square?
Čtverec ( χ 2) statistika je test, který měří, jak se očekávání porovnávají se skutečnými pozorovanými údaji (nebo výsledky modelu). Data použitá při výpočtu statistiky chí-kvadrát musí být náhodná, nezpracovaná, vzájemně se vylučující, čerpaná z nezávislých proměnných a čerpaná z dostatečně velkého vzorku. Například výsledky, které hodí minci 100krát, splňují tato kritéria.
Chi-square testy se často používají při testování hypotéz.
Vzorec pro Chi-Square je
χc2 = ∑ (Oi − Ei) 2Kde: c = stupně volnostiO = pozorovaná hodnota (y) E = očekávaná hodnota (y) begin {zarovnané} & \ chi ^ 2_c = \ sum \ frac {(O_i - E_i) ^ 2} {E_i} \ & \ textbf {kde:} \ & c = \ text {stupňů volnosti} \ & O = \ text {pozorované hodnoty)} \ & E = \ text {očekávané hodnoty } \ \ end {zarovnané} χc2 = ∑Ei (Oi −Ei) 2 kde: c = stupně volnostiO = pozorovaná hodnota (y) E = očekávaná hodnota (y)
Co vám říká statistika Chi-Square?
Existují dva hlavní druhy chí-kvadrátových testů: test nezávislosti, který klade otázku vztahu, například: „Existuje vztah mezi pohlavím a skóre SAT?“; a test shody dobroty, který se ptá něco jako „Je-li mince hodena 100krát, přijde to 50krát hlavou a ocasem 50krát?“
Pro tyto testy se používají stupně volnosti k určení, zda lze určitou nulovou hypotézu odmítnout na základě celkového počtu proměnných a vzorků v experimentu.
Například při zvažování výběru studentů a kurzů není velikost vzorku 30 nebo 40 studentů dostatečně velká, aby vygenerovala významná data. Získání stejných nebo podobných výsledků ze studie pomocí vzorku vzorku 400 nebo 500 studentů je platnější.
V dalším příkladu zvažte 100krát hodit minci. Očekávaný výsledek, kdy se hodí hodná mince 100krát, spočívá v tom, že hlavy se objeví 50krát a ocásky se objeví 50krát. Skutečným výsledkem by mohlo být to, že hlavy přijdou 45krát a ocasy 55krát. Statistika chí-kvadrát ukazuje jakékoli nesrovnalosti mezi očekávanými a skutečnými výsledky.
Příklad testu chí kvadrát
Představte si, že bylo provedeno náhodné hlasování přes 2 000 různých voličů, mužů i žen. Lidé, kteří odpověděli, byli klasifikováni podle pohlaví a zda byli republikánští, demokratičtí nebo nezávislí. Představte si mřížku se sloupci označenými republikánskými, demokratickými a nezávislými a dvěma řadami označenými muži a ženy. Předpokládejme, že údaje od 2 000 respondentů jsou následující:
Prvním krokem pro výpočet statistiky na druhou mocninu je nalezení očekávaných frekvencí. Ty se počítají pro každou „buňku“ v mřížce. Protože existují dvě kategorie pohlaví a tři kategorie politického pohledu, očekává se celkem šest četností. Vzorec pro očekávanou frekvenci je:
E (r, c) = n (r) × c (r) na jiném místě: r = řádek v otázcec = sloupec v otázce = odpovídající součet \ begin {zarovnáno} a E (r, c) = \ frac {n (r) časy c (r)} {n} \ & \ textbf {kde:} \ & r = \ text {sporný řádek} \ & c = \ text {sporný sloupec} \ & n = \ text {odpovídající celkem} \ \ end {zarovnané} E (r, c) = nn (r) × c (r) kde: r = řádek v otázcec = sloupec v otázce = odpovídající celkový součet
V tomto příkladu jsou očekávané frekvence:
- E (1, 1) = (900 x 800) / 2000 = 360E (1, 2) = (900 x 800) / 2000 = 360E (1, 3) = (200 x 800) / 2000 = 80E (2, 1)) = (900 x 1 200) / 2 000 = 540 E (2, 2) = (900 x 1 200) / 2 000 = 540 E (2, 3) = (200 x 1 200) / 2 000 = 120
Dále se použijí tyto hodnoty pro výpočet statistik chí kvadrátů pomocí následujícího vzorce:
Chi-kvadrát = ∑2E (r, c) kde: O (r, c) = pozorovaná data pro daný řádek a sloupec \ begin {zarovnané} & \ text {Chi-kvadrát} = \ sum \ frac {^ 2} {E (r, c)} \ & \ textbf {kde:} \ & O (r, c) = \ text {pozorovaná data pro daný řádek a sloupec} \ \ end {zarovnaný} Chi-kvadrát = = ∑E (r, c) 2 kde: O (r, c) = pozorovaná data pro daný řádek a sloupec
V tomto příkladu je výraz pro každou pozorovanou hodnotu:
- O (1, 1) = (400 - 360) 2/360 = 4, 44O (1, 2) = (300 - 360) 2/360 = 10 (1, 3) = (100 - 80) 2/80 = 5O (2, 1) = (500 - 540) 2/540 = 2, 96O (2, 2) = (600 - 540) 2/540 = 6, 67 (2, 3) = (100 - 120) 2/120 = 3, 33
Statistika chí-kvadrát pak odpovídá součtu těchto hodnot, nebo 32, 41. Poté se můžeme podívat na statistickou tabulku chi-kvadrát, abychom zjistili, zda je výsledek statisticky významný nebo ne, vzhledem k stupňům volnosti v našem uspořádání.
