Co je homoskedastic?
Homoskedastic (také hláskoval “homoscedastic”) se odkazuje na stav ve kterém variance zbytku nebo termín chyby, v regresním modelu je konstantní. To znamená, že chybový termín se příliš nemění, protože se mění hodnota predikční proměnné. Nedostatek homoskedasticity však může naznačovat, že regresní model bude možná muset zahrnovat další predikční proměnné, aby vysvětlil výkon závislé proměnné.
Klíč s sebou
- Homoskedasticita nastává, když rozptyl chybového termínu v regresním modelu je konstantní. Pokud je rozptyl chybového termínu homoskedastický, byl model dobře definován. Pokud je příliš mnoho rozptylů, nemusí být model dobře definován. Přidání dalších predikčních proměnných může pomoci vysvětlit výkon závislé proměnné. Je zřejmé, že k heteroskedasticitě dochází, když rozptyl chybového termínu není konstantní.
Jak homoskedastic funguje
Homoskedasticita je jedním z předpokladů lineárního regresního modelování. Pokud se rozptyl chyb kolem regresní čáry velmi liší, může být regresní model špatně definován. Opakem homoskedasticity je heteroskedasticity, stejně jako opak „homogenní“ je „heterogenní“. Heteroskedasticita (také hláskovaná „heteroscedasticita“) označuje stav, ve kterém rozptyl chybového termínu v regresní rovnici není konstantní.
Při zvažování, že rozptyl je změřeným rozdílem mezi předpokládaným výsledkem a skutečným výsledkem dané situace, může určení homoskedasticity pomoci určit, které faktory je třeba upravit pro přesnost.
Zvláštní úvahy
Jednoduchý regresní model nebo rovnice se skládá ze čtyř termínů. Na levé straně je závislá proměnná. Představuje jev, který se model snaží „vysvětlit“. Na pravé straně je konstanta, predikční proměnná a zbytkový nebo chybový termín. Chybový termín ukazuje velikost variability v závislé proměnné, která není vysvětlena predikční proměnnou.
Příklad homoskedastiky
Předpokládejme například, že jste chtěli vysvětlit skóre studentských testů pomocí množství času, který každý student strávil studiem. V tomto případě by skóre testu bylo závislou proměnnou a čas strávený studiem by byl prediktorovou proměnnou.
Termín chyby by ukazoval množství rozptylu ve skóre testu, které nebylo vysvětleno množstvím času studia. Pokud je tato odchylka stejná nebo homoskedastická, pak by to naznačovalo, že model může být vhodným vysvětlením pro výkon testu - vysvětlující to z hlediska času stráveného studiem.
Rozptyl však může být heteroskedastický. Graf údajů o chybovém termínu může ukázat, že velké množství času studie velmi úzce korespondovalo s vysokými skóre testu, ale toto nízké skóre testu doby testu se velmi lišilo a dokonce zahrnovalo některá velmi vysoká skóre. Rozptyl skóre by tedy nebylo možné vysvětlit jednoduše pomocí jedné predikční proměnné - množství času na studium. V tomto případě pravděpodobně funguje nějaký další faktor, a proto bude možná nutné model vylepšit, aby se identifikoval. Další zkoumání může odhalit, že někteří studenti viděli odpovědi na test v předstihu nebo že dříve absolvovali podobný test, a proto pro tento konkrétní test nemuseli studovat.
Aby se zlepšil regresní model, přidal by vědec další vysvětlující proměnnou naznačující, zda student viděl odpovědi před testem. Regresní model by pak měl dvě vysvětlující proměnné - studium času a to, zda student měl předchozí znalosti odpovědí. U těchto dvou proměnných by bylo vysvětleno více rozptylu skóre testu a rozptyl chybového termínu by pak mohl být homoskedastický, což naznačuje, že model byl dobře definován.
