Co je koeficient determinace?
Koeficient určení je měřítkem používaným ve statistické analýze, která hodnotí, jak dobře model vysvětluje a předpovídá budoucí výsledky. To svědčí o úrovni vysvětlené variability v souboru údajů. Koeficient určení, také běžně známý jako „R-kvadrát“, se používá jako vodítko pro měření přesnosti modelu.
Jeden způsob interpretace tohoto obrázku je říci, že proměnné obsažené v daném modelu vysvětlují přibližně x% pozorované variace. Pokud tedy R2 = 0, 50, pak lze pomocí modelu vysvětlit přibližně polovinu pozorované variace.
R na druhou
Klíč s sebou
- Koeficient determinace je komplexní myšlenka zaměřená na statistickou analýzu budoucího modelu dat. Koeficient determinace se používá k vysvětlení toho, jak velkou variabilitu jednoho faktoru může způsobit jeho vztah k jinému faktoru.
Porozumění koeficientu determinace
Koeficient determinace se používá k vysvětlení, jak velkou variabilitu jednoho faktoru může způsobit jeho vztah k jinému faktoru. Při analýze trendů se velmi spoléhá a je reprezentována jako hodnota mezi 0 a 1.
Čím je hodnota blíže k 1, tím lépe se hodí nebo vztah mezi dvěma faktory. Koeficient určení je čtverec korelačního koeficientu, také známý jako "R", který mu umožňuje zobrazit stupeň lineární korelace mezi dvěma proměnnými.
Tato korelace je známá jako „dobrota kondice“. Hodnota 1, 0 označuje dokonalé přizpůsobení, a je tedy velmi spolehlivým modelem pro budoucí prognózy, což naznačuje, že model vysvětluje všechny pozorované variace. Hodnota 0, na druhé straně, by naznačovala, že model vůbec nedokáže přesně modelovat data. U modelu s několika proměnnými, jako je model s více regresemi, je upravený R2 lepším koeficientem stanovení. V ekonomii je hodnota R2 nad 0, 60 považována za hodnotnou.
Výhody analýzy koeficientu determinace
Koeficient stanovení je druhá mocnina korelace mezi predikovanými skóre v sadě dat versus skutečná sada skóre. Může být také vyjádřena jako mocnina korelace mezi skóre X a Y, přičemž X je nezávislá proměnná a Y je závislá proměnná.
Bez ohledu na reprezentaci R-kvadrát rovný 0 znamená, že závislou proměnnou nelze předpovědět pomocí nezávislé proměnné. Naopak, pokud se rovná 1, znamená to, že závislá proměnná je vždy predikována nezávislou proměnnou.
Koeficient určení, který spadá do tohoto rozsahu, měří rozsah, v jakém nezávislá proměnná předpovídá závislou proměnnou. Například R na druhou 0, 20 znamená, že nezávislá proměnná předpovídá 20% závislé proměnné.
Dobrá shoda nebo stupeň lineární korelace měří vzdálenost mezi osazenou čarou v grafu a všemi datovými body, které jsou rozptýleny kolem grafu. Úzká sada dat bude mít regresní linii, která je velmi blízko bodům a bude mít vysokou úroveň přizpůsobení, což znamená, že vzdálenost mezi linií a údaji je velmi malá. Dobrá shoda má R-kvadrát, který je blízko 1.
R-kvadrát však není schopen určit, zda jsou datové body nebo předpovědi zkreslené. Rovněž neříká analytikovi ani uživateli, zda je koeficient určující hodnoty dobrý nebo ne. Například nízká hodnota R na druhou není špatná a je na osobě, aby se rozhodla na základě čísla R na druhou.
Koeficient určení by neměl být interpretován naivně. Pokud je například R-kvadrát modelu uváděn na 75%, rozptyl jeho chyb je o 75% menší než rozptyl závislé proměnné a standardní odchylka jeho chyb je o 50% menší než směrodatná odchylka závislé proměnná. Standardní odchylka chyb modelu je asi jedna třetina velikosti standardní odchylky chyb, které byste získali u modelu pouze s konstantou.
A konečně, i když je hodnota R na druhou velká, nemusí existovat statistická významnost vysvětlujících proměnných v modelu nebo efektivní velikost těchto proměnných může být z praktického hlediska velmi malá.
