Co je distribuce vzorků?
Rozdělení vzorků je rozdělení pravděpodobnosti statistik získaných prostřednictvím velkého počtu vzorků odebraných ze specifické populace. Vzorkovací distribuce dané populace je distribuce frekvencí rozsahu různých výstupů, které by se mohly vyskytnout pro statistiku populace.
Porozumění distribuci vzorků
Mnoho údajů, které akademici, statistici, výzkumníci, obchodníci, analytici atd. Čerpají a používají, jsou ve skutečnosti vzorky, nikoli populace. Vzorek je podmnožinou populace. Například lékařský výzkumník, který chtěl porovnat průměrnou hmotnost všech dětí narozených v Severní Americe od roku 1995 do roku 2005 s těmi, které se narodily v Jižní Americe ve stejném časovém období, nemůže v přiměřeném čase čerpat údaje za celou populaci více než milion porodů, ke kterým došlo za desetileté období. Místo toho použije pouze váhu, řekněme 100 dětí, na každém kontinentu, aby učinil závěr. Hmotnost 200 použitých dětí je vzorek a vypočítaná průměrná hmotnost je průměr vzorku.
Předpokládejme, že namísto odebrání pouze jednoho vzorku ze 100 novorozeneckých hmotností z každého kontinentu lékařský vědec odebere opakované náhodné vzorky z obecné populace a vypočítá průměr vzorku pro každou skupinu vzorků. Takže pro Severní Ameriku shromažďuje data pro 100 novorozenců zaznamenaných v USA, Kanadě a Mexiku takto: čtyři 100 vzorků z vybraných nemocnic v USA, pět 70 vzorků z Kanady a tři 150 záznamů z Mexika, celkem 1200 hmotností novorozenců seskupených do 12 sad. Shromažďuje také vzorky údajů o 100 porodních hmotnostech z každé z 12 zemí Jižní Ameriky.
Každý vzorek má svůj vlastní průměr vzorku a distribuce prostředků vzorku je známá jako distribuce vzorku.
Průměrná hmotnost vypočtená pro každou sadu vzorků je rozdělení vzorku střední hodnoty. Ze vzorku lze vypočítat nejen průměr. Ze statistických údajů lze vypočítat další statistiky, jako je standardní odchylka, rozptyl, poměr a rozsah. Standardní odchylka a rozptyl měří variabilitu distribuce vzorkování.
Počet pozorování v populaci, počet pozorování ve vzorku a postup použitý pro kreslení sad vzorků určují variabilitu distribuce vzorkování. Standardní odchylka distribuce vzorkování se nazývá standardní chyba. Zatímco průměr distribuce vzorku se rovná průměru populace, standardní chyba závisí na standardní odchylce populace, velikosti populace a velikosti vzorku.
Znalost toho, jak je průměr každé sady vzorků od sebe a od průměru populace rozprostřen, bude ukazovat, jak blízko je průměr vzorku k průměru populace. Standardní chyba distribuce vzorkování se zmenšuje se zvětšováním velikosti vzorku.
Zvláštní úvahy
Populace nebo jeden vzorek čísel bude mít normální rozdělení. Protože však distribuce vzorkování zahrnuje více sad pozorování, nemusí mít nutně zvonovitý tvar.
Podle našeho příkladu má průměrná hmotnost populace dětí v Severní Americe a Jižní Americe normální distribuci, protože některé děti budou mít podváhu (pod průměrem) nebo nadváhu (nad průměrem), přičemž většina dětí klesá mezi (kolem průměru)). Pokud je průměrná hmotnost novorozenců v Severní Americe sedm liber, průměrná hmotnost vzorku v každé z 12 sad pozorování vzorku zaznamenaných pro Severní Ameriku bude také blízká sedmi liber.
Pokud však zakreslíte každý průměr vypočítaný v každé ze 1200 skupin vzorků, výsledný tvar může mít za následek rovnoměrné rozložení, ale je obtížné s jistotou předpovědět, jaký bude skutečný tvar. Čím více vzorků vědec používá z populace více než milionu hmotností, tím více začne graf tvořit normální rozdělení.
- Distribuce vzorkování je distribuce pravděpodobnosti statistiky získané prostřednictvím velkého počtu vzorků odebraných z konkrétní populace. Distribuce vzorkování dané populace je distribuce frekvencí rozsahu různých výsledků, které by se mohly vyskytnout pro statistiku populace. Mnoho údajů, které akademici, statistici, vědci, obchodníci a analytici čerpali a používají, jsou ve skutečnosti vzorky, nikoli populace.
