Nejlepší odpověď
Děkujeme za dotaz. Přečtěte si následující podobnou odpověď.
Čím to je, že zvětšíme velikost vzorku populace, pak mají data tendenci sledovat křivku normálního rozdělení?
Pokud rozumím otázka, jak je formulována, je shodou okolností toto nejčastější nedorozumění / dezinterpretace Central Limit Theorem (CLT). Lidé dělají chybu v tom, že si myslí, že pokud jste shromáždili obrovské množství dat, distribuce automaticky následuje normální distribuci. Nic nemůže být dále od pravdy. Ještě horší je, že na mnoha školicích kurzech LSS Trainers bylo doporučeno, abyste pohodlně používali normální distribuci, což je dost dobrý postup pro shromáždění více než 30 datových bodů a můžete bezpečně předpokládat, že váš vzorek bude následovat normální Rozdělení. Prosím, nenechte se zmást.
O čem CLT hovoří je distribuce SAMPLE MEAN, a nikoli distribuce dat, proto pouze tím, že budete mít ve své analýze více než 30 datových bodů, celá sada dat nebude začít sledovat normální rozdělení, že ..? A přátelé, proč být vůbec zahlceni Normální distribucí (ND) ….? Souhlasím s tím, že pokud vaše testovací data sledují ND, je snazší předvídat chování základního procesu, ale i když jsou data neobvyklá, můžete vždy použít vlastnosti kterékoli distribuce, kterou sleduje.
Pokud mluvíme konkrétně o obchodních procesech, u nichž je žádoucí zlepšení, můžete vždy použít kontrolní grafy. Důrazně doporučujeme, aby to bylo co nejjednodušší. Zlepšení obchodního procesu je velmi snadné za předpokladu, že se budeme držet základů a nebudeme se snažit předpokládat, že pokud nebudeme používat složité analytické nástroje, nemůžeme složité procesní problémy vyřešit.
Doufám, že to pomůže.
Odpověď
Pravděpodobnost získání statisticky významného výsledku závisí na 4 věcech: 1) Mezní hodnota p, kterou chcete použít (alfa). 2) Velikost vzorku. 3) Velikost efektu v populaci (nebo minimální velikost efektu, kterou chcete detekovat).
Používají se k určení síly – pravděpodobnosti získání významného výsledku.
Alfa 0,05 se používá téměř vždy, takže ji můžeme ignorovat.
Moc je pravděpodobnost získání významného výsledku – jak vysoká to chcete mít? Stačilo by 80\%? Lidé si to často myslí, někteří tvrdí, že je to 90\%. Nikdy jsem to neviděl, ale když to bylo opravdu důležité, abyste věděli, že byste mohli chtít vyšší výkon.
Takže není vyžadována žádná „velikost vzorku“. Záleží na síle, kterou velikost požadavku a efektu.
Můžeme použít R (bezplatný software ke stažení, Google to) k výpočtu síly.
Funkce power.prop.test () dává sílu detekovat rozdíl v proporcích.
Například pokud chci vzorek 30 a 80\% výkonu, určím pravděpodobnost události v jedné skupině – udělám to 50\%:
> power.prop.test(p1 = .5, n=15, power =.8)
Dává výsledek, že (pravdivá) pravděpodobnost události v druhé skupině musí být 0,94, aby pro můj vzorek 30 mít 80\% šanci ji detekovat.
Two-sample comparison of proportions power calculation
n = 15
p1 = 0.5
p2 = 0.9412015
sig.level = 0.05
power = 0.8
alternative = two.sided
NOTE: n is number in *each* group
To by se obvykle považovalo za příliš velký účinek (nebo ekvivalentně za příliš malou sílu).
Velikost efektu, který chcete detekovat, závisí na nákladech na jeho detekci. Například, kdybych zkoumal vliv aspirinu na umírání na infarkt, zajímal by mě velmi malý účinek – pokud mohu zastavit 1 osobu ze 100 umírajících na infarkt jednou velmi levnou pilulkou denně, stojí to za to. Možná si tedy myslím, že dokážu snížit úmrtnost z 10\% na 9\%.
Pro 80\% šanci na statisticky významný výsledek potřebuji ve své studii přibližně 28 000 osob.
> power.prop.test(p1 = .1, p2=0.09, power =.8)
Two-sample comparison of proportions power calculation
n = 13494.97
p1 = 0.1
p2 = 0.09
sig.level = 0.05
power = 0.8
alternative = two.sided
NOTE: n is number in *each* group
Pokud s léčbou souvisejí další rizika nebo náklady, pak bude účinek muset být větší, než bude pro mě zajímavý, takže bych nepotřeboval studii s 30 000 lidmi.
Takže odpověď je někde mezi 30 a 30 000 lidmi. Podle toho. Jak zvětšíte velikost vzorku, zvýší se vaše přesnost a jistota ohledně efektu. A stále se zvyšuje – nikdy nemůžete mít příliš velký vzorek.(alespoň pokud se vzorkem nejsou spojeny žádné další náklady).