Bedste svar
Tak for spørgsmålet. Læs venligst følgende lignende svar ..
Hvorfor øger vi populationens stikprøvestørrelse, så dataene automatisk følger normal distributionskurve?
Hvis jeg forstår spørgsmål som det er indrammet, tilfældigvis er dette den hyppigste misforståelse / fejlagtige fortolkning af den centrale grænsesætning (CLT). Fejlen folk laver er, at de tror, at hvis du har samlet enorme mængder data, følger distributionen automatisk Normal distribution. Intet kan være længere væk fra sandheden. Endnu værre, i mange et træningskurs har LSS-trænere vist sig at anbefale, at det for dig komfortabelt at bruge en normal distribution er god nok en praksis til at indsamle mere end 30 datapunkter, og du kan sikkert antage, at din prøve følger Normal Fordeling. Vær venlig ikke at blive forvirret.
Hvad CLT taler om er fordelingen af SAMPLE MEAN og ikke datadistributionen, bare ved at have mere end 30 datapunkter i din analyse, vil hele datasættet ikke start med at følge Normal distribution, ikke ..? OG venner, hvorfor overhovedet blive overvældet af Normal Distribution (ND) ….? Jeg er enig i, at hvis dine testdata følger ND, bliver det lettere at forudsige opførelsen af den underliggende proces, men selvom dataene ikke er normale, kan du altid bruge egenskaberne for den distribution, de følger.
Hvis vi taler specifikt om de forretningsprocesser, hvor forbedring ønskes, kan du altid bruge kontrolkortene. Det anbefales kraftigt at holde tingene så enkle som vi overhovedet kan. Forbedring af forretningsprocesser er meget let, forudsat at vi holder os til det grundlæggende og ikke prøver at antage, at hvis vi ikke bruger vanskelige analyseværktøjer, kan vi ikke løse vanskelige procesproblemer.
Håber det hjælper.
Svar
Sandsynligheden for at opnå et statistisk signifikant resultat afhænger af fire ting: 1) Den p-værdi-cutoff, du vil bruge (alfa). 2) Størrelsen på prøven. 3) Effektstørrelsen i befolkningen (eller den mindste effektstørrelse, du er interesseret i at opdage).
Disse bruges til at bestemme magt – sandsynligheden for at opnå et signifikant resultat.
Alfa på 0,05 bruges næsten altid, så vi kan ignorere en.
Effekt er sandsynligheden for at opnå et betydeligt resultat – hvor høj vil du have, at dette skal være? Ville 80\% være nok? Ofte tror folk, det er, nogle argumenterer dog for 90\%. Jeg har aldrig set det argumenteret for, men hvis det var virkelig vigtigt, at du vidste, at du måske ville have højere magt.
Så der er ingen “stikprøvestørrelse”, der kræves. Det afhænger af styrken, som du størrelse og effekt.
Vi kan bruge R (gratis software til download, Google det) til at finde ud af strømmen.
Funktionen power.prop.test () giver magten til registrere en forskel i proportioner.
Hvis jeg f.eks. vil have en prøve på 30 og 80\% effekt, angiver jeg sandsynligheden for en begivenhed i en gruppe – jeg vil gøre det til 50\%:
> power.prop.test(p1 = .5, n=15, power =.8)
Giver et resultat, at (sand) sandsynligheden for begivenheden i den anden gruppe skal være 0,94 for at min prøve på 30 at have en 80\% chance for at opdage det.
Two-sample comparison of proportions power calculation
n = 15
p1 = 0.5
p2 = 0.9412015
sig.level = 0.05
power = 0.8
alternative = two.sided
NOTE: n is number in *each* group
Dette anses normalt for at være en alt for stor effekt (eller tilsvarende for lidt magt).
Størrelsen af den effekt, du vil opdage, afhænger af omkostningerne ved ikke at opdage den effekt. For eksempel, hvis jeg undersøgte effekten af aspirin på at dø af et hjerteanfald, ville jeg være interesseret i en meget lille effekt – hvis jeg kan stoppe 1 person ud af 100 at dø af et hjerteanfald med en meget billig pille om dagen, det er det værd. Så måske tror jeg, jeg kan reducere dødeligheden fra 10\% til 9\%.
For en 80\% chance for et statistisk signifikant resultat har jeg brug for omkring 28.000 personer i min undersøgelse.
> power.prop.test(p1 = .1, p2=0.09, power =.8)
Two-sample comparison of proportions power calculation
n = 13494.97
p1 = 0.1
p2 = 0.09
sig.level = 0.05
power = 0.8
alternative = two.sided
NOTE: n is number in *each* group
Hvis der er andre risici eller omkostninger forbundet med behandlingen, skal effekten være større, før den er interessant for mig, så jeg behøver ikke en undersøgelse med 30.000 mennesker i den.
Så svaret ligger et sted mellem 30 og 30.000 mennesker. Afhængig. Når du øger prøvestørrelsen, øges din præcision og sikkerhed med hensyn til en effekt. Og det fortsætter med at stige – du kan aldrig rigtig have en for stor prøve.(i det mindste hvis der ikke er andre omkostninger forbundet med prøven).