Hvorfor blir 30 ansett som den minste utvalgstørrelsen i noen former for statistisk analyse?


Beste svaret

Takk for at du spurte. Vennligst les følgende lignende svar ..

Hvorfor øker vi utvalgsstørrelsen til populasjonen, og da har dataene en tendens til å følge normal fordelingskurve?

Hvis jeg forstår spørsmål som det er innrammet, tilfeldigvis er dette den hyppigste misforståelsen / feiltolkningen av Central Limit Theorem (CLT). Feilen folk gjør er at de tror at hvis du har samlet enorme mengder data, følger distribusjonen automatisk Normalfordeling. Ingenting kan være lenger fra sannheten. Enda verre, i mange opplæringskurs har LSS Trainers blitt funnet å anbefale at for deg å bruke en normal distribusjon, er det god nok en praksis å samle inn mer enn 30 datapunkter, og du kan trygt anta at prøven din vil følge Normal Fordeling. Vennligst vær så snill å ikke bli forvirret.

Det CLT snakker om er fordelingen av SAMPLE MEAN og ikke datadistribusjonen, derfor bare ved å ha mer enn 30 datapunkter i analysen din, vil ikke hele datasettet ikke begynn å følge Normal Distribusjon, ikke sant? OG venner, hvorfor i det hele tatt bli overveldet av Normal Distribution (ND) ….? Jeg er enig i at hvis testdataene dine følger ND, blir det lettere å forutsi oppførselen til den underliggende prosessen, men selv om dataene ikke er normale, kan du alltid bruke egenskapene til hvilken distribusjon de følger.

Hvis vi snakker spesifikt om forretningsprosessene der forbedring er ønsket, kan du alltid bruke kontrolldiagrammene. Det anbefales sterkt å holde ting så enkle som vi muligens kan. Forbedring av forretningsprosesser er veldig enkelt forutsatt at vi holder oss til det grunnleggende og ikke prøver å anta at hvis vi ikke bruker vanskelige analyseverktøy, kan vi ikke løse vanskelige prosessproblemer.

Håper dette hjelper.

Svar

Sannsynligheten for å oppnå et statistisk signifikant resultat avhenger av fire ting: 1) P-verdisnittet du vil bruke (alfa). 2) Størrelsen på prøven. 3) Effektstørrelsen i populasjonen (eller minimumseffektstørrelsen du er interessert i å oppdage).

Disse brukes til å bestemme kraft – sannsynligheten for å oppnå et betydelig resultat.

Alfa på 0,05 brukes nesten alltid, slik at vi kan ignorere.

Kraft er sannsynligheten for å oppnå et betydelig resultat – hvor høy vil du at dette skal være? Ville 80\% være nok? Ofte tror folk det er, noen argumenterer for 90\% skjønt. Jeg har aldri sett det argumentert for, men hvis det var veldig viktig at du visste at du kanskje vil ha høyere kraft.

Så det er ingen «prøvestørrelse» som kreves. Det avhenger av kraften du ønsket og effektstørrelse.

Vi kan bruke R (gratis programvare for nedlasting, Google det) for å regne ut strøm.

Funksjonen power.prop.test () gir kraften til oppdage en forskjell i proporsjoner.

Hvis jeg for eksempel vil ha et utvalg på 30 og 80\% effekt, spesifiserer jeg sannsynligheten for en hendelse i en gruppe – jeg vil gjøre det til 50\%:

> power.prop.test(p1 = .5, n=15, power =.8)

Gir et resultat at (sann) sannsynligheten for hendelsen i den andre gruppen må være 0,94 for at mitt utvalg på 30 å ha en 80\% sjanse for å oppdage det.

Two-sample comparison of proportions power calculation

n = 15

p1 = 0.5

p2 = 0.9412015

sig.level = 0.05

power = 0.8

alternative = two.sided

NOTE: n is number in *each* group

Dette blir vanligvis ansett for å være en altfor stor effekt (eller tilsvarende, for lite kraft).

Størrelsen på effekten du vil oppdage, avhenger av kostnadene ved å unnlate å oppdage den effekten. For eksempel, hvis jeg undersøkte effekten av aspirin på å dø av et hjerteinfarkt, ville jeg være interessert i en veldig liten effekt – hvis jeg kan stoppe 1 av 100 personer som dør av et hjerteinfarkt med en veldig billig pille per dag, det er verdt det. Så kanskje jeg tror jeg kan redusere dødsraten fra 10\% til 9\%.

For en 80\% sjanse for et statistisk signifikant resultat, trenger jeg rundt 28 000 individer i studien.

> power.prop.test(p1 = .1, p2=0.09, power =.8)

Two-sample comparison of proportions power calculation

n = 13494.97

p1 = 0.1

p2 = 0.09

sig.level = 0.05

power = 0.8

alternative = two.sided

NOTE: n is number in *each* group

Hvis det er andre risikoer eller kostnader forbundet med behandlingen, må effekten bli større før den er interessant for meg, så jeg trenger ikke en studie med 30 000 mennesker i den.

Så svaret ligger et sted mellom 30 og 30 000 mennesker. Avhengig. Når du øker prøvestørrelsen, øker din presisjon og sikkerhet om en effekt. Og det fortsetter å øke – du kan aldri virkelig ha for stor prøve.(i det minste hvis det ikke er andre kostnader knyttet til prøven).

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *