Varför anses 30 vara minsta provstorlek i vissa former av statistisk analys?


Bästa svaret

Tack för att du frågade. Vänligen läs följande liknande svar …

Varför är det så att vi ökar urvalet av befolkningen, så tenderar data automatiskt att följa normal distributionskurva?

Om jag förstår frågan som den är inramad, tillfälligt är den här den vanligaste missförståelsen / misstolkningen av Central Limit Theorem (CLT). Det misstag som folk gör är att de tror att om du har samlat enorma mängder data följer distributionen automatiskt Normal distribution. Ingenting kan vara längre ifrån sanningen. Ännu värre, i många träningskurser har LSS-tränare visat sig rekommendera att det för dig att bekvämt använda en normal distribution är tillräckligt bra för att samla in mer än 30 datapunkter och du kan säkert anta att ditt prov kommer att följa Normal Distribution. Snälla, snälla bli inte förvirrad.

Vad CLT talar om är fördelningen av SAMPLE MEAN och inte datadistributionen, alltså bara genom att ha mer än 30 datapunkter i din analys, kommer hela datamängden inte börja följa Normal Distribution, eller hur ..? OCH vänner, varför vara överväldigad av Normal Distribution (ND) alls ….? Jag håller med om att om dina testdata följer ND blir det lättare att förutsäga beteendet hos den underliggande processen, men även om data är icke-normala, kan du alltid använda egenskaperna för den distribution som följer.

Om vi ​​pratar specifikt om de affärsprocesser där förbättring önskas kan du alltid använda kontrolldiagrammen. Det rekommenderas starkt att hålla saker så enkla som möjligt. Förbättring av affärsprocesser är väldigt enkelt förutsatt att vi håller fast vid grunderna och inte försöker anta att om vi inte använder svåra analysverktyg kan vi inte lösa svåra processproblem.

Hoppas det hjälper.

Svar

Sannolikheten för att få ett statistiskt signifikant resultat beror på fyra saker: 1) P-värdet som du vill använda (alfa). 2) Provets storlek. 3) Effektstorleken i befolkningen (eller den minsta effektstorlek du är intresserad av att upptäcka).

Dessa används för att bestämma effekt – sannolikheten för att få ett betydande resultat.

Alfa på 0,05 används nästan alltid så att vi kan ignorera.

Kraft är sannolikheten att få ett betydande resultat – hur högt vill du att det ska vara? Skulle 80\% räcka? Ofta tror folk att det är, men vissa argumenterar för 90\%. Jag har aldrig sett det argumenterat för, men om det verkligen var viktigt att du visste att du kanske vill ha högre effekt.

Så det finns ingen ”provstorlek” som krävs. Det beror på kraften som du storlek och önskan.

Vi kan använda R (gratis programvara för nedladdning, Google det) för att räkna ut ström.

Funktionen power.prop.test () ger kraften till upptäcka en skillnad i proportioner.

Om jag till exempel vill ha ett prov på 30 och 80\% effekt, anger jag sannolikheten för en händelse i en grupp – jag gör det till 50\%:

> power.prop.test(p1 = .5, n=15, power =.8)

Ger ett resultat att (sann) sannolikheten för händelsen i den andra gruppen måste vara 0,94 för att mitt prov på 30 att ha 80\% chans att upptäcka det.

Two-sample comparison of proportions power calculation

n = 15

p1 = 0.5

p2 = 0.9412015

sig.level = 0.05

power = 0.8

alternative = two.sided

NOTE: n is number in *each* group

Detta anses vanligtvis vara en alltför stor effekt (eller motsvarande, för lite kraft).

Storleken på den effekt som du vill upptäcka beror på kostnaderna för att inte upptäcka den effekten. Till exempel, om jag undersökte effekten av aspirin på att dö av hjärtinfarkt, skulle jag vara intresserad av en mycket liten effekt – om jag kan stoppa 1 av 100 personer att dö av hjärtinfarkt med ett mycket billigt piller per dag, det är värt det. Så jag tror kanske att jag kan minska dödsgraden från 10\% till 9\%.

För 80\% chans att få ett statistiskt signifikant resultat behöver jag cirka 28 000 individer i min studie.

> power.prop.test(p1 = .1, p2=0.09, power =.8)

Two-sample comparison of proportions power calculation

n = 13494.97

p1 = 0.1

p2 = 0.09

sig.level = 0.05

power = 0.8

alternative = two.sided

NOTE: n is number in *each* group

Om det finns andra risker eller kostnader förknippade med behandlingen, måste effekten bli större innan den är intressant för mig, så jag skulle inte behöva en studie med 30 000 personer i den.

Så svaret ligger någonstans mellan 30 och 30 000 personer. Beroende på. När du ökar provstorleken ökar din precision och säkerhet om en effekt. Och det fortsätter att öka – du kan egentligen aldrig få för stort prov.(åtminstone om det inte finns några andra kostnader kopplade till provet).

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *