Perché 30 è considerata la dimensione minima del campione in alcune forme di analisi statistica?


Migliore risposta

Grazie per aver chiesto. Si prega di leggere la seguente risposta simile.

Perché aumentiamo la dimensione del campione della popolazione, quindi automaticamente i dati tendono a seguire la curva di distribuzione normale?

Se capisco il domanda per come è inquadrata, guarda caso questo è il fraintendimento / interpretazione errato più frequente del Teorema del limite centrale (CLT). Lerrore che fanno le persone è che pensano che se hai raccolto enormi quantità di dati, la distribuzione segue automaticamente la distribuzione normale. Niente può essere più lontano dalla verità. Ancora peggio, in molti corsi di formazione, è stato riscontrato che i formatori LSS consigliano di utilizzare comodamente una distribuzione normale, è una pratica sufficiente raccogliere più di 30 punti dati e si può tranquillamente presumere che il campione seguirà Normale Distribuzione. Per favore, per favore non confondere.

Ciò di cui parla CLT è la distribuzione di SAMPLE MEAN e non la distribuzione dei dati quindi solo avendo più di 30 punti dati nella tua analisi, lintero set di dati non lo farà iniziare a seguire la distribuzione normale, giusto ..? E amici, perché essere sopraffatti dalla distribuzione normale (ND) …? Sono daccordo che se i dati del tuo test seguono ND, diventa più facile prevedere il comportamento del processo sottostante, ma anche se i dati non sono normali, puoi sempre utilizzare le proprietà di qualsiasi distribuzione segue.

Se parliamo in modo specifico dei processi aziendali in cui si desidera un miglioramento, puoi sempre utilizzare i grafici di controllo. Si consiglia vivamente di mantenere le cose il più semplici possibile. Il miglioramento dei processi aziendali è molto semplice a condizione che ci atteniamo alle basi e non proviamo a presumere che se non utilizziamo strumenti di analisi difficili, non possiamo risolvere problemi di processo difficili.

Spero che questo aiuti.

Risposta

La probabilità di ottenere un risultato statisticamente significativo dipende da 4 cose: 1) Il valore limite di p che si desidera utilizzare (alfa). 2) La dimensione del campione. 3) La dimensione delleffetto nella popolazione (o la dimensione minima delleffetto che sei interessato a rilevare).

Questi sono usati per determinare la potenza – la probabilità di ottenere un risultato significativo.

Lalfa di 0,05 viene quasi sempre utilizzata, in modo che possiamo ignorarla.

La potenza è la probabilità di ottenere un risultato significativo: quanto vuoi che sia? L80\% sarebbe sufficiente? Spesso le persone pensano che lo sia, alcuni sostengono però il 90\%. Non lho mai visto sostenere, ma se fosse davvero importante che tu sapessi che potresti volere una potenza maggiore.

Quindi non è richiesta alcuna “dimensione del campione”. Dipende dalla potenza che hai desidera e dimensione delleffetto.

Possiamo usare R (software gratuito da scaricare, Google it) per calcolare la potenza.

La funzione power.prop.test () dà il potere di rilevare una differenza nelle proporzioni.

Ad esempio, se desidero un campione di 30 e 80\% di potenza, specifico la probabilità di un evento in un gruppo: lo farò al 50\%:

> power.prop.test(p1 = .5, n=15, power =.8)

Fornisce un risultato che la probabilità (vera) dellevento nellaltro gruppo deve essere 0,94 per il mio campione di 30 avere l80\% di possibilità di rilevarlo.

Two-sample comparison of proportions power calculation

n = 15

p1 = 0.5

p2 = 0.9412015

sig.level = 0.05

power = 0.8

alternative = two.sided

NOTE: n is number in *each* group

Questo sarebbe generalmente considerato un effetto troppo grande (o, equivalentemente, troppo poca potenza).

La dimensione delleffetto che desideri rilevare dipende dai costi del mancato rilevamento delleffetto. Ad esempio, se stessi studiando leffetto dellaspirina sulla morte per un attacco di cuore, sarei interessato a un effetto molto piccolo: se riuscissi a fermare 1 persona su 100 che muore per un attacco di cuore con una pillola molto economica al giorno, ne vale la pena. Quindi forse penso di poter ridurre il tasso di mortalità dal 10\% al 9\%.

Per una probabilità dell80\% di un risultato statisticamente significativo, ho bisogno di circa 28.000 persone nel mio studio.

> power.prop.test(p1 = .1, p2=0.09, power =.8)

Two-sample comparison of proportions power calculation

n = 13494.97

p1 = 0.1

p2 = 0.09

sig.level = 0.05

power = 0.8

alternative = two.sided

NOTE: n is number in *each* group

Se ci sono altri rischi o costi associati al trattamento, allora leffetto dovrà essere maggiore prima che sia interessante per me, quindi non avrei bisogno di uno studio con 30.000 persone.

Quindi la risposta è da qualche parte tra 30 e 30.000 persone. Dipendente. Man mano che aumenti la dimensione del campione, la tua precisione e certezza su un effetto aumentano. E continua ad aumentare: non puoi mai avere un campione troppo grande.(almeno se non ci sono altri costi associati al campione).

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *