Waarom wordt 30 in sommige vormen van statistische analyse beschouwd als de minimale steekproefomvang?


Beste antwoord

Bedankt voor het vragen. Leest u alstublieft het volgende vergelijkbare antwoord.

Waarom vergroten we de steekproefomvang van de populatie en volgen de gegevens automatisch de normale verdelingskromme?

Als ik de vraag zoals het is geformuleerd, is dit toevallig de meest voorkomende misverstand / verkeerde interpretatie van de Central Limit Theorem (CLT). De fout die mensen maken is dat ze denken dat als je een enorme hoeveelheid gegevens hebt verzameld, de distributie automatisch de normale distributie volgt. Niets is minder waar. Erger nog, in veel trainingscursussen is gebleken dat LSS-trainers je aanbevelen om comfortabel een Normale Distributie te gebruiken, het is goed genoeg om meer dan 30 datapunten te verzamelen en je mag er gerust vanuit gaan dat je steekproef Normaal volgt. Distributie. Raak alsjeblieft niet in de war.

Waar CLT het over heeft is de distributie van de SAMPLE MEAN en niet de datadistributie, dus alleen al door meer dan 30 datapunten in je analyse te hebben, zal de hele dataset niet beginnen met het volgen van Normale Distributie, toch ..? EN vrienden, waarom zou je überhaupt overweldigd worden door de Normale Distributie (ND) …? Ik ben het ermee eens dat als uw testgegevens ND volgen, het gemakkelijker wordt om het gedrag van het onderliggende proces te voorspellen, maar zelfs als de gegevens niet normaal zijn, kunt u altijd de eigenschappen gebruiken van de distributie die volgt.

Als we het specifiek hebben over de bedrijfsprocessen waarin verbetering gewenst is, kunt u altijd gebruik maken van de Control Charts. Het wordt sterk aanbevolen om de zaken zo eenvoudig mogelijk te houden. Het verbeteren van bedrijfsprocessen is heel eenvoudig, mits we ons aan de basis houden en niet proberen aan te nemen dat als we geen moeilijke analyse-instrumenten gebruiken, we moeilijke procesproblemen niet kunnen oplossen.

Ik hoop dat dit helpt.

Antwoord

De kans om een ​​statistisch significant resultaat te verkrijgen hangt af van 4 dingen: 1) De p-waarde cutoff die je wilt gebruiken (alfa). 2) De grootte van de steekproef. 3) De effectgrootte in de populatie (of de minimale effectgrootte die u wilt detecteren).

Deze worden gebruikt om de macht te bepalen – de waarschijnlijkheid om een ​​significant resultaat te verkrijgen.

De alfa van 0,05 wordt bijna altijd gebruikt, zodat we die kunnen negeren.

Kracht is de kans op een significant resultaat – hoe hoog wil je dat dit resultaat is? Zou 80\% genoeg zijn? Vaak denken mensen van wel, sommigen pleiten echter voor 90\%. Ik heb er nog nooit voor gezien, maar als het echt belangrijk was, wist je dat je misschien een hoger vermogen zou willen hebben.

Er is dus geen steekproefomvang nodig. Het hangt af van het vermogen dat je gewenste en effectgrootte.

We kunnen R (gratis software om te downloaden, Google it) gebruiken om vermogen uit te werken.

De functie power.prop.test () geeft de kracht aan detecteer een verschil in verhoudingen.

Als ik bijvoorbeeld een steekproef van 30 en 80\% vermogen wil, specificeer ik de waarschijnlijkheid van een gebeurtenis in één groep – ik maak er 50\% van:

> power.prop.test(p1 = .5, n=15, power =.8)

Geeft als resultaat dat de (ware) waarschijnlijkheid van de gebeurtenis in de andere groep 0.94 moet zijn om mijn steekproef van 30 om een ​​kans van 80\% te hebben om het te detecteren.

Two-sample comparison of proportions power calculation

n = 15

p1 = 0.5

p2 = 0.9412015

sig.level = 0.05

power = 0.8

alternative = two.sided

NOTE: n is number in *each* group

Dit zou gewoonlijk worden beschouwd als een veel te groot effect (of equivalent, te weinig kracht).

De grootte van het effect dat u wilt detecteren, hangt af van de kosten van het niet detecteren van dat effect. Als ik bijvoorbeeld het effect van aspirine op het overlijden aan een hartaanval zou onderzoeken, zou ik geïnteresseerd zijn in een heel klein effect – als ik kan voorkomen dat 1 op de 100 mensen sterft aan een hartaanval met één heel goedkope pil per dag, het is het waard. Dus misschien denk ik dat ik het sterftecijfer kan verlagen van 10\% naar 9\%.

Voor een kans van 80\% op een statistisch significant resultaat, heb ik ongeveer 28.000 individuen nodig in mijn studie.

> power.prop.test(p1 = .1, p2=0.09, power =.8)

Two-sample comparison of proportions power calculation

n = 13494.97

p1 = 0.1

p2 = 0.09

sig.level = 0.05

power = 0.8

alternative = two.sided

NOTE: n is number in *each* group

Als er andere risicos of kosten verbonden zijn aan de behandeling, dan zal het effect groter moeten zijn voordat het interessant voor mij is, dus ik zou geen onderzoek nodig hebben met 30.000 mensen erin.

Het antwoord is dus ergens tussen de 30 en 30.000 mensen. Afhankelijk. Naarmate u de steekproefomvang vergroot, neemt uw precisie en zekerheid over een effect toe. En het blijft maar toenemen – je kunt nooit echt een te groot monster hebben.(tenminste als er geen andere kosten aan de steekproef zijn verbonden).

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *