¿Por qué 30 se considera el tamaño de muestra mínimo en algunas formas de análisis estadístico?


Mejor respuesta

Gracias por preguntar. Por favor, lea la siguiente respuesta similar ..

¿Por qué aumentamos el tamaño de la muestra de la población y luego automáticamente los datos tienden a seguir la curva de distribución normal?

Si entiendo el pregunta tal como está formulada, coincidentemente éste es el malentendido / mala interpretación más frecuente del Teorema del Límite Central (CLT). El error que comete la gente es que piensan que si ha recopilado una gran cantidad de datos, la distribución sigue automáticamente la distribución normal. Nada puede estar más lejos de la verdad. Peor aún, en muchos cursos de capacitación, se ha encontrado que los capacitadores de LSS recomiendan que para que pueda usar cómodamente una distribución normal, es una práctica lo suficientemente buena como para recopilar más de 30 puntos de datos y puede asumir con seguridad que su muestra seguirá Normal Distribución. Por favor, no se confunda.

De lo que habla CLT es de la distribución de la MUESTRA MEDIA y no de la distribución de datos, por lo tanto, con solo tener más de 30 puntos de datos en su análisis, todo el conjunto de datos no empezar a seguir la distribución normal, ¿verdad …? Y amigos, ¿por qué estar abrumados con la Distribución Normal (ND) en absoluto …? Estoy de acuerdo en que si sus datos de prueba siguen ND, será más fácil predecir el comportamiento del proceso subyacente, pero incluso si los datos no son normales, siempre puede usar las propiedades de la distribución que siga.

Si hablamos específicamente de los procesos comerciales en los que se desea mejorar, siempre puede utilizar los Gráficos de control. Se recomienda encarecidamente mantener las cosas lo más simples posible. La mejora de procesos de negocio es muy fácil siempre que nos ciñamos a lo básico y no intentemos asumir que si no utilizamos herramientas de análisis difíciles, no podremos resolver problemas de procesos difíciles.

Espero que esto ayude.

Respuesta

La probabilidad de obtener un resultado estadísticamente significativo depende de 4 cosas: 1) El valor p de corte que desea utilizar (alfa). 2) El tamaño de la muestra. 3) El tamaño del efecto en la población (o el tamaño mínimo del efecto que le interesa detectar).

Estos se utilizan para determinar el poder: la probabilidad de obtener un resultado significativo.

Casi siempre se usa un alfa de 0.05, por lo que podemos ignorarlo.

La potencia es la probabilidad de obtener un resultado significativo: ¿qué tan alto desea que sea? ¿Sería suficiente el 80\%? A menudo la gente piensa que sí, aunque algunos defienden el 90\%. Nunca lo he visto argumentado, pero si era realmente importante que supiera que podría querer mayor potencia.

Por lo tanto, no se requiere un «tamaño de muestra». Depende de la potencia que deseo y tamaño del efecto.

Podemos usar R (software gratuito para descargar, Google) para calcular el poder.

La función power.prop.test () da el poder a detectar una diferencia en las proporciones.

Por ejemplo, si quiero una muestra de 30 y 80\% de potencia, especifico la probabilidad de un evento en un grupo; la haré 50\%:

> power.prop.test(p1 = .5, n=15, power =.8)

Da como resultado que la probabilidad (verdadera) del evento en el otro grupo debe ser 0.94 para que mi muestra de 30 tener un 80\% de posibilidades de detectarlo.

Two-sample comparison of proportions power calculation

n = 15

p1 = 0.5

p2 = 0.9412015

sig.level = 0.05

power = 0.8

alternative = two.sided

NOTE: n is number in *each* group

Esto normalmente se consideraría un efecto demasiado grande (o equivalentemente, muy poca potencia).

El tamaño del efecto que desea detectar depende de los costos de no detectar ese efecto. Por ejemplo, si estuviera investigando el efecto de la aspirina en la muerte de un ataque cardíaco, me interesaría un efecto muy pequeño: si puedo evitar que 1 persona de cada 100 muera de un ataque cardíaco con una pastilla muy barata al día, vale la pena. Entonces, tal vez creo que puedo reducir la tasa de mortalidad del 10\% al 9\%.

Para tener un 80\% de posibilidades de obtener un resultado estadísticamente significativo, necesito alrededor de 28.000 personas en mi estudio.

> power.prop.test(p1 = .1, p2=0.09, power =.8)

Two-sample comparison of proportions power calculation

n = 13494.97

p1 = 0.1

p2 = 0.09

sig.level = 0.05

power = 0.8

alternative = two.sided

NOTE: n is number in *each* group

Si existen otros riesgos o costos asociados con el tratamiento, entonces el efecto tendrá que ser mayor antes de que sea interesante para mí, por lo que no necesitaría un estudio con 30,000 personas en él.

Así que la respuesta está entre 30 y 30.000 personas. Dependiente. A medida que aumenta el tamaño de la muestra, aumenta su precisión y certeza sobre un efecto. Y sigue aumentando: nunca se puede tener una muestra demasiado grande.(al menos si no hay otros costos asociados con la muestra).

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *