Por que 30 é considerado o tamanho mínimo da amostra em algumas formas de análise estatística?


Melhor resposta

Obrigado por perguntar. Por favor, leia a seguinte resposta semelhante.

Por que aumentamos o tamanho da amostra da população, então automaticamente os dados tendem a seguir a curva de distribuição normal?

Se eu entender o questão tal como está formulada, coincidentemente esta é a incompreensão / interpretação errônea mais frequente do Teorema do Limite Central (TCL). O erro que as pessoas cometem é que acham que se você coletou uma grande quantidade de dados, a distribuição segue automaticamente a distribuição Normal. Nada pode estar mais longe da verdade. Pior ainda, em muitos cursos de treinamento, os instrutores LSS recomendaram que, para você usar confortavelmente uma distribuição normal, é uma prática boa o suficiente coletar mais de 30 pontos de dados e você pode presumir com segurança que sua amostra seguirá o normal Distribuição. Por favor, não se confunda.

O que CLT fala é da distribuição da AMOSTRA MEAN e não da distribuição de dados, portanto, apenas por ter mais de 30 pontos de dados em sua análise, todo o conjunto de dados não começar a seguir a distribuição normal, certo ..? E amigos, por que ficar sobrecarregado com a Distribuição Normal (ND) …? Concordo que, se seus dados de teste seguirem o ND, será mais fácil prever o comportamento do processo subjacente, mas mesmo se os dados não forem normais, você sempre pode usar as propriedades de qualquer distribuição que eles sigam.

Se falarmos especificamente sobre os processos de negócios em que a melhoria é desejada, você sempre pode usar os gráficos de controle. É altamente recomendável manter as coisas o mais simples possível. A melhoria dos processos de negócios é muito fácil, desde que nos atenhamos ao básico e não tentemos presumir que, se não usarmos ferramentas de análise difíceis, não poderemos resolver problemas de processos difíceis.

Espero que isso ajude.

Resposta

A probabilidade de obter um resultado estatisticamente significativo depende de 4 coisas: 1) O valor de corte de p que você deseja usar (alfa). 2) O tamanho da amostra. 3) O tamanho do efeito na população (ou o tamanho mínimo do efeito que você está interessado em detectar).

Estes são usados ​​para determinar o poder – a probabilidade de obter um resultado significativo.

Quase sempre é usado alfa de 0,05, de modo que podemos ignorar.

Potência é a probabilidade de obter um resultado significativo – quão alto você deseja que seja? 80\% seriam suficientes? Muitas vezes as pessoas pensam que sim, mas alguns argumentam por 90\%. Eu nunca vi isso sendo discutido, mas se fosse realmente importante que você soubesse que poderia desejar um poder maior.

Portanto, não é necessário um “tamanho de amostra”. Depende do poder que você desejo e tamanho do efeito.

Podemos usar R (software gratuito para download, Google it) para calcular o poder.

A função power.prop.test () dá o poder para detectar uma diferença nas proporções.

Por exemplo, se eu quiser uma amostra de 30 e 80\% de poder, especifico a probabilidade de um evento em um grupo – farei com que seja 50\%:

> power.prop.test(p1 = .5, n=15, power =.8)

Dá um resultado que a probabilidade (verdadeira) do evento no outro grupo deve ser 0,94 para que minha amostra de 30 para ter 80\% de chance de detectá-lo.

Two-sample comparison of proportions power calculation

n = 15

p1 = 0.5

p2 = 0.9412015

sig.level = 0.05

power = 0.8

alternative = two.sided

NOTE: n is number in *each* group

Isso normalmente seria considerado um efeito muito grande (ou equivalentemente, muito pouco poder).

O tamanho do efeito que você deseja detectar depende dos custos de falha em detectar esse efeito. Por exemplo, se eu estivesse investigando o efeito da aspirina na morte de um ataque cardíaco, eu estaria interessado em um efeito muito pequeno – se eu pudesse impedir que 1 pessoa em 100 morrendo de ataque cardíaco com uma pílula muito barata por dia, Vale a pena. Talvez eu possa reduzir a taxa de mortalidade de 10\% para 9\%.

Para ter 80\% de chance de um resultado estatisticamente significativo, preciso de cerca de 28.000 indivíduos em meu estudo.

> power.prop.test(p1 = .1, p2=0.09, power =.8)

Two-sample comparison of proportions power calculation

n = 13494.97

p1 = 0.1

p2 = 0.09

sig.level = 0.05

power = 0.8

alternative = two.sided

NOTE: n is number in *each* group

Se houver outros riscos ou custos associados ao tratamento, então o efeito terá que ser maior antes que seja interessante para mim, então eu não precisaria de um estudo com 30.000 pessoas nele.

Portanto, a resposta está entre 30 e 30.000 pessoas. Depende. Conforme você aumenta o tamanho da amostra, sua precisão e certeza sobre um efeito aumentam. E continua aumentando – você nunca pode realmente ter uma amostra muito grande.(pelo menos se não houver outros custos associados à amostra).

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *