Meilleure réponse
Merci de votre question. Veuillez lire la réponse similaire suivante.
Pourquoi est-ce que nous augmentons la taille de léchantillon de la population, alors automatiquement les données ont tendance à suivre la courbe de distribution normale?
Si je comprends le question telle quelle est formulée, par coïncidence, celle-ci est le malentendu / mauvaise interprétation le plus fréquent du Théorème Central Limite (CLT). Lerreur que font les gens est quils pensent que si vous avez collecté une énorme quantité de données, la distribution suit automatiquement la distribution normale. Rien ne peut être plus éloigné de la vérité. Pire encore, dans de nombreux cours de formation, les formateurs LSS recommandent que pour que vous utilisiez confortablement une distribution normale, il est suffisant de sentraîner pour collecter plus de 30 points de données et vous pouvez supposer en toute sécurité que votre échantillon suivra Normal. Distribution. Sil vous plaît, ne vous trompez pas.
Ce dont CLT parle, cest la distribution du MOYEN DÉCHANTILLON et non la distribution des données, donc simplement en ayant plus de 30 points de données dans votre analyse, lensemble des données ne sera pas commencer à suivre la distribution normale, non ..? ET amis, pourquoi être dépassé par la distribution normale (ND) du tout …? Je suis daccord que si vos données de test suivent ND, il devient plus facile de prédire le comportement du processus sous-jacent, mais même si les données ne sont pas normales, vous pouvez toujours utiliser les propriétés de la distribution quelle suit.
Si nous parlons spécifiquement des processus commerciaux dans lesquels une amélioration est souhaitée, vous pouvez toujours utiliser les graphiques de contrôle. Il est fortement recommandé de garder les choses aussi simples que possible. Lamélioration des processus métier est très facile à condition que nous nous en tenions aux bases et nessayons pas de supposer que si nous nutilisons pas doutils danalyse difficiles, nous ne pouvons pas résoudre des problèmes de processus difficiles.
p>
Réponse
La probabilité dobtenir un résultat statistiquement significatif dépend de 4 choses: 1) Le seuil de p-valeur que vous souhaitez utiliser (alpha). 2) La taille de léchantillon. 3) La taille de leffet dans la population (ou la taille minimale de leffet que vous souhaitez détecter).
Elles sont utilisées pour déterminer la puissance – la probabilité dobtenir un résultat significatif.
Alpha de 0,05 est presque toujours utilisé, donc nous pouvons lignorer.
La puissance est la probabilité dobtenir un résultat significatif – à quelle hauteur voulez-vous que ce soit? Est-ce que 80\% suffirait? Souvent, les gens pensent que cest le cas, certains soutiennent cependant 90\%. Je nai jamais vu cela argumenté, mais sil était vraiment important que vous sachiez que vous pourriez vouloir une puissance plus élevée.
Il ny a donc pas de « taille déchantillon » nécessaire. Cela dépend de la puissance que vous et la taille de leffet.
Nous pouvons utiliser R (logiciel gratuit à télécharger, Google it) pour calculer la puissance.
La fonction power.prop.test () donne le pouvoir de détecter une différence de proportions.
Par exemple, si je veux un échantillon de 30, et 80\% de puissance, je spécifie la probabilité dun événement dans un groupe – je vais faire 50\%:
> power.prop.test(p1 = .5, n=15, power =.8)
Donne un résultat que la (vraie) probabilité de lévénement dans lautre groupe doit être de 0,94 pour mon échantillon de 30 pour avoir 80\% de chances de le détecter.
Two-sample comparison of proportions power calculation
n = 15
p1 = 0.5
p2 = 0.9412015
sig.level = 0.05
power = 0.8
alternative = two.sided
NOTE: n is number in *each* group
Cela serait généralement considéré comme un effet beaucoup trop important (ou de manière équivalente, trop peu de puissance).
La taille de leffet que vous souhaitez détecter dépend du coût de léchec de la détection de cet effet. Par exemple, si jétudiais leffet de laspirine sur la mort dune crise cardiaque, je serais intéressé par un très petit effet – si je peux empêcher 1 personne sur 100 de mourir dune crise cardiaque avec une pilule très bon marché par jour, ça en vaut la peine. Alors peut-être que je pense que je peux réduire le taux de mortalité de 10\% à 9\%.
Pour avoir 80\% de chances dobtenir un résultat statistiquement significatif, jai besoin denviron 28 000 personnes dans mon étude.
> power.prop.test(p1 = .1, p2=0.09, power =.8)
Two-sample comparison of proportions power calculation
n = 13494.97
p1 = 0.1
p2 = 0.09
sig.level = 0.05
power = 0.8
alternative = two.sided
NOTE: n is number in *each* group
Sil y a dautres risques ou coûts associés au traitement, alors leffet devra être plus important avant quil ne mintéresse, donc je naurais pas besoin dune étude avec 30 000 personnes.
La réponse se situe donc entre 30 et 30 000 personnes. En fonction, dépendemment. Lorsque vous augmentez la taille de léchantillon, votre précision et votre certitude quant à un effet augmentent. Et cela ne cesse daugmenter – vous ne pouvez jamais vraiment avoir un échantillon trop grand.(du moins sil ny a pas dautres coûts associés à léchantillon).