統計分析のいくつかの形式で30が最小サンプルサイズと見なされるのはなぜですか?


ベストアンサー

お問い合わせいただきありがとうございます。次の同様の回答をお読みください。

母集団のサンプルサイズを増やすと、自動的にデータが正規分布曲線に従う傾向があるのはなぜですか?

理解できれば組み立てられた質問ですが、偶然にも、これは中心極限定理(CLT)の最も頻繁な誤解/誤解です。人々が犯す間違いは、大量のデータを収集した場合、分布は自動的に正規分布に従うと考えていることです。真実から遠く離れることはできません。さらに悪いことに、多くのトレーニングコースで、LSSトレーナーは、正規分布を快適に使用するために、30を超えるデータポイントを収集するのに十分な方法であり、サンプルが正規に従うと安全に想定できることを推奨していることがわかっています。分布。混乱しないでください。

CLTが話しているのは、データ分布ではなくサンプル平均の分布です。したがって、分析に30を超えるデータポイントがあるだけでは、データセット全体はそうではありません。正規分布に従い始めますよね..?そして、友達、なぜ正規分布(ND)に圧倒されるのか….?テストデータがNDに従うと、基礎となるプロセスの動作を予測しやすくなることに同意しますが、データが正常でない場合でも、従う分布のプロパティをいつでも使用できます。

改善が必要なビジネスプロセスについて具体的に説明する場合は、いつでも管理図を使用できます。できるだけシンプルにすることを強くお勧めします。基本に固執し、難しい分析ツールを使用しないと難しいプロセスの問題を解決できないと思い込まない限り、ビジネスプロセスの改善は非常に簡単です。

これがお役に立てば幸いです。

回答

統計的に有意な結果が得られる確率は、次の4つによって異なります。1)使用するp値のカットオフ(アルファ)。 2)サンプルのサイズ。 3)母集団の効果量(または検出したい最小効果量)。

これらは、検出力(有意な結果が得られる確率)を決定するために使用されます。

0.05のアルファがほとんどの場合使用されるため、無視できます。

パワーは、有意な結果が得られる確率です。これをどのくらい高くしますか? 80%で十分でしょうか?多くの場合、そうだと思う人もいますが、90%を主張する人もいます。私はそれが主張されているのを見たことがありませんが、あなたがより高い検出力が必要かもしれないことを知っていることが本当に重要であるならば。

したがって、必要な「サンプルサイズ」はありません。それはあなたの検出力に依存します必要な効果量。

R(ダウンロード用のフリーソフトウェア、Google it)を使用して検出力を計算できます。

関数power.prop.test()は、検出力を提供します。比率の違いを検出します。

たとえば、30%の検出力と80%の検出力のサンプルが必要な場合は、1つのグループでイベントの確率を指定します。50%にします。

> power.prop.test(p1 = .5, n=15, power =.8)

30のサンプルの場合、他のグループのイベントの(真の)確率は0.94でなければならないという結果が得られます。 80%の確率でそれを検出します。

Two-sample comparison of proportions power calculation

n = 15

p1 = 0.5

p2 = 0.9412015

sig.level = 0.05

power = 0.8

alternative = two.sided

NOTE: n is number in *each* group

これは通常、効果が大きすぎる(または同等にパワーが小さすぎる)と見なされます。

検出する効果のサイズは、その効果の検出に失敗した場合のコストによって異なります。たとえば、心臓発作による死亡に対するアスピリンの効果を調査している場合、非常に小さな効果に興味があります。1日1錠の非常に安価な錠剤で100人に1人が心臓発作で死亡するのを防ぐことができれば。価値がある。ですから、死亡率を10%から9%に減らすことができると思います。

統計的に有意な結果が得られる可能性が80%であるため、調査には約28,000人の個人が必要です。

> power.prop.test(p1 = .1, p2=0.09, power =.8)

Two-sample comparison of proportions power calculation

n = 13494.97

p1 = 0.1

p2 = 0.09

sig.level = 0.05

power = 0.8

alternative = two.sided

NOTE: n is number in *each* group

治療に関連する他のリスクやコストがある場合、それが私にとって興味深いものになる前に効果を大きくする必要があるので、3万人を対象とした研究は必要ありません。

つまり、答えは30〜30,000人です。状況によります。サンプルサイズを大きくすると、効果に関する精度と確実性が高まります。そして、それは増え続けています-サンプルが大きすぎることは決してありません。(少なくとも、サンプルに関連する他のコストがない場合)。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です