우수 답변
문의 해 주셔서 감사합니다. 다음과 유사한 답변을 읽으십시오.
모집단의 표본 크기를 늘리면 데이터가 자동으로 정규 분포 곡선을 따르는 경향이 있습니까?
이 질문은 틀에 박힌 질문인데, 우연히도 이것은 CLT (Central Limit Theorem)의 가장 빈번한 오해 / 오해입니다. 사람들이 저지르는 실수는 엄청난 양의 데이터를 수집했다면 분포가 자동으로 정규 분포를 따른다고 생각한다는 것입니다. 진실에서 멀어 질 수있는 것은 없습니다. 더 나쁜 것은 많은 교육 과정에서 LSS 트레이너가 정규 분포를 편안하게 사용하기 위해 30 개 이상의 데이터 포인트를 수집하는 것으로 충분하며 표본이 정규 분포를 따를 것이라고 안전하게 가정 할 수 있다고 권장하는 것으로 밝혀졌습니다. 분포. 혼동하지 마시기 바랍니다.
CLT가 말하는 것은 데이터 분포가 아니라 SAMPLE MEAN의 분포입니다. 따라서 분석에 30 개 이상의 데이터 포인트가있는 것만으로도 전체 데이터 세트는 그렇지 않습니다. 정규 분포를 따라 가시죠 ..? 그리고 친구들, 왜 정규 분포 (ND)에 압도당하는 건가 ….? 테스트 데이터가 ND를 따르는 경우 기본 프로세스의 동작을 예측하기가 더 쉬워 지지만 데이터가 비정규 인 경우에도 항상 따르는 분포의 속성을 사용할 수 있다는 데 동의합니다.
개선이 필요한 비즈니스 프로세스에 대해 구체적으로 이야기하는 경우 항상 관리도를 사용할 수 있습니다. 가능한 한 단순하게 유지하는 것이 좋습니다. 비즈니스 프로세스 개선은 기본을 고수하고 어려운 분석 도구를 사용하지 않으면 어려운 프로세스 문제를 해결할 수 없다고 가정하지 않는 한 매우 쉽습니다.
이것이 도움이되기를 바랍니다.
p>
답변
통계적으로 유의미한 결과를 얻을 확률은 다음 4 가지에 따라 달라집니다. 1) 사용할 p- 값 컷오프 (알파). 2) 샘플의 크기. 3) 모집단의 효과 크기 (또는 탐지하려는 최소 효과 크기)
이 값은 검정력-유의 한 결과를 얻을 확률을 결정하는 데 사용됩니다.
알파 0.05는 거의 항상 사용되므로 무시할 수 있습니다.
검증력은 중요한 결과를 얻을 확률입니다.이 값을 얼마나 높이기를 원하십니까? 80 \%면 충분할까요? 종종 사람들은 그렇게 생각하지만 일부는 90 \%를 주장합니다. 나는 그것이 주장하는 것을 본 적이 없지만, 당신이 더 높은 검정력을 원할 수 있다는 것을 아는 것이 정말로 중요하다면.
따라서 필요한 “표본 크기”가 없습니다. 그것은 당신의 검정력에 달려 있습니다. 원하는 것과 효과 크기.
R (무료 다운로드 용 소프트웨어, Google it)을 사용하여 전력을 계산할 수 있습니다.
power.prop.test () 함수는 비율의 차이를 감지합니다.
예를 들어 30과 80 \% 검정력의 표본을 원하는 경우 한 그룹에서 사건의 확률을 지정합니다. 50 \%로 만들겠습니다.
> power.prop.test(p1 = .5, n=15, power =.8)
내 샘플 30 개에 대해 다른 그룹에서 이벤트의 (진짜) 확률이 0.94 여야한다는 결과를 제공합니다. 감지 할 확률이 80 \%입니다.
Two-sample comparison of proportions power calculation
n = 15
p1 = 0.5
p2 = 0.9412015
sig.level = 0.05
power = 0.8
alternative = two.sided
NOTE: n is number in *each* group
이것은 일반적으로 너무 큰 효과 (또는 동등하게 너무 적은 힘)로 간주됩니다.
감지하려는 효과의 크기는 해당 효과를 감지하지 못한 비용에 따라 다릅니다. 예를 들어, 심장 마비로 인한 사망에 대한 아스피린의 효과를 조사하고 있다면 아주 작은 효과에 관심이있을 것입니다. 하루에 아주 저렴한 약 한 알로 심장 마비로 사망하는 100 명 중 1 명을 막을 수 있다면 그것은 가치. 그래서 저는 사망률을 10 \%에서 9 \%로 줄일 수 있다고 생각합니다.
통계적으로 유의미한 결과를 얻을 확률이 80 \% 인 경우 연구에 약 28,000 명의 개인이 필요합니다.
> power.prop.test(p1 = .1, p2=0.09, power =.8)
Two-sample comparison of proportions power calculation
n = 13494.97
p1 = 0.1
p2 = 0.09
sig.level = 0.05
power = 0.8
alternative = two.sided
NOTE: n is number in *each* group
치료와 관련된 다른 위험이나 비용이 있다면 효과가 더 커져야 나에게 흥미로울 것이므로 30,000 명을 대상으로 한 연구는 필요하지 않을 것입니다.
따라서 대답은 30 ~ 30,000 명 정도입니다. 따라. 표본 크기를 늘리면 효과에 대한 정밀도와 확실성이 증가합니다. 그리고 그것은 계속 증가하고 있습니다-당신은 결코 너무 큰 샘플을 가질 수 없습니다.(최소한 샘플과 관련된 다른 비용이없는 경우).