우수 답변
처음 두 답변은 정확하지만 둘 다 샘플링 변동을 오류로 취급합니다. 이 경우 표본 오차의 더 정확한 용어입니다.
표본 변동은 단순히 표본 간 통계 변동입니다. 실제 샘플을 비교하여 측정하거나 데이터에 대한 지식이나 단일 샘플에서 이론적으로 추정 할 수 있습니다.
샘플링 오류의 예는 설문 조사를 통해 사람의 비율을 추정하는 것입니다. 다가오는 선거에서 민주당 후보에게 투표 할 사람. 실제 인구 비율을 알고 싶습니다. 표본에서 민주당으로 투표 할 것이라고 말하는 비율은 추첨의 운에 따라 실제 인구 비율과 다를 수 있습니다. 즉, 샘플링 오류입니다. 또한 편견이나 잘못 기록 된 답변 또는 기타 문제로 인해 다를 수 있으며 샘플링 오류가 아닙니다.
샘플링 오류가 아닌 샘플링 변형의 예는 1 인당 얼마나 많은 음식을 가져올 지 결정하려는 케이터링 업체입니다. 이벤트에. 그녀는 평균값뿐만 아니라 샘플링 변동에도 관심이 있습니다. 물론 이벤트 유형, 손님의 연령, 시간 등과 같은 것들로부터 예측 가능한 변화가있을 것입니다. 그러나 측정 된 모든 제어 요소에서 동일한 두 가지 이벤트의 경우에도 다른 양의 음식이 소비됩니다.
요리사가 평균을 알고 싶어하지 않는 이유는 전략적 선택을 할 수 있기 때문입니다. 예를 들어, 그녀는 최소한의 군중 식욕을 제공하기 위해서만 비싸고 부패하기 쉬운 음식을 가져온 다음 필요하다고 생각되면 덜 비싸고 오래 지속되는 음식을 가져 오며, 아마도 일부 비상시 지원되는 부패하지 않는 음식을 군중이 극도로 굶주리는 경우
답변
오버 샘플링과 언더 샘플링은 머신 러닝에서 사용되는 두 가지 중요한 기술입니다. 클래스 불균형을 줄임으로써 모델의 정확성을 높일 수 있습니다.
분류는 유사한 인스턴스의 과거 특성에 대해 학습하여 아마도 속할 수있는 데이터 포인트의 범주를 예측하는 것입니다.
예 :
- 사람이 남성인지 여성인지 예측
- 은행 고객이 대출금을 상환 할 수 있는지 여부를 예측합니다.
- wheth 예측 er 메일은 스팸 또는 안티 스팸 등입니다.
예측 능력은 과거에 유사한 사례를 많이 조사하여 모델에서 얻을 수 있습니다. 미래에 일어나는 일은 과거를 반영 할 것입니다. 특히 분류 문제에서 각 카테고리는 클래스로 알려져 있습니다.
사람이 남성인지 여성인지 예측하고 싶다면 “남성”은 클래스로 간주되고 “여성”은 ”도 클래스로 간주됩니다. 과거 사례를 사용하여 이러한 클래스의 특성에 대해 배우는 동안 매우 정확한 모델을 개발하려면 거의 균일하게 분리되어야합니다.
즉, 모델이 성별을 예측할 수있는 능력이 필요한 경우 사람은 남자와 여자가 어느 정도 동등하게 참여해야하는 과거에 최소한 1000 개의 기록에서이 능력을 배워야합니다. 클래스 분리가 거의 같지 않으면 “ 클래스 불균형 “문제라고 할 수 있습니다.
설명하겠습니다. 예를 들어-
영화가 히트인지 플랍인지 예측하는 이진 분류 문제가 있다고 가정 해 봅시다.
독립 변수로 다음과 같은 기능이 있습니다.
- 기간 (분)
- 장르
- 출시 월
데이터는 다음과 같습니다 (샘플 1) –
대부분의 머신 러닝 모델은 이 데이터에서 다음과 같은 추론-
- 4 월 -5 월에 개봉 한 영화는 성공적이었습니다.
- 코미디 장르에 속하는 영화가 대부분 성공했습니다.
-
공포 장르에 속하는 영화는 대부분 실패작이었습니다.
- 6 월에 개봉 한 영화- 7 월은 그다지 성공적이지 않았습니다.
그래서
새로운 코미디 영화가 4 월에 개봉되면 우리 모델이 될까요?
이 영화가 상자에서 많은 수익을 올릴 가능성이 높기 때문에 히트작으로 예상됩니다. 지난 4 월부터 5 월까지 개봉 한 모든 코미디 영화가 성공을 거두었 기 때문입니다.
새로운 공포 영화가 7 월에 개봉 될 경우 모델에 대한 예측은 어떻게 되나요?
모델은 과거 데이터에서 지금까지 성공한 공포 영화가 없었고 관객이 자신을 극장으로 전환 한 적이없는 7 월에도 성공했기 때문에 실패로 예측할 것입니다.
모델의 이러한 예측 능력은 개봉 전부터 성공한 영화와 실패한 영화의 특성을 과거 역사를 살펴본 경험에서 구별 할 수 있었기 때문입니다.
지금 , 다음과 같이 모델에 대한 입력 데이터가 있다고 가정 해 봅시다 (샘플 2)-
여기 , 과거 데이터의 90 \%는 히트 영화의 특성에 속하며, 플롭 영화의 특성에 대해 배우기위한 기록은 10 \%에 불과합니다. 다음을 사용하여 모델을 만드는 경우 위의 데이터 (샘플 -2)는 다음과 같이 생각하십니까? 좋은 예측을 할 수 있을까요?
아니요
이유를 자세히 살펴 보겠습니다.
7 월에 새로운 공포 영화가 개봉되면 모델의 예측은 어떻게 되나요?
여기에서 모델이 정확한 예측을 제공 할 것이라는 보장은 없습니다. (flop) 플롭 영화의 특성에 대해 충분히 알 수 없었기 때문입니다.
1 억 달러에 공포 영화를 제작했고 출시일을 2021 년 6 월 22 일로 정했다고 가정 해 보겠습니다. , 박스 오피스에서이 영화의 가능한 결과가 무엇인지 알고 싶습니다.
따라서 샘플 -1로 모델을 실행했다면 클래스의 균일 한 분리 (Hit / Flop)를 포함하면 결과가 “Flop”(실제로 정확함)으로 예측되었을 것입니다. 그렇다면 실패 가능성에 따라 예방 조치를 취할 수 있었을 것입니다.
- 출시일 변경
- 영화의 광고 및 홍보 향상
- 과대 광고 등을 높이기 위해 영화의 새 예고편을 공개합니다.
하지만 샘플-2 모델에서 그런 다음 결과를 히트로 예상했기 때문에 고정 된 날짜 (6 월 22 일)에 영화를 개봉했을 것입니다. 결국 손실을 입는 플랍으로 끝났습니다.
Sample-2를 사용하는 모델에 대한 잘못된 예측의 실제 이유는 6 월에 개봉하는 영화와 공포 장르는 학습 데이터에 유사한 예가 없기 때문에 박스 오피스에서 성공할 확률이 매우 낮습니다.
이 고르지 않은 존재 레코드는 일부 클래스에 대해 매우 낮은 계수를 가지고 나머지 클래스에 대해 매우 높은 계수를 갖는 데이터 세트에있는 레코드를 클래스 불균형이라고합니다.
이 시나리오를 극복하는 방법
두 가지 주요 방법이 있습니다.
- 오버 샘플링
- 언더 샘플링
오버 샘플링은 존재가 매우 낮은 클래스에 속하는 레코드 수를 복제하는 것입니다 . 위의 예에서 “Hit”범주에 속하는 9 개의 레코드와 “Flop”범주에 속하는 1 개의 레코드 만있었습니다. 이제는 존재를 복제하여 “Flop”범주에 속하는 레코드 수를 인위적으로 늘릴 수 있습니다.
여기, 두 클래스에 속하는 레코드 수 간의 차이를 좁히기 위해 “Flop”범주에 속하는 레코드를 5 개 더 인위적으로 만들었습니다. 이것은 오버 샘플링의 전형적인 예입니다.
언더 샘플링은 비교할 때 존재감이 매우 높은 클래스에 속하는 레코드 수를 줄이는 것입니다.
여기서는 “Hit”에 속하는 레코드 수를 줄였습니다. 두 클래스에 속한 레코드 수의 차이가 좁혀졌습니다. 이것은 언더 샘플링의 전형적인 예입니다. 삭제 레코드는 무작위 프로세스를 통해 엄격하게 선택되며 제약이나 편향의 영향을받지 않습니다.
도움이 되었기를 바랍니다 !!! 스팬>