Najlepsza odpowiedź
Chociaż pierwsze dwie odpowiedzi są poprawne, obie traktują odchylenie próbkowania jako błąd. W takim przypadku dokładniejszy termin w przypadku błędu próbkowania.
Odchylenie próbkowania to po prostu zmiana statystyki z próbki na próbkę. Można go zmierzyć porównując rzeczywiste próbki lub oszacować teoretycznie na podstawie wiedzy o danych lub na podstawie pojedynczej próbki.
Przykładem błędu próbkowania jest sondaż w celu oszacowania odsetka osób kto będzie głosował na kandydata Demokratów w nadchodzących wyborach. Chcesz poznać prawdziwą frakcję populacji. Ułamek osób, które twierdzą, że zagłosują na Demokratów w twojej próbie, może różnić się od prawdziwej części populacji przez szczęście losowania, to jest błąd próby. Może się również różnić ze względu na błąd, błędnie zapisane odpowiedzi lub inne problemy, które nie są błędem próbkowania.
Przykładem odchylenia próbkowania, które nie jest błędem pobierania próbek, jest firma cateringowa próbująca zdecydować, ile jedzenia przynieść na osobę do wydarzeń. Interesuje ją nie tylko średnia wartość, ale także zmienność próbkowania. Oczywiście będą również przewidywalne różnice w zależności od rodzaju wydarzenia, wieku gości, pory dnia i tak dalej. Ale nawet w przypadku dwóch zdarzeń, które są identyczne dla wszystkich mierzonych czynników kontrolnych, zostaną skonsumowane różne ilości żywności.
Firma cateringowa nie chce znać tylko średniej, może dokonywać strategicznych wyborów. Na przykład, może przynieść drogie i łatwo psujące się jedzenie tylko po to, aby zaspokoić minimalny prawdopodobny apetyt tłumu, a następnie mieć mniej kosztowne i trwalsze jedzenie do przyniesienia, jeśli wydaje się to konieczne, i być może jakieś awaryjne zapasowe, nie psujące się jedzenie w przypadek, gdy tłum jest wyjątkowo głodny.
Odpowiedź
Oversampling i undersampling to dwie ważne techniki używane w uczeniu maszynowym – klasyfikacja aby zmniejszyć nierównowagę klas, zwiększając w ten sposób dokładność modelu.
Klasyfikacja to nic innego jak przewidywanie kategorii punktu danych, do której prawdopodobnie może należeć, poprzez poznanie przeszłych cech podobnych instancji.
Na przykład
- Przewidywanie, czy dana osoba jest mężczyzną czy kobietą
- Przewidywanie, czy klient banku jest w stanie spłacić pożyczkę.
- Przewidywanie siły e mail jest spamem lub antyspamem itp.
Model uzyskuje zdolność predykcyjną, badając wiele podobnych przypadków w przeszłości przy założeniu, że coś w przyszłości będzie odbiciem przeszłości. Teraz, szczególnie w przypadku problemów klasyfikacyjnych, każda kategoria jest nazywana klasą.
Powiedzmy, że jeśli chcemy przewidzieć, czy dana osoba jest mężczyzną czy kobietą, wówczas „Mężczyzna” będzie traktowany jako klasa, a „Kobieta ”Będą również traktowane jako klasa. Ucząc się o cechach tych klas, korzystając z poprzednich instancji, powinny one być w przybliżeniu równo oddalone, aby opracować bardzo dokładny model.
Innymi słowy, jeśli model potrzebuje umiejętności przewidywania płci osoba, to powinna nauczyć się tej umiejętności z co najmniej tysiąca rekordów z przeszłości, w których zarówno mężczyźni, jak i kobiety powinni mieć nieco równy udział. Jeśli podział klas nie jest w przybliżeniu równy, można go określić jako problem „ nierównowaga klas ”.
Spróbuję wyjaśnić to z przykładem-
Rozważmy, że mamy problem z klasyfikacją binarną, aby przewidzieć, czy film będzie hitem, czy flopem.
Mamy następujące cechy jako zmienne niezależne-
- Czas trwania (w minutach)
- Gatunek
- Miesiąc wydania
Nasze dane wyglądają następująco (Przykład 1) –
Głównie nasz model uczenia maszynowego będzie się uczył następujące wnioski z tych danych –
- Filmy, które zostały wydane w miesiącach kwiecień-maj, odniosły sukces.
- Filmy należące do gatunku komedii odniosły największy sukces.
-
Filmy należące do gatunku horroru były w większości porażkami.
- Filmy, które zostały wydane w czerwcu- Miesiące lipcowe nie były tak udane.
Zatem
Jakie będą przewidywania nasz model, jeśli nowy film komediowy zostanie wydany w kwietniu?
Przewiduje się, że będzie hitem, ponieważ istnieje duża szansa, że ten film przyniesie spore zarobki na pudełku od kiedy wszystkie komedie wydane w kwietniu i maju w przeszłości odniosły sukces.
Jaka będzie prognoza naszego modela, jeśli nowy horror zostanie wydany w lipcu?
Nasz model będzie przewidywał to jako klapę, ponieważ żadne horrory nie odniosły sukcesu tak daleko od wcześniejszych danych, a także w lipcu, kiedy publiczność nigdy nie zamieniła się w kinach.
Ta zdolność przewidywania modelu pojawiła się na obrazie, ponieważ był w stanie odróżnić cechy filmu udanego i nieudanego jeszcze przed uwolnieniem od doświadczenia związanego z badaniem przeszłości.
Teraz rozważmy, że mamy następujące dane wejściowe do modelu (Próbka 2) –
Tutaj , 90\% naszych wcześniejszych danych należy do cech hitów filmowych, a tylko 10\% zapisów jest obecnych, aby poznać cechy filmu z flopa. Jeśli utworzymy model przy użyciu powyższe dane (próbka-2), a następnie myślisz, że wi Czy potrafię podać dobrą prognozę?
Nie.
Przyjrzyjmy się dokładniej przyczynom,
Jaka będzie prognoza naszego modelu, jeśli nowy horror zostanie wydany w lipcu?
W tym przypadku nie ma pewności, że model poda poprawną prognozę (flop), ponieważ nie był w stanie dowiedzieć się wystarczająco dużo o cechach filmu na flopie.
Powiedzmy, że wyprodukowałeś horror za 100 milionów dolarów i ustaliłeś datę premiery na 22 czerwca 2021 roku. Teraz , chcesz wiedzieć, jaki będzie możliwy efekt tego filmu w kasie.
Więc jeśli uruchomiłeś model z Próbka -1 , który zawiera równe rozdzielenie klas (Hit / Flop), wtedy przewidziałby wynik jako „Flop” (co jest w rzeczywistości poprawne). Jeśli tak, byłbyś w stanie podjąć środki ostrożności zgodnie z możliwością wystąpienia awarii, np. –
- Zmiana daty wydania
- Zwiększenie reklamy i rozgłosu filmu
- Wydanie nowego zwiastuna filmu w celu zwiększenia szumu itp.
Ale jeśli użyłeś Próbka – 2 w modelu to przewidziałby wynik jako trafienie, a tym samym opublikowałbyś film w ustalonym dniu (22 czerwca) i mógłby skończyło się jako flop przynosząc stratę.
Rzeczywistym powodem błędnych prognoz dla modelu z Próbką 2 jest to, że nie był on w stanie zrozumieć, że film wydany w czerwcu, a także w gatunek horroru ma bardzo niskie prawdopodobieństwo odniesienia sukcesu w kasie ze względu na brak podobnych przykładów w jego danych edukacyjnych.
Te nierównomierne rekordy obecności w zbiorze danych z bardzo małą liczbą dla niektórych klas i wyjątkowo dużą liczbą dla pozostałych klas nazywane są nierównowagą klas.
Jak przezwyciężyć ten scenariusz?
Istnieją 2 główne sposoby:
- Oversampling
- Under-sampling
Oversampling to nic innego jak powielanie liczby rekordów należących do tych klas, które mają bardzo niską obecność . W powyższym przykładzie mieliśmy 9 rekordów należących do kategorii „Hit” i tylko 1 rekord należący do kategorii „Flop”. Teraz możemy sztucznie zwiększyć liczbę rekordów należących do kategorii „Flop”, powielając jej obecność.
Tutaj, sztucznie stworzyliśmy 5 kolejnych rekordów należących do kategorii „Flop”, aby zawęzić różnicę między liczbą rekordów należących do obu klas. To jest klasyczny przykład nadpróbkowania.
Undersampling to nic innego jak zmniejszenie liczby rekordów należących do tych klas, które mają wyjątkowo dużą obecność w porównaniu do innych klas.
W tym miejscu zmniejszyliśmy liczbę rekordów należących do „Hit”, aby zmniejszyła się różnica między liczbą rekordów należących do obu klas. To klasyczny przykład niedsamplowania. Rekordy do usunięcia są wybierane ściśle w drodze losowego procesu i nie mają na nie wpływu żadne ograniczenia ani błędy.
Mam nadzieję, że to pomogło !!!