Cel mai bun răspuns
În timp ce primele două răspunsuri sunt corecte până la capăt, ambele tratează variația eșantionării ca fiind o eroare. În acest caz, termenul mai precis în eroare de eșantionare.
Variația eșantionării este pur și simplu variația unei statistici de la eșantion la eșantion. Poate fi măsurat prin compararea eșantioanelor reale sau poate fi estimat teoretic fie din cunoștințe despre date, fie dintr-un singur eșantion.
Un exemplu de eroare de eșantionare este efectuarea unui sondaj pentru estimarea fracției de persoane care va vota pentru candidatul democratic la viitoarele alegeri. Vrei să știi adevărata fracțiune a populației. Fracțiunea care spune că va vota democrat în eșantionul dvs. poate varia de la fracțiunea reală a populației în funcție de norocul extragerii, aceasta este o eroare de eșantionare. Poate diferi, de asemenea, din cauza prejudecății sau a răspunsurilor greșite sau a altor probleme, acestea nu sunt erori de eșantionare.
Un exemplu de variație de eșantionare care nu este o eroare de eșantionare este un furnizor care încearcă să decidă câtă mâncare să aducă pe persoană la evenimente. Ea nu este interesată doar de valoarea medie, ci de variația eșantionării. Desigur, vor exista și variații predictibile de la lucruri precum tipul de eveniment, vârsta oaspeților, ora din zi și așa mai departe. Dar chiar și pentru două evenimente identice pentru toți factorii de control măsurați, vor fi consumate cantități diferite de alimente.
Motivul pentru care furnizorul de servicii de catering nu vrea să știe doar mijlocul este că poate face alegeri strategice. De exemplu, ar putea să aducă mâncarea scumpă și perisabilă doar pentru a servi pofta minimă a mulțimii, apoi să aibă alimente mai puțin costisitoare și mai durabile pe care să le scoată, dacă pare necesar, și poate niște alimente neperisabile de rezervă de urgență în în cazul în care mulțimea este extrem de flămândă.
Răspuns
Supraeșantionarea și eșantionarea sunt 2 tehnici importante utilizate în învățarea automată – probleme de clasificare în ordine pentru a reduce dezechilibrul clasei, crescând astfel acuratețea modelului.
Clasificarea nu este altceva decât predicția categoriei unui punct de date căruia îi poate aparține, aflând despre caracteristicile anterioare ale unor instanțe similare.
De exemplu,
- Prezicerea dacă o persoană este bărbat sau femeie
- Prezicerea dacă un client bancar este capabil să ramburseze împrumutul sau nu.
- Prezicând cine er mail este un spam sau anti-spam etc.
Abilitatea predictivă este câștigată de model prin examinarea multor cazuri similare din trecut, presupunând că ceva va fi întâmplarea în viitor va fi o reflectare a trecutului. Acum, mai ales în problemele de clasificare, fiecare categorie este cunoscută ca o clasă.
Să spunem, dacă vrem să prezicem dacă o persoană este bărbat sau femeie, atunci „Bărbat” va fi considerat o clasă și „Femeie” ”Va fi, de asemenea, considerat ca o clasă. În timp ce învață despre caracteristicile acestor clase folosind instanțele anterioare, acestea ar trebui să fie într-o separare aproximativ egală pentru a dezvolta un model extrem de precis.
Cu alte cuvinte, dacă modelul are nevoie de abilitatea de a prezice sexul unui persoană, atunci ar trebui să învețe această abilitate din cel puțin 1000 de înregistrări din trecut, atât bărbații, cât și femeile ar trebui să aibă o participare oarecum egală. Dacă segregarea claselor nu este aproximativ egală, atunci poate fi denumită o problemă „ Dezechilibru de clasă ”.
Voi încerca să explic asta cu un exemplu-
Să considerăm că avem o problemă de clasificare binară pentru a prezice dacă un film va fi un hit sau un flop.
Avem următoarele caracteristici ca variabile independente-
- Durata (în minute)
- Gen
- Luna de lansare
Datele noastre arată astfel (Exemplul 1) –
În principal, modelul nostru de învățare automată va învăța următoarele deducții din aceste date-
- Filmele care au fost lansate în lunile aprilie-mai au avut succes.
- Filmele aparținând genului de comedie au avut în mare parte succes.
-
Filmele aparținând genului horror au fost în mare parte eșecuri.
- Filmele lansate în iunie- Lunile din iulie nu au avut succes.
Deci,
Care va fi previziunea modelul nostru dacă un nou film de comedie va fi lansat în luna aprilie?
Acesta va fi prezis ca un succes, deoarece există șanse mari ca acest film să încaseze o sumă bună de bani la cutie de la toate filmele de comedie lansate în luna aprilie-mai în trecut au avut succes.
Care va fi predicția modelului nostru dacă un nou film de groază va fi lansat în luna iulie?
modelul îl va prezice ca un flop, deoarece niciun film de groază nu a avut succes până acum din datele din trecut și asta și în luna iulie, în care publicul nu s-a transformat niciodată în teatre.
Această capacitate predictivă a modelului a venit în imagine, deoarece a reușit să diferențieze caracteristicile unui film reușit și eșuat chiar înainte de eliberarea din experiența examinării istoriei trecute.
Acum , să considerăm că avem datele de intrare pentru model după cum urmează (Exemplul 2) –
Aici , 90\% din datele noastre anterioare aparțin caracteristicilor filmelor de succes și doar 10\% din înregistrări sunt prezente pentru a afla despre caracteristicile unui film flop. Dacă creăm un model folosind datele de mai sus (eșantion- 2) atunci credeți că va fi wi Vom putea oferi o predicție bună?
Nu.
Să vedem în detaliu motivele,
Care va fi predicția modelului nostru dacă un nou film de groază va fi lansat în luna iulie?
Aici, nu există nicio asigurare că modelul va da predicția corectă (flop) deoarece nu a reușit să afle suficient despre caracteristicile unui film flop.
Să spunem că ați produs un film horror pentru 100 de milioane de dolari și ați stabilit data lansării pe 22 iunie 2021. Acum , doriți să știți care va fi rezultatul posibil al acestui film la box office.
Deci, dacă ați rulat modelul cu Exemplul -1 care conține separarea uniformă a claselor (Hit / Flop), atunci ar fi prezis rezultatul ca „Flop” (ceea ce este de fapt corect). Dacă da, ați fi fost în măsură să luați măsuri de precauție în funcție de posibilitatea unei eșecuri ca-
- Schimbarea datei de lansare
- Creșterea reclamei și a publicității filmului
- Lansarea unui nou trailer al filmului pentru creșterea hype-ului etc.
Dar, dacă ați folosit Sample – 2 în modelul , atunci ar fi prezis rezultatul ca fiind lovit și, prin urmare, ați fi lansat filmul la o dată fixă (22 iunie) și s-ar putea au ajuns ca un flop care suportă pierderea.
Motivul real al predicției greșite pentru modelul cu Sample-2 este că nu a putut înțelege că un film lansat în luna iunie și că și în genul de groază are o probabilitate foarte mică de a avea succes la box-office datorită lipsei de exemple similare în datele sale de învățare.
Această înregistrare de prezență neuniformă într-un set de date cu un număr foarte mic pentru unele dintre clase și un număr extrem de mare pentru restul claselor se numește dezechilibru de clasă.
Cum se depășește acest scenariu?
Există 2 moduri principale-
- Eșantionare
- Sub-eșantionare
Supraeșantionarea nu este altceva decât duplicarea numărului de înregistrări aparținând acelor clase care au o prezență foarte scăzută . În exemplul de mai sus, am avut 9 înregistrări aparținând categoriei „Hit” și doar 1 înregistrare aparținând categoriei „Flop”. Acum, putem crește în mod artificial numărul de înregistrări aparținând categoriei „Flop” duplicând prezența acesteia.
Aici, am creat în mod artificial încă 5 înregistrări aparținând categoriei „Flop”, astfel încât diferența dintre numărul de înregistrări aparținând ambelor clase să se restrângă. Acesta este un exemplu clasic de eșantionare.
Sub-eșantionarea nu este altceva decât reducerea numărului de înregistrări aparținând acelor clase care au o prezență extrem de mare în comparație la alte clase.
Aici am redus numărul de înregistrări aparținând „Hit” astfel încât diferența dintre numărul de înregistrări aparținând ambelor clase sa redus. Acesta este un exemplu clasic de sub-eșantionare. Înregistrările pentru ștergere sunt selectate strict printr-un proces aleatoriu și nu sunt influențate de constrângeri sau părtiniri.
Sper că te-a ajutat !!!