Legjobb válasz
Noha az első két válasz amennyire csak lehet, mindkettő hibaként kezeli a mintavételi variációt. Ebben az esetben a pontosabb kifejezés a mintavételi hibában.
A mintaváltozás egyszerűen a mintadarab statisztikájának variációja. Meg lehet mérni a tényleges minták összehasonlításával, vagy elméletileg megbecsülhető akár az adatokról, akár az adatokról, vagy egyetlen mintából. aki a közelgő választásokon a demokrata jelöltre fog szavazni. Meg akarja tudni a valódi népességtöredéket. Az a töredék, aki azt mondja, hogy a mintájában demokratikusnak szavaz, a sorsolás szerencséjével eltérhet a valódi népességtörtől, ez mintavételi hiba. Ez eltérhet az elfogultság, a rosszul rögzített válaszok vagy más problémák miatt is, amelyek nem mintavételi hibák.
A mintavételi variációkra példa, amelyek nem mintavételi hibák, egy vendéglátó megpróbálja eldönteni, mennyi ételt kell bevinnie fejenként eseményekre. Nemcsak az átlagérték, hanem a mintaváltozás is érdekli. Természetesen kiszámítható eltérések is lesznek, például az esemény típusa, a vendégek életkora, a napszak és így tovább. De még két esemény esetében is, amelyek minden mért kontroll tényezőnél megegyeznek, különböző mennyiségű étel kerül elfogyasztásra.
A vendéglátó nem csak azt akarja tudni, hogy stratégiai döntéseket hozhat. Például előfordulhat, hogy a drága és romlandó ételeket csak a lehető legkevesebb étvágy kielégítésére hozza, majd van néhány olcsóbb és tartósabb élelem, amelyet szükség esetén elő lehet hozni, és esetleg néhány sürgősségi nem romlandó ételt abban az esetben, ha a tömeg rendkívül éhes.
Válasz
A túlmintavétel és az almintavételezés a gépi tanulás során alkalmazott 2 fontos technika – osztályozási problémák csökkenteni az osztály egyensúlyhiányát, ezáltal növelve a modell pontosságát.
A besorolás nem más, mint megjósolni egy adatpont azon kategóriáját, amelyhez valószínűleg tartozik, hasonló példányok múltbeli jellemzőinek megismerésével.
Például
- Megjósolja, hogy egy férfi férfi vagy nő
- Megjósolása, hogy egy banki ügyfél képes-e a kölcsön visszafizetésére.
- Megjósolni, mit Vagyis a levél spam vagy anti-spam stb.
A prediktív képességet a modell úgy szerzi meg, hogy a múltban számos hasonló példát vizsgál, feltételezve, hogy valami megy a jövőbeni esemény a múlt tükröződése lesz. Most, különösen az osztályozási problémák esetében, minden kategóriát osztálynak nevezünk.
Tegyük fel, hogy ha meg akarjuk jósolni, hogy egy ember férfi vagy nő, akkor a „férfit” osztálynak és „nőnek” tekintjük. ”Osztálynak is tekinthető. Miközben megismerkednek ezen osztályok jellemzőivel a múltbeli példányok felhasználásával, nagyjából pontosan el kell különülniük egy nagyon pontos modell kidolgozásához.
Más szóval, ha a modellnek képesnek kell lennie megjósolni a személy, akkor meg kell tanulnia ezt a képességet legalább 1000 olyan múltbeli nyilvántartásból, ahol a férfiaknak és a nőknek egyaránt egyenlő arányban kell részt venniük. Ha az osztályok szegregációja megközelítőleg nem egyenlő, akkor ezt „ osztály egyensúlyhiány ” problémának nevezhetjük.
Megpróbálom elmagyarázni ezt egy példával-
Vegyük fontolóra, hogy bináris besorolási problémánk van annak megjóslására, hogy a film sláger vagy flop lesz-e.
A következő funkciók vannak független változóként-
- Időtartam (percben)
- Műfaj
- Kiadási hónap
Adataink így néznek ki (1. minta) –
Többnyire gépi tanulási modellünk tanulni fog a következő következtetések ezekből az adatok-
- Az április-május hónapokban megjelent filmek sikeresek voltak.
- A vígjáték műfajához tartozó filmek többnyire sikeresek voltak.
-
A horror műfajához tartozó filmek többnyire kudarcok voltak.
- A júniusban megjelent filmek A júliusi hónapok nem voltak olyan sikeresek.
Tehát,
Mi lesz a jóslat a mi modellünk, ha egy új vígjáték megjelenik április hónapban?
Találatnak számítanak, mert nagy az esélye, hogy ez a film jó sok pénzt fog keresni a doboznál irodában, mivel a múlt április-májusi hónapokban megjelent összes vígjáték sikeres volt.
Mi lesz a modellünk jóslata, ha egy új horrorfilm megjelenik július hónapban?
a modell flopként fogja megjósolni, mert eddig egyetlen horrorfilm sem volt sikeres a korábbi adatokhoz képest, és ez július hónapban is, ahol a közönség soha nem alakította magát színházzá. a képbe, mert már a megjelenés előtt meg tudta különböztetni egy sikeres és sikertelen film jellemzőit a múlt történetének vizsgálatából.
Most , vegyük figyelembe, hogy a modellhez az alábbiak szerint adjuk meg a bemeneti adatainkat (2. minta) –
Itt , Korábbi adataink 90\% -a a slágerfilmek jellemzőihez tartozik, és csak a rekordok 10\% -a van jelen, hogy megismerjék a flopos film jellemzőit. Ha modellt hozunk létre a fenti adatok (2. minta), akkor szerinted wi Képes lesz jó előrejelzést adni?
Nem.
Nézzük meg részletesen az okokat,
Mi lesz a modellünk jóslata, ha egy új horrorfilmet megjelenítenek július hónapban?
Itt nem biztos, hogy a modell jó előrejelzést ad (flop), mert nem tudott eleget tudni a flop film jellemzőiről.
Tegyük fel, hogy horrorfilmet készítettél 100 millió dollárért, és a megjelenés dátumát 2021 június 22-ig rögzítetted. Most , tudni szeretné, mi lesz ennek a filmnek az eredménye a pénztárnál.
Tehát, ha a modellt a -1. mintával futtatta amely az osztályok egyenletes elkülönítését tartalmazza (Hit / Flop), akkor az eredményt „Flop” -nak jósolta (ami valójában helyes). Ha igen, akkor képes lett volna elővigyázatossággal eljárni a meghibásodás lehetősége szerint, például
- A kiadás dátumának megváltoztatása
- A film reklámozásának és nyilvánosságának növelése
- A film új előzetesének kiadása a hype stb. Növelése érdekében.
De, ha a mintát használta – 2 a modellben akkor megjósolta volna az eredményt, mint találatot, és ezzel egy meghatározott napon (június 22-én) engedné el a filmet, és előfordulhat, hogy a veszteséget okozó flopként végződött.
A Sample-2 modell hibás előrejelzésének tényleges oka az, hogy nem volt képes megérteni, hogy egy június hónapban megjelenő film és ez is a horror műfajának nagyon kicsi a valószínűsége, hogy sikeres lesz a jegypénztárakban, mivel hasonló példák hiányoznak a tanulási adatokból.
Ezt az egyenetlen jelenlétrekordot egy olyan adatkészletben, amelynek egyes osztályaihoz nagyon alacsony, a többi osztályhoz pedig rendkívül magas a szám, osztály-egyensúlyhiánynak nevezzük.
Hogyan lehet legyőzni ezt a forgatókönyvet?
Két fő módszer létezik-
- Túlmintavételezés
- Alulmintavételezés
A túlmintavétel nem más, mint az olyan osztályok rekordjainak lemásolása, amelyek nagyon alacsony jelenlétűek . A fenti példában 9 rekordunk volt a „Hit” kategóriába, és csak 1 rekord a „Flop” kategóriába tartozott. Most mesterségesen növelhetjük a „Flop” kategóriába tartozó rekordok számát a jelenlétének lemásolásával.
Itt, mesterségesen létrehoztunk még 5 rekordot, amelyek a „Flop” kategóriába tartoznak, így a két osztályba tartozó rekordok száma közötti különbség szűkebb lesz. Ez a túlmintavételezés klasszikus példája.
Az alulmintavételezés nem más, mint az azon osztályokhoz tartozó rekordok számának csökkentése, amelyek rendkívül magas jelenlétet mutatnak más osztályokba.
Itt csökkentettük a „Hit” rekordok számát, így a mindkét osztályba tartozó rekordok száma közötti különbség leszűkült. Ez a hiányos mintavétel klasszikus példája. A törlés rekordjait szigorúan véletlenszerű folyamaton keresztül választjuk ki, és semmilyen korlátozás vagy elfogultság nem befolyásolja őket.
Remélem, hogy segített Önnek !!!