Mi a mintaváltozás? Milyen példák vannak erre?

Legjobb válasz

Noha az első két válasz amennyire csak lehet, mindkettő hibaként kezeli a mintavételi variációt. Ebben az esetben a pontosabb kifejezés a mintavételi hibában.

A mintaváltozás egyszerűen a mintadarab statisztikájának variációja. Meg lehet mérni a tényleges minták összehasonlításával, vagy elméletileg megbecsülhető akár az adatokról, akár az adatokról, vagy egyetlen mintából. aki a közelgő választásokon a demokrata jelöltre fog szavazni. Meg akarja tudni a valódi népességtöredéket. Az a töredék, aki azt mondja, hogy a mintájában demokratikusnak szavaz, a sorsolás szerencséjével eltérhet a valódi népességtörtől, ez mintavételi hiba. Ez eltérhet az elfogultság, a rosszul rögzített válaszok vagy más problémák miatt is, amelyek nem mintavételi hibák.

A mintavételi variációkra példa, amelyek nem mintavételi hibák, egy vendéglátó megpróbálja eldönteni, mennyi ételt kell bevinnie fejenként eseményekre. Nemcsak az átlagérték, hanem a mintaváltozás is érdekli. Természetesen kiszámítható eltérések is lesznek, például az esemény típusa, a vendégek életkora, a napszak és így tovább. De még két esemény esetében is, amelyek minden mért kontroll tényezőnél megegyeznek, különböző mennyiségű étel kerül elfogyasztásra.

A vendéglátó nem csak azt akarja tudni, hogy stratégiai döntéseket hozhat. Például előfordulhat, hogy a drága és romlandó ételeket csak a lehető legkevesebb étvágy kielégítésére hozza, majd van néhány olcsóbb és tartósabb élelem, amelyet szükség esetén elő lehet hozni, és esetleg néhány sürgősségi nem romlandó ételt abban az esetben, ha a tömeg rendkívül éhes.

Válasz

A túlmintavétel és az almintavételezés a gépi tanulás során alkalmazott 2 fontos technika – osztályozási problémák csökkenteni az osztály egyensúlyhiányát, ezáltal növelve a modell pontosságát.

A besorolás nem más, mint megjósolni egy adatpont azon kategóriáját, amelyhez valószínűleg tartozik, hasonló példányok múltbeli jellemzőinek megismerésével.

Például

Megjósolja, hogy egy férfi férfi vagy nő
Megjósolása, hogy egy banki ügyfél képes-e a kölcsön visszafizetésére.
Megjósolni, mit Vagyis a levél spam vagy anti-spam stb.

A prediktív képességet a modell úgy szerzi meg, hogy a múltban számos hasonló példát vizsgál, feltételezve, hogy valami megy a jövőbeni esemény a múlt tükröződése lesz. Most, különösen az osztályozási problémák esetében, minden kategóriát osztálynak nevezünk.

Tegyük fel, hogy ha meg akarjuk jósolni, hogy egy ember férfi vagy nő, akkor a „férfit” osztálynak és „nőnek” tekintjük. ”Osztálynak is tekinthető. Miközben megismerkednek ezen osztályok jellemzőivel a múltbeli példányok felhasználásával, nagyjából pontosan el kell különülniük egy nagyon pontos modell kidolgozásához.

Más szóval, ha a modellnek képesnek kell lennie megjósolni a személy, akkor meg kell tanulnia ezt a képességet legalább 1000 olyan múltbeli nyilvántartásból, ahol a férfiaknak és a nőknek egyaránt egyenlő arányban kell részt venniük. Ha az osztályok szegregációja megközelítőleg nem egyenlő, akkor ezt „ osztály egyensúlyhiány ” problémának nevezhetjük.

Megpróbálom elmagyarázni ezt egy példával-

Vegyük fontolóra, hogy bináris besorolási problémánk van annak megjóslására, hogy a film sláger vagy flop lesz-e.

A következő funkciók vannak független változóként-

Időtartam (percben)
Műfaj
Kiadási hónap

Adataink így néznek ki (1. minta) –

Többnyire gépi tanulási modellünk tanulni fog a következő következtetések ezekből az adatok-

Az április-május hónapokban megjelent filmek sikeresek voltak.
A vígjáték műfajához tartozó filmek többnyire sikeresek voltak.
A horror műfajához tartozó filmek többnyire kudarcok voltak.
A júniusban megjelent filmek A júliusi hónapok nem voltak olyan sikeresek.

Tehát,

Mi lesz a jóslat a mi modellünk, ha egy új vígjáték megjelenik április hónapban?

Találatnak számítanak, mert nagy az esélye, hogy ez a film jó sok pénzt fog keresni a doboznál irodában, mivel a múlt április-májusi hónapokban megjelent összes vígjáték sikeres volt.

Mi lesz a modellünk jóslata, ha egy új horrorfilm megjelenik július hónapban?

a modell flopként fogja megjósolni, mert eddig egyetlen horrorfilm sem volt sikeres a korábbi adatokhoz képest, és ez július hónapban is, ahol a közönség soha nem alakította magát színházzá. a képbe, mert már a megjelenés előtt meg tudta különböztetni egy sikeres és sikertelen film jellemzőit a múlt történetének vizsgálatából.

Most , vegyük figyelembe, hogy a modellhez az alábbiak szerint adjuk meg a bemeneti adatainkat (2. minta) –

Itt , Korábbi adataink 90\% -a a slágerfilmek jellemzőihez tartozik, és csak a rekordok 10\% -a van jelen, hogy megismerjék a flopos film jellemzőit. Ha modellt hozunk létre a fenti adatok (2. minta), akkor szerinted wi Képes lesz jó előrejelzést adni?

Nem.

Nézzük meg részletesen az okokat,

Mi lesz a modellünk jóslata, ha egy új horrorfilmet megjelenítenek július hónapban?

Itt nem biztos, hogy a modell jó előrejelzést ad (flop), mert nem tudott eleget tudni a flop film jellemzőiről.

Tegyük fel, hogy horrorfilmet készítettél 100 millió dollárért, és a megjelenés dátumát 2021 június 22-ig rögzítetted. Most , tudni szeretné, mi lesz ennek a filmnek az eredménye a pénztárnál.

Tehát, ha a modellt a -1. mintával futtatta amely az osztályok egyenletes elkülönítését tartalmazza (Hit / Flop), akkor az eredményt „Flop” -nak jósolta (ami valójában helyes). Ha igen, akkor képes lett volna elővigyázatossággal eljárni a meghibásodás lehetősége szerint, például

A kiadás dátumának megváltoztatása
A film reklámozásának és nyilvánosságának növelése
A film új előzetesének kiadása a hype stb. Növelése érdekében.

De, ha a mintát használta – 2 a modellben akkor megjósolta volna az eredményt, mint találatot, és ezzel egy meghatározott napon (június 22-én) engedné el a filmet, és előfordulhat, hogy a veszteséget okozó flopként végződött.

A Sample-2 modell hibás előrejelzésének tényleges oka az, hogy nem volt képes megérteni, hogy egy június hónapban megjelenő film és ez is a horror műfajának nagyon kicsi a valószínűsége, hogy sikeres lesz a jegypénztárakban, mivel hasonló példák hiányoznak a tanulási adatokból.

Ezt az egyenetlen jelenlétrekordot egy olyan adatkészletben, amelynek egyes osztályaihoz nagyon alacsony, a többi osztályhoz pedig rendkívül magas a szám, osztály-egyensúlyhiánynak nevezzük.

Hogyan lehet legyőzni ezt a forgatókönyvet?

Két fő módszer létezik-

Túlmintavételezés
Alulmintavételezés

A túlmintavétel nem más, mint az olyan osztályok rekordjainak lemásolása, amelyek nagyon alacsony jelenlétűek . A fenti példában 9 rekordunk volt a „Hit” kategóriába, és csak 1 rekord a „Flop” kategóriába tartozott. Most mesterségesen növelhetjük a „Flop” kategóriába tartozó rekordok számát a jelenlétének lemásolásával.

Itt, mesterségesen létrehoztunk még 5 rekordot, amelyek a „Flop” kategóriába tartoznak, így a két osztályba tartozó rekordok száma közötti különbség szűkebb lesz. Ez a túlmintavételezés klasszikus példája.

Az alulmintavételezés nem más, mint az azon osztályokhoz tartozó rekordok számának csökkentése, amelyek rendkívül magas jelenlétet mutatnak más osztályokba.

Itt csökkentettük a „Hit” rekordok számát, így a mindkét osztályba tartozó rekordok száma közötti különbség leszűkült. Ez a hiányos mintavétel klasszikus példája. A törlés rekordjait szigorúan véletlenszerű folyamaton keresztül választjuk ki, és semmilyen korlátozás vagy elfogultság nem befolyásolja őket.

Remélem, hogy segített Önnek !!!

Legjobb válasz

Válasz

Related Post

Vélemény, hozzászólás? Kilépés a válaszból