Mi a mintaváltozás? Milyen példák vannak erre?

Legjobb válasz

Noha az első két válasz amennyire csak lehet, mindkettő hibaként kezeli a mintavételi variációt. Ebben az esetben a pontosabb kifejezés a mintavételi hibában.

A mintaváltozás egyszerűen a mintadarab statisztikájának variációja. Meg lehet mérni a tényleges minták összehasonlításával, vagy elméletileg megbecsülhető akár az adatokról, akár az adatokról, vagy egyetlen mintából. aki a közelgő választásokon a demokrata jelöltre fog szavazni. Meg akarja tudni a valódi népességtöredéket. Az a töredék, aki azt mondja, hogy a mintájában demokratikusnak szavaz, a sorsolás szerencséjével eltérhet a valódi népességtörtől, ez mintavételi hiba. Ez eltérhet az elfogultság, a rosszul rögzített válaszok vagy más problémák miatt is, amelyek nem mintavételi hibák.

A mintavételi variációkra példa, amelyek nem mintavételi hibák, egy vendéglátó megpróbálja eldönteni, mennyi ételt kell bevinnie fejenként eseményekre. Nemcsak az átlagérték, hanem a mintaváltozás is érdekli. Természetesen kiszámítható eltérések is lesznek, például az esemény típusa, a vendégek életkora, a napszak és így tovább. De még két esemény esetében is, amelyek minden mért kontroll tényezőnél megegyeznek, különböző mennyiségű étel kerül elfogyasztásra.

A vendéglátó nem csak azt akarja tudni, hogy stratégiai döntéseket hozhat. Például előfordulhat, hogy a drága és romlandó ételeket csak a lehető legkevesebb étvágy kielégítésére hozza, majd van néhány olcsóbb és tartósabb élelem, amelyet szükség esetén elő lehet hozni, és esetleg néhány sürgősségi nem romlandó ételt abban az esetben, ha a tömeg rendkívül éhes.

Válasz

A túlmintavétel és az almintavételezés a gépi tanulás során alkalmazott 2 fontos technika – osztályozási problémák csökkenteni az osztály egyensúlyhiányát, ezáltal növelve a modell pontosságát.

A besorolás nem más, mint megjósolni egy adatpont azon kategóriáját, amelyhez valószínűleg tartozik, hasonló példányok múltbeli jellemzőinek megismerésével.

Például

  • Megjósolja, hogy egy férfi férfi vagy nő
  • Megjósolása, hogy egy banki ügyfél képes-e a kölcsön visszafizetésére.
  • Megjósolni, mit Vagyis a levél spam vagy anti-spam stb.

A prediktív képességet a modell úgy szerzi meg, hogy a múltban számos hasonló példát vizsgál, feltételezve, hogy valami megy a jövőbeni esemény a múlt tükröződése lesz. Most, különösen az osztályozási problémák esetében, minden kategóriát osztálynak nevezünk.

Tegyük fel, hogy ha meg akarjuk jósolni, hogy egy ember férfi vagy nő, akkor a „férfit” osztálynak és „nőnek” tekintjük. ”Osztálynak is tekinthető. Miközben megismerkednek ezen osztályok jellemzőivel a múltbeli példányok felhasználásával, nagyjából pontosan el kell különülniük egy nagyon pontos modell kidolgozásához.

Más szóval, ha a modellnek képesnek kell lennie megjósolni a személy, akkor meg kell tanulnia ezt a képességet legalább 1000 olyan múltbeli nyilvántartásból, ahol a férfiaknak és a nőknek egyaránt egyenlő arányban kell részt venniük. Ha az osztályok szegregációja megközelítőleg nem egyenlő, akkor ezt „ osztály egyensúlyhiány ” problémának nevezhetjük.

Megpróbálom elmagyarázni ezt egy példával-

Vegyük fontolóra, hogy bináris besorolási problémánk van annak megjóslására, hogy a film sláger vagy flop lesz-e.

A következő funkciók vannak független változóként-

  • Időtartam (percben)
  • Műfaj
  • Kiadási hónap

Adataink így néznek ki (1. minta) –

Többnyire gépi tanulási modellünk tanulni fog a következő következtetések ezekből az adatok-

  • Az április-május hónapokban megjelent filmek sikeresek voltak.
  • A vígjáték műfajához tartozó filmek többnyire sikeresek voltak.
  • A horror műfajához tartozó filmek többnyire kudarcok voltak.

  • A júniusban megjelent filmek A júliusi hónapok nem voltak olyan sikeresek.

Tehát,

Mi lesz a jóslat a mi modellünk, ha egy új vígjáték megjelenik április hónapban?

Találatnak számítanak, mert nagy az esélye, hogy ez a film jó sok pénzt fog keresni a doboznál irodában, mivel a múlt április-májusi hónapokban megjelent összes vígjáték sikeres volt.

Mi lesz a modellünk jóslata, ha egy új horrorfilm megjelenik július hónapban?

a modell flopként fogja megjósolni, mert eddig egyetlen horrorfilm sem volt sikeres a korábbi adatokhoz képest, és ez július hónapban is, ahol a közönség soha nem alakította magát színházzá. a képbe, mert már a megjelenés előtt meg tudta különböztetni egy sikeres és sikertelen film jellemzőit a múlt történetének vizsgálatából.

Most , vegyük figyelembe, hogy a modellhez az alábbiak szerint adjuk meg a bemeneti adatainkat (2. minta) –

Itt , Korábbi adataink 90\% -a a slágerfilmek jellemzőihez tartozik, és csak a rekordok 10\% -a van jelen, hogy megismerjék a flopos film jellemzőit. Ha modellt hozunk létre a fenti adatok (2. minta), akkor szerinted wi Képes lesz jó előrejelzést adni?

Nem.

Nézzük meg részletesen az okokat,

Mi lesz a modellünk jóslata, ha egy új horrorfilmet megjelenítenek július hónapban?

Itt nem biztos, hogy a modell jó előrejelzést ad (flop), mert nem tudott eleget tudni a flop film jellemzőiről.

Tegyük fel, hogy horrorfilmet készítettél 100 millió dollárért, és a megjelenés dátumát 2021 június 22-ig rögzítetted. Most , tudni szeretné, mi lesz ennek a filmnek az eredménye a pénztárnál.

Tehát, ha a modellt a -1. mintával futtatta amely az osztályok egyenletes elkülönítését tartalmazza (Hit / Flop), akkor az eredményt „Flop” -nak jósolta (ami valójában helyes). Ha igen, akkor képes lett volna elővigyázatossággal eljárni a meghibásodás lehetősége szerint, például

  • A kiadás dátumának megváltoztatása
  • A film reklámozásának és nyilvánosságának növelése
  • A film új előzetesének kiadása a hype stb. Növelése érdekében.

De, ha a mintát használta – 2 a modellben akkor megjósolta volna az eredményt, mint találatot, és ezzel egy meghatározott napon (június 22-én) engedné el a filmet, és előfordulhat, hogy a veszteséget okozó flopként végződött.

A Sample-2 modell hibás előrejelzésének tényleges oka az, hogy nem volt képes megérteni, hogy egy június hónapban megjelenő film és ez is a horror műfajának nagyon kicsi a valószínűsége, hogy sikeres lesz a jegypénztárakban, mivel hasonló példák hiányoznak a tanulási adatokból.

Ezt az egyenetlen jelenlétrekordot egy olyan adatkészletben, amelynek egyes osztályaihoz nagyon alacsony, a többi osztályhoz pedig rendkívül magas a szám, osztály-egyensúlyhiánynak nevezzük.

Hogyan lehet legyőzni ezt a forgatókönyvet?

Két fő módszer létezik-

  • Túlmintavételezés
  • Alulmintavételezés

A túlmintavétel nem más, mint az olyan osztályok rekordjainak lemásolása, amelyek nagyon alacsony jelenlétűek . A fenti példában 9 rekordunk volt a „Hit” kategóriába, és csak 1 rekord a „Flop” kategóriába tartozott. Most mesterségesen növelhetjük a „Flop” kategóriába tartozó rekordok számát a jelenlétének lemásolásával.

Itt, mesterségesen létrehoztunk még 5 rekordot, amelyek a „Flop” kategóriába tartoznak, így a két osztályba tartozó rekordok száma közötti különbség szűkebb lesz. Ez a túlmintavételezés klasszikus példája.

Az alulmintavételezés nem más, mint az azon osztályokhoz tartozó rekordok számának csökkentése, amelyek rendkívül magas jelenlétet mutatnak más osztályokba.

Itt csökkentettük a „Hit” rekordok számát, így a mindkét osztályba tartozó rekordok száma közötti különbség leszűkült. Ez a hiányos mintavétel klasszikus példája. A törlés rekordjait szigorúan véletlenszerű folyamaton keresztül választjuk ki, és semmilyen korlátozás vagy elfogultság nem befolyásolja őket.

Remélem, hogy segített Önnek !!!

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük