Hva er prøvetakingsvariasjon? Hva er eksempler på dette?

Beste svaret

Mens de to første svarene er riktige så langt de kommer, behandler de begge utvalgsvariasjon som feil. I så fall er det mer presise begrepet i samplingsfeil.

Samplingvariasjon er ganske enkelt variasjonen i en statistikk fra prøve til prøve. Det kan måles ved å sammenligne faktiske prøver, eller det kan estimeres teoretisk enten fra kunnskap om dataene, eller fra en enkelt prøve.

Et eksempel på samplingsfeil er å ta en avstemning for å estimere brøkdelen av mennesker som vil stemme på den demokratiske kandidaten i et kommende valg. Du vil vite den virkelige befolkningsfraksjonen. Den brøkdelen som sier at de vil stemme demokratisk i utvalget ditt, kan variere fra den sanne befolkningsfraksjonen på grunn av flaks for trekningen, det er en samplingsfeil. Det kan også variere på grunn av forspenning eller feilregistrerte svar eller andre problemer, de er ikke prøvetakingsfeil.

Et eksempel på prøvetakingsvariasjon som ikke er prøvetakingsfeil, er en servering som prøver å bestemme hvor mye mat man skal ta med per person til arrangementer. Hun er ikke bare interessert i middelverdien, men prøvetakingsvariasjonen. Selvfølgelig vil det også være forutsigbar variasjon fra ting som type arrangement, alder på gjestene, tid på dagen og så videre. Men selv for to hendelser som er identiske på alle målte kontrollfaktorer, vil forskjellige mengder mat bli konsumert.

Årsaken til at cateringvirksomheten ikke vil vite akkurat middelet er at hun kan ta strategiske valg. For eksempel kan hun ta med seg den dyre og lett bedervelige maten bare for å servere den minste sannsynlige mengden av appetitt, og deretter ha litt billigere og mer langvarig mat å hente ut hvis det virker nødvendig, og kanskje noe nødsikkerhetskopiering av ikke-forgjengelig mat i tilfellet publikum er ekstremt sulten.

Svar

Oversampling og undersampling er to viktige teknikker som brukes i maskinlæring – klassifiseringsproblemer i rekkefølge for å redusere klassebalansen og derved øke nøyaktigheten til modellen.

Klassifisering er ikke annet enn å forutsi kategorien til et datapunkt som den sannsynligvis kan høre til ved å lære om tidligere kjennetegn ved lignende forekomster.

For eksempel

  • Forutsi om en person er mann eller kvinne
  • Forutsi om en bankkunde er i stand til å betale tilbake lånet eller ikke.
  • Forutsi hva er en e-post er en spam eller anti-spam osv.

Den prediktive evnen oppnås av modellen ved å undersøke mange lignende forekomster tidligere med en antagelse om at noe skal skje i fremtiden vil være en refleksjon av fortiden. Nå, spesielt i klassifiseringsproblemer, er hver kategori kjent som en klasse.

La oss si, hvis vi vil forutsi om en person er mann eller kvinne, vil «mann» bli betraktet som en klasse og «kvinne» ”Vil også bli sett på som en klasse. Mens de lærer om egenskapene til disse klassene ved hjelp av tidligere forekomster, bør de være omtrent jevne for å utvikle en svært nøyaktig modell.

Med andre ord, hvis modellen trenger en evne til å forutsi kjønnet til en person, så bør den lære denne evnen fra minst 1000-talls poster tidligere hvor både menn og kvinner skulle ha litt lik deltakelse. Hvis adskillelsen av klasser ikke er tilnærmet lik, kan den betegnes som et « Klasse ubalanse ” problem.

Jeg vil prøve å forklare dette med et eksempel-

La oss vurdere at vi har et binært klassifiseringsproblem for å forutsi om en film blir en hit eller en flop.

Vi har følgende funksjoner som uavhengige variabler-

  • Varighet (i minutter)
  • Sjanger
  • Utgivelsesmåned

Dataene våre ser slik ut (Eksempel 1) –

For det meste lærer vår maskinlæringsmodell følgende konklusjoner fra disse dataene

  • Filmer som ble utgitt i april-mai månedene har vært vellykkede.
  • Filmer som tilhører komediesjangeren var stort sett vellykkede.
  • Filmer som tilhører skrekkgenren var for det meste feil.

  • Filmer som ble gitt ut i juni- Juli månedene har ikke vært så vellykkede.

Så,

Hva vil være spådommen av modellen vår hvis en ny komediefilm blir utgitt i april måned?

Den vil bli spådd som en hit fordi det er stor sjanse for at denne filmen vil tjene en god sum penger på boksen. kontoret siden alle komediefilmene som ble utgitt i april-mai måned tidligere har vært vellykkede.

Hva blir forutsigelsen til modellen vår hvis en ny skrekkfilm blir utgitt i juli måned?

Vår modellen vil forutsi det som en flopp fordi ingen skrekkfilmer har vært vellykkede så langt fra tidligere data, og det også i juli måned hvor publikum aldri har gjort seg om til teatre.

Denne prediktive evnen til modellen kom inn i bildet fordi det var i stand til å skille kjennetegnene til en vellykket og mislykket film allerede før utgivelsen fra opplevelsen av å undersøke fortidens historie.

Nå , la oss vurdere at vi har inngangsdata til modellen som følger (Eksempel 2) –

Her , 90\% av våre tidligere data tilhører egenskapene til hitfilmer, og bare 10\% av platene er til stede for å lære om egenskapene til en floppfilm. Hvis vi lager en modell ved hjelp av ovennevnte data (Eksempel 2), tror du det vil Kan vi gi en god spådom?

Nei.

La oss se på grunnene grundig,

Hva blir forutsigelsen til modellen vår hvis en ny skrekkfilm blir utgitt i juli måned?

Her er det ingen garanti for at modellen vil gi riktig spådom (flopp) fordi den ikke var i stand til å lære nok om egenskapene til en floppfilm.

La oss si at du har produsert en skrekkfilm for $ 100 millioner og fastslått utgivelsesdatoen til 22. juni 2021. Nå , vil du vite hva som vil være det mulige resultatet av denne filmen i billettkontoret.

Så hvis du har kjørt modellen med Eksempel -1 som inneholder jevn separasjon av klasser (Hit / Flop), ville det ha spådd utfallet som «Flop» (som faktisk er riktig). I så fall ville du ha vært i stand til å ta forholdsregler i henhold til muligheten for en feil som-

  • Endring av utgivelsesdato
  • Øke reklame og reklame for filmen
  • Slipper en ny trailer av filmen for å øke sprøytenarkomanen osv.

Men hvis du har brukt Eksempel – 2 i modellen så hadde det spådd utfallet som hit, og dermed ville du ha gitt ut filmen på en fast dato (22. juni) og det kan har endt opp som en flopp som pådrar seg tapet.

Den faktiske årsaken til feil spådom for modellen med Sample-2 er at den ikke var i stand til å forstå at en film som ble utgitt i juni måned og at også i sjangeren av skrekk har svært lav sannsynlighet for å bli vellykket i billettkontoret på grunn av mangel på lignende eksempler i læringsdataene.

Denne ujevne tilstedeværelse registreres i et datasett med veldig lavt antall for noen av klassene og ekstremt høyt antall for resten av klassene kalles en klasse ubalanse.

Hvordan overvinne dette scenariet?

Det er to hovedmåter-

  • Oversampling
  • Under-sampling

Oversampling er ingenting annet enn å duplisere antall poster som tilhører de klassene som har svært lav tilstedeværelse . I eksemplet ovenfor hadde vi 9 poster som tilhører kategorien «Hit» og bare 1 plate som tilhører kategorien «Flop». Nå kan vi kunstig øke antall poster som tilhører kategorien «Flop» ved å duplisere tilstedeværelsen.

Her, vi har kunstig laget 5 flere poster som tilhører «Flop» -kategorien, slik at forskjellen mellom antall poster som tilhører begge klassene blir mindre. Dette er et klassisk eksempel på oversampling.

Under-sampling er ingenting annet enn å redusere antall poster som tilhører de klassene som har ekstremt høy tilstedeværelse sammenlignet til andre klasser.

Her har vi redusert antall poster som tilhører “Hit” slik at forskjellen mellom antall poster som tilhører begge klassene har blitt redusert. Dette er et klassisk eksempel på underprøving. Postene for sletting velges strengt gjennom en tilfeldig prosess og påvirkes ikke av noen begrensninger eller skjevheter.

Håper det hjalp deg !!!

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *