Hvad er prøveudtagningsvariation? Hvad er eksempler på dette?

Bedste svar

Mens de to første svar er korrekte så langt de går, behandler de begge prøvevariation som fejl. I så fald er det mere præcise udtryk i samplingsfejl.

Samplingvariation er simpelthen variationen i en statistik fra prøve til prøve. Det kan måles ved at sammenligne faktiske prøver, eller det kan teoretisk estimeres enten fra viden om dataene eller fra en enkelt prøve.

Et eksempel på prøveudtagningsfejl er at tage en afstemning for at estimere brøkdelen af ​​mennesker der vil stemme på den demokratiske kandidat i et kommende valg. Du vil vide den sande befolkningsfraktion. Den brøkdel, der siger, at de vil stemme demokratisk i din prøve, kan variere fra den sande befolkningsfraktion ved lodtrækningen, det er en stikprøvefejl. Det kan også variere på grund af bias eller fejlagtigt registrerede svar eller andre problemer. Disse er ikke prøveudtagningsfejl.

Et eksempel på prøveudtagningsvariation, der ikke er prøveudtagningsfejl, er en cateringvirksomhed, der prøver at beslutte, hvor meget mad der skal medbringes pr. Person til begivenheder. Hun er ikke kun interesseret i middelværdien, men prøveudtagningsvariationen. Selvfølgelig vil der også være forudsigelig variation fra ting som type begivenhed, gæsternes alder, tidspunkt på dagen og så videre. Men selv for to begivenheder, der er identiske på alle målte kontrolfaktorer, forbruges forskellige mængder mad.

Årsagen til, at cateringvirksomheden ikke ønsker at vide, hvad det er, er, at hun kan tage strategiske valg. For eksempel kan hun medbringe den dyre og letfordærvelige mad kun for at tjene den mindste sandsynlige mængde appetit, så har hun noget billigere og længerevarende mad at bringe ud, hvis det synes nødvendigt, og måske en nødsituation back-up ikke-letfordærvelig mad i hvis publikum er ekstremt sultne.

Svar

Oversampling og undersampling er 2 vigtige teknikker, der bruges i maskinindlæring – klassificeringsproblemer i rækkefølge for at reducere klassens ubalance og derved øge nøjagtigheden af ​​modellen.

Klassificering er intet andet end at forudsige kategorien af ​​et datapunkt, som det sandsynligvis kan høre til, ved at lære om tidligere karakteristika for lignende forekomster.

For eksempel

  • Forudsigelse af om en person er mand eller kvinde
  • Forudsiger, om en bankkunde er i stand til at tilbagebetale lånet eller ej.
  • Forudsiger hvad er en mail er en spam eller anti-spam osv.

Den forudsigelige evne opnås af modellen ved at undersøge mange lignende forekomster i fortiden med en antagelse om, at noget vil ske i fremtiden vil være en afspejling af fortiden. Nu, især i klassificeringsproblemer, er hver kategori kendt som en klasse.

Lad os sige, hvis vi vil forudsige, om en person er mand eller kvinde, så vil “mand” blive betragtet som en klasse og “kvinde” ”Vil også blive betragtet som en klasse. Mens de lærer om karaktererne ved disse klasser ved hjælp af tidligere forekomster, skal de være i nogenlunde jævn adskillelse for at udvikle en meget nøjagtig model.

Med andre ord, hvis modellen har brug for en evne til at forudsige køn på en person, så skal det lære denne evne fra mindst 1000s optegnelser i fortiden, hvor både mænd og kvinder skulle have noget lige deltagelse. Hvis adskillelsen af ​​klasser ikke er tilnærmelsesvis ens, kan den betegnes som et “ Klasse ubalance ” problem.

Jeg vil prøve at forklare dette med et eksempel-

Lad os overveje, at vi har et binært klassificeringsproblem til at forudsige, om en film bliver et hit eller et flop.

Vi har følgende funktioner som uafhængige variabler-

  • Varighed (i minutter)
  • Genre
  • Udgivelsesmåned

Vores data ser sådan ud (prøve 1) –

For det meste lærer vores maskinlæringsmodel følgende konklusioner fra disse data-

  • Film, der blev frigivet i april-maj måneder, har været vellykkede.
  • Film, der tilhører komediegenren, var mest succesrige.
  • Film, der tilhører horrorgenren, var for det meste fiaskoer.

  • Film, der blev frigivet i juni- Juli måneder har ikke været så vellykkede.

Så,

Hvad vil forudsigelsen af vores model, hvis en ny komediefilm udkommer i april måned?

Det forudsiges som et hit, fordi der er stor chance for, at denne film bringer en god sum penge i boksen kontor, da alle de komediefilm, der blev udgivet i april-maj måned tidligere, har haft succes.

Hvad forudsiger vores model, hvis en ny gyserfilm frigives i juli måned?

Vores modellen vil forudsige det som et flop, fordi ingen horror-film hidtil har været succesrige fra tidligere data, og det også i juli måned, hvor publikum aldrig har forvandlet sig til teatre.

Denne forudsigelige evne til modellen kom ind i billedet, fordi det var i stand til at skelne kendetegnene ved en vellykket og mislykket film, selv før frigivelsen fra oplevelsen af ​​at undersøge den tidligere historie.

Nu , lad os overveje, at vi har vores inputdata til modellen som følger (prøve 2) –

Her , 90\% af vores tidligere data hører til hitfilmens karakteristika, og kun 10\% af optegnelserne er til stede for at lære om egenskaberne ved en flopfilm. Hvis vi opretter en model ved hjælp af ovenstående data (prøve-2) så tror du, det er wi Vil jeg være i stand til at give en god forudsigelse?

Nej.

Lad os se grundene dybtgående,

Hvad vil forudsigelsen af ​​vores model være, hvis en ny gyserfilm udkommer i juli måned?

Her er der ingen sikkerhed for, at modellen giver den korrekte forudsigelse (flop) fordi det ikke var i stand til at lære nok om egenskaberne ved en flopfilm.

Lad os sige, at du har produceret en gyserfilm til $ 100 millioner og fastlagt udgivelsesdatoen som den 22. juni 2021. Nu , vil du vide, hvad der vil være det mulige resultat af denne film i billetkontoret.

Så hvis du har kørt modellen med Prøve -1 som indeholder en jævn adskillelse af klasser (Hit / Flop), så ville det have forudsagt resultatet som “Flop” (hvilket faktisk er korrekt). I så fald ville du have været i stand til at tage forholdsregler i henhold til muligheden for en fejl som

  • Ændring af udgivelsesdatoen
  • Forøgelse af reklamen og publiciteten af ​​filmen
  • Udgivelse af en ny trailer af filmen for at øge hype osv.

Men hvis du har brugt Prøve – 2 i modellen så ville det have forudsagt resultatet som hit, og dermed ville du have frigivet filmen på en fast dato (22. juni) og muligvis er endt som en flop, der pådrager sig tabet.

Den egentlige årsag til den forkerte forudsigelse for modellen med Sample-2 er, at den ikke var i stand til at forstå, at en film, der blev udgivet i juni måned, og at også i rædselsgenren har en meget lav sandsynlighed for at få succes i billetkontoret på grund af manglende lignende eksempler i sine læringsdata.

Denne ujævne tilstedeværelse registreres i et datasæt med et meget lavt antal for nogle af klasserne og ekstremt højt antal for resten af ​​klasserne kaldes en klassebalance.

Hvordan overvindes dette scenarie?

Der er to hovedmåder-

  • Oversampling
  • Under-sampling

Oversampling er intet andet end at duplikere antallet af poster, der tilhører de klasser, der har en meget lav tilstedeværelse . I ovenstående eksempel havde vi 9 poster, der tilhører kategorien “Hit” og kun 1 record, der tilhører kategorien “Flop”. Nu kan vi kunstigt øge antallet af poster, der tilhører kategorien “Flop” ved at duplikere dets tilstedeværelse.

Her, Vi har kunstigt oprettet yderligere 5 poster, der hører til kategorien “Flop”, så forskellen mellem antallet af poster, der tilhører begge klasser, indsnævres. Dette er et klassisk eksempel på oversampling.

Under-sampling er intet andet end at reducere antallet af poster, der tilhører de klasser, der har en ekstremt høj tilstedeværelse sammenlignet til andre klasser.

Her har vi reduceret antallet af poster, der tilhører “Hit”, så forskellen mellem antallet af poster, der tilhører begge klasser, er indsnævret. Dette er et klassisk eksempel på underprøveudtagning. Optegnelserne til sletningen vælges strengt gennem en tilfældig proces og påvirkes ikke af nogen begrænsninger eller bias.

Håber det hjalp dig !!!

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *