Bästa svaret
Även om de två första svaren är korrekta så långt de går behandlar de båda samplingsvariationer som fel. I så fall är den mer exakta termen i samplingsfel.
Samplingsvariation är helt enkelt variationen i en statistik från prov till prov. Det kan mätas genom att jämföra faktiska prover, eller det kan uppskattas teoretiskt antingen utifrån kunskap om data eller från ett enda urval. som kommer att rösta på den demokratiska kandidaten i ett kommande val. Du vill veta den sanna befolkningsfraktionen. Den bråkdel som säger att de kommer att rösta demokratiskt i ditt urval kan variera från den sanna befolkningsfraktionen med lycka till i dragningen, det är ett urvalsfel. Det kan också skilja sig åt på grund av partiskhet eller felinspelade svar eller andra problem, de är inte ett samplingsfel.
Ett exempel på provvariationer som inte är ett samplingsfel är en matleverantör som försöker bestämma hur mycket mat man ska ta med per person till händelser. Hon är inte bara intresserad av medelvärdet utan också urvalsvariationen. Naturligtvis kommer det också att finnas förutsägbar variation från saker som typ av evenemang, gästernas ålder, tid på dygnet och så vidare. Men även för två händelser som är identiska på alla uppmätta kontrollfaktorer kommer olika mängder mat att konsumeras.
Anledningen till att cateringfirman inte vill veta bara medelvärdet är att hon kan göra strategiska val. Till exempel kan hon ta med sig den dyra och lättfördärvliga maten bara för att tjäna den minsta möjliga folkmassan, sedan ha lite billigare och mer långvarig mat att ta fram om det verkar nödvändigt, och kanske lite nödsäkerhet som inte är fördärvlig mat i om publiken är extremt hungrig.
Svar
Översampling och undersampling är två viktiga tekniker som används vid maskininlärning – klassificeringsproblem i ordning för att minska klassobalansen och därigenom öka noggrannheten i modellen.
Klassificering är inget annat än att förutsäga kategorin för en datapunkt som den förmodligen kan tillhöra genom att lära sig om tidigare egenskaper hos liknande instanser.
Till exempel
- Förutsäg om en person är man eller kvinna
- Förutsäg om en bankkund kan återbetala lånet eller inte.
- Förutspår vad e-post är en skräppost eller antispam etc.
Den förutsägbara förmågan får modellen genom att undersöka många liknande fall tidigare med antagandet att något kommer att hända i framtiden kommer att återspegla det förflutna. Nu, särskilt i klassificeringsproblem, är varje kategori känd som en klass.
Låt oss säga, om vi vill förutsäga om en person är man eller kvinna så kommer ”Man” att betraktas som en klass och ”Kvinna ”Kommer också att betraktas som en klass. Medan de lär sig om egenskaperna hos dessa klasser med hjälp av tidigare instanser, bör de vara i ungefär jämn åtskillnad för att utveckla en mycket exakt modell.
Med andra ord, om modellen behöver förmåga att förutsäga könen på en person bör det lära sig denna förmåga från minst 1000-talet tidigare innan både män och kvinnor bör ha något lika deltagande. Om klassernas segregering inte är ungefär lika kan det betecknas som ett problem Klassobalans .
Jag ska försöka förklara detta med ett exempel-
Låt oss överväga att vi har ett binärt klassificeringsproblem för att förutsäga om en film kommer att bli en hit eller en flop.
Vi har följande funktioner som oberoende variabler-
- Längd (i minuter)
- Genre
- Utgivningsmånad
Våra data ser ut så här (Exempel 1) –
För det mesta kommer vår maskininlärningsmodell att lära sig följande slutsatser från dessa data-
- Filmer som släpptes i april-maj månader har varit framgångsrika.
- Filmer som tillhör komediegenren var mest framgångsrika.
-
Filmer som tillhör skräckgenren var mest misslyckade.
- Filmer som släpptes i juni- Juli månader har inte varit så framgångsrika.
Så,
Vad kommer att vara förutsägelsen av vår modell om en ny komedifilm släpps i aprilmånaden?
Den kommer att förutspås som en hit eftersom det finns stora chanser att den här filmen kommer att tjäna en hel del pengar i boxen kontoret eftersom alla komediefilmer som släpptes i april-maj månad tidigare har varit framgångsrika.
Vad kommer vår modell att förutsäga om en ny skräckfilm släpps i juli månad?
Vår modellen kommer att förutsäga det som en flopp eftersom inga skräckfilmer har varit framgångsrika hittills från tidigare data och det också i juli månad där publiken aldrig har förvandlat sig till teatrar.
Denna förutsägbara förmåga hos modellen kom in i bilden eftersom den kunde skilja egenskaperna hos en framgångsrik och misslyckad film redan före släppet från erfarenheten av att undersöka den förflutna historien.
Nu , låt oss överväga att vi har våra ingångsdata till modellen enligt följande (prov 2) –
Här , 90\% av våra tidigare data tillhör egenskaperna hos hitfilmer och endast 10\% av skivorna är närvarande för att lära sig mer om egenskaperna hos en flopfilm. Om vi skapar en modell med ovanstående data (prov-2) tror du att det kommer Kommer jag att kunna ge en bra förutsägelse?
Nej.
Låt oss se skälen på djupet,
Vad kommer vår modell att förutsäga om en ny skräckfilm släpps i juli månad?
Här finns ingen garanti för att modellen kommer att ge rätt förutsägelse (flop) eftersom det inte kunde lära sig tillräckligt om egenskaperna hos en flopfilm.
Låt oss säga att du har producerat en skräckfilm för 100 miljoner dollar och fastställt släppdatumet till 22 juni 2021. Nu , vill du veta vad som blir det möjliga resultatet av den här filmen i kassan.
Så om du har kört modellen med Exempel -1 som innehåller en jämn åtskillnad mellan klasser (Hit / Flop) då skulle det ha förutsagt resultatet som ”Flop” (vilket faktiskt är korrekt). Om så är fallet skulle du ha kunnat vidta försiktighet enligt möjligheten till ett fel som-
- Ändring av släppdatum
- Öka reklam och publicitet för filmen
- Släppa en ny trailer för filmen för att öka hype osv.
Men om du har använt Exempel – 2 i modellen då skulle det ha förutsagt resultatet som hit och därmed skulle du ha släppt filmen på ett fast datum (22 juni) och det kanske har hamnat som en flopp som medför förlusten.
Den faktiska orsaken till fel förutsägelse för modellen med Sample-2 är att den inte kunde förstå att en film som släpptes i juni månad och att också i skräckgenren har mycket låg sannolikhet att bli framgångsrik på kassan på grund av brist på liknande exempel i sina inlärningsdata.
Denna ojämna närvaro registreras i en datamängd med ett mycket lågt antal för vissa av klasserna och extremt högt antal för resten av klasserna kallas en klassobalans.
Hur löser man detta scenario?
Det finns två huvudvägar-
- Översampling
- Underprovtagning
Översampling är inget annat än att duplicera antalet poster som tillhör de klasser som har mycket låg närvaro . I exemplet ovan hade vi nio poster som hör till kategorin “Hit” och endast 1 post som tillhör kategorin “Flop”. Nu kan vi artificiellt öka antalet poster som tillhör kategorin ”Flop” genom att duplicera dess närvaro.
Här, Vi har artificiellt skapat ytterligare 5 poster som tillhör kategorin “Flop” så att skillnaden mellan antalet poster som tillhör båda klasserna kommer att minska. Detta är ett klassiskt exempel på översampling.
Underprovtagning är inget annat än att minska antalet poster som hör till de klasser som har en extremt hög närvaro jämfört till andra klasser.
Här har vi minskat antalet poster som tillhör “Hit” så att skillnaden mellan antalet poster som tillhör båda klasserna har minskat. Detta är ett klassiskt exempel på underprovtagning. Posterna för radering väljs strikt genom en slumpmässig process och påverkas inte av några begränsningar eller fördomar.
Hoppas att det hjälpte dig !!!