Beste antwoord
Hoewel de eerste twee antwoorden zo ver mogelijk correct zijn, behandelen ze allebei de steekproefvariatie als een fout. In dat geval is de nauwkeurigere term in steekproeffout.
Steekproefvariatie is gewoon de variatie in een statistiek van steekproef tot steekproef. Het kan worden gemeten door werkelijke steekproeven te vergelijken, of het kan theoretisch worden geschat op basis van kennis over de gegevens of op basis van een enkele steekproef.
Een voorbeeld van een steekproeffout is het nemen van een peiling om het aantal mensen te schatten wie zal stemmen op de Democratische kandidaat bij een aanstaande verkiezing. U wilt de werkelijke bevolkingsfractie weten. De fractie die zegt dat ze Democratisch zullen stemmen in uw steekproef kan afwijken van de werkelijke bevolkingsfractie door het geluk van de trekking, dat is een steekproeffout. Het kan ook verschillen als gevolg van vooringenomenheid of verkeerd opgenomen antwoorden of andere problemen, dat zijn geen steekproeffouten.
Een voorbeeld van steekproevenvariatie die geen steekproeffout is, is een cateraar die probeert te beslissen hoeveel voedsel hij per persoon moet meenemen naar evenementen. Ze is niet alleen geïnteresseerd in de gemiddelde waarde, maar ook in de steekproefvariatie. Uiteraard zal er ook een voorspelbare variatie zijn van zaken als type evenement, leeftijden van de gasten, tijdstip enzovoort. Maar zelfs voor twee gebeurtenissen die identiek zijn op alle gemeten controlefactoren, zullen verschillende hoeveelheden voedsel worden geconsumeerd.
De reden dat de cateraar niet alleen het gemiddelde wil weten, is dat ze strategische keuzes kan maken. Ze zou bijvoorbeeld het dure en bederfelijke voedsel alleen kunnen meenemen om de minimaal waarschijnlijke eetlust van het publiek te dienen, en dan wat minder duur en langer houdbaar voedsel hebben om naar buiten te brengen als het nodig lijkt, en misschien wat niet-bederfelijk voedsel voor noodgevallen. voor het geval de menigte extreem honger heeft.
Antwoord
Overbemonstering en onderbemonstering zijn twee belangrijke technieken die worden gebruikt bij machine learning – classificatieproblemen om de klassenonbalans te verminderen, waardoor de nauwkeurigheid van het model toeneemt.
Classificatie is niets anders dan het voorspellen van de categorie van een gegevenspunt waartoe het waarschijnlijk behoort door te leren over vroegere kenmerken van vergelijkbare instanties.
Bijvoorbeeld
- Voorspellen of een persoon een man of een vrouw is
- Voorspellen of een bankklant in staat is de lening al dan niet terug te betalen.
- Voorspellen waar e-mail is een spam of anti-spam enz.
Het voorspellende vermogen wordt verkregen door het model door veel vergelijkbare gevallen in het verleden te onderzoeken in de veronderstelling dat iets gebeuren in de toekomst zal een weerspiegeling zijn van het verleden. Nu, vooral bij classificatieproblemen, staat elke categorie bekend als een klas.
Laten we zeggen dat als we willen voorspellen of een persoon een man of een vrouw is, dan wordt Man als een klasse beschouwd en Vrouw ”Wordt ook als een klas beschouwd. Terwijl ze de kenmerken van deze klassen leren aan de hand van eerdere voorbeelden, zouden ze ongeveer gelijk van elkaar moeten zijn om een zeer nauwkeurig model te ontwikkelen.
Met andere woorden, als het model het vermogen nodig heeft om het geslacht van een persoon, dan zou het deze vaardigheid moeten leren van ten minste duizenden records in het verleden waar zowel mannen als vrouwen een enigszins gelijke deelname zouden moeten hebben. Als de segregatie van klassen niet ongeveer gelijk is, kan dit worden aangeduid als een “ Class onbalans ” -probleem.
Ik zal proberen uit te leggen dit met een voorbeeld-
Laten we eens kijken dat we een binair classificatieprobleem hebben om te voorspellen of een film een hit of een flop zal zijn.
We hebben de volgende kenmerken als onafhankelijke variabelen:
- Duur (in minuten)
- Genre
- Release-maand
Onze gegevens zien er als volgt uit (voorbeeld 1) –
Meestal leert ons machine learning-model de volgende conclusies uit deze gegevens:
- Films die in de maanden april-mei zijn uitgebracht, zijn succesvol geweest.
- Films die tot het komische genre behoren, waren meestal succesvol.
-
Films die tot het horrorgenre behoren, waren meestal mislukkingen.
- Films die in juni zijn uitgebracht- De maanden juli waren niet zo succesvol.
Dus,
Wat zal de voorspelling zijn van ons model als er in april een nieuwe komedie wordt uitgebracht?
Het zal als een hit worden voorspeld omdat de kans groot is dat deze film een flinke som geld oplevert bij de kassa office sinds alle komische films die in het verleden in april-mei zijn uitgebracht, succesvol zijn geweest.
Wat wordt de voorspelling van ons model als er in juli een nieuwe horrorfilm wordt uitgebracht?
Onze model zal het als een flop voorspellen omdat er tot nu toe geen horrorfilms succesvol zijn geweest op basis van gegevens uit het verleden en ook in de maand juli, waar het publiek zichzelf nooit in theaters heeft veranderd.
Dit voorspellende vermogen van het model kwam in beeld omdat het de kenmerken van een succesvolle en mislukte film zelfs vóór de release kon onderscheiden van de ervaring van het onderzoeken van de geschiedenis.
Nu , laten we in overweging nemen dat we onze invoergegevens voor het model als volgt hebben (voorbeeld 2) –
Hier , 90\% van onze eerdere gegevens behoren tot de kenmerken van populaire films en slechts 10\% van de records is aanwezig om meer te weten te komen over de kenmerken van een flopfilm. Als we een model maken met de bovenstaande gegevens (Sample-2), dan denkt u dat het wi Zal ik een goede voorspelling kunnen doen?
Nee.
Laten we de redenen eens nader bekijken,
Wat wordt de voorspelling van ons model als er in juli een nieuwe horrorfilm wordt uitgebracht?
Hier is er geen garantie dat het model de juiste voorspelling zal geven (flop) omdat het niet in staat was om genoeg te leren over de kenmerken van een flopfilm.
Laten we zeggen dat je een horrorfilm hebt gemaakt voor $ 100 miljoen en de releasedatum hebt vastgesteld op 22 juni 2021. Nu , wil je weten wat het mogelijke resultaat zal zijn van deze film aan de kassa.
Dus als je het model hebt uitgevoerd met Sample -1 die de gelijkmatige scheiding van klassen (Hit / Flop) bevat, dan zou het de uitkomst hebben voorspeld als “Flop” (wat eigenlijk correct is). Als dat het geval was, had u voorzorgsmaatregelen kunnen nemen in verband met de mogelijkheid van een storing zoals-
- De releasedatum wijzigen
- De advertentie en publiciteit van de film vergroten
- Een nieuwe trailer van de film uitbrengen om de hype enz. Te vergroten.
Maar als je Sample – 2 in het model dan zou het de uitkomst als hit hebben voorspeld en daardoor zou je de film op een vaste datum (22 juni) hebben uitgebracht en het zou kunnen zijn op een flop geëindigd met verlies.
De eigenlijke reden voor de verkeerde voorspelling voor het model met Sample-2 is dat het niet kon begrijpen dat een film die in juni uitkwam en dat ook in het genre van horror heeft een zeer lage kans om succesvol te worden aan de kassa vanwege een gebrek aan vergelijkbare voorbeelden in de leergegevens.
Deze ongelijke aanwezigheidsrecords in een dataset met een zeer lage telling voor sommige klassen en een extreem hoge telling voor de rest van de klassen worden een klasseonbalans genoemd.
Hoe dit scenario te omzeilen?
Er zijn twee belangrijke manieren:
- Overbemonstering
- Onderbemonstering
Overbemonstering is niets anders dan het dupliceren van het aantal records dat behoort tot die klassen die zeer weinig aanwezig zijn . In het bovenstaande voorbeeld hadden we 9 records die tot de categorie “Hit” behoorden en slechts 1 record die tot de categorie “Flop” behoorden. Nu kunnen we het aantal records dat tot de categorie “Flop” behoort, kunstmatig verhogen door de aanwezigheid ervan te dupliceren.
Hier, we hebben kunstmatig nog 5 records gecreëerd die tot de categorie “Flop” behoren, zodat het verschil tussen het aantal records van beide klassen kleiner wordt. Dit is een klassiek voorbeeld van overbemonstering.
Onderbemonstering is niets anders dan het verminderen van het aantal records dat behoort tot die klassen die een extreem hoge aanwezigheid hebben in vergelijking met naar andere klassen.
Hier hebben we het aantal records dat bij “Hit” hoort verminderd, zodat het verschil tussen het aantal records dat tot beide klassen behoort, is kleiner geworden. Dit is een klassiek voorbeeld van onderbemonstering. De records voor het verwijderen worden strikt geselecteerd via een willekeurig proces en worden niet beïnvloed door enige beperking of vooringenomenheid.
Ik hoop dat het je heeft geholpen !!!