Co je variace vzorkování? Jaké jsou příklady toho?

Nejlepší odpověď

I když jsou první dvě odpovědi správné, obě považují variantu vzorkování za chybu. V takovém případě je přesnější výraz v chybě vzorkování.

Varianta vzorkování je jednoduše variace ve statistice od vzorku k vzorku. Lze ji měřit porovnáním skutečných vzorků, nebo ji lze odhadnout teoreticky buď ze znalostí o datech, nebo z jediného vzorku.

Příkladem chyby ve výběru je dotazování k odhadu podílu lidí kdo bude v nadcházejících volbách hlasovat pro demokratického kandidáta. Chcete znát skutečný zlomek populace. Zlomek, který říká, že bude ve vašem vzorku hlasovat jako demokratický, se může lišit od skutečného populačního zlomku po štěstí losování, což je chyba vzorkování. Může se také lišit v důsledku zaujatosti nebo chybně zaznamenaných odpovědí nebo jiných problémů, nejedná se o chybu vzorkování.

Příkladem varianty variace, která není chybou vzorkování, je kuchař, který se snaží rozhodnout, kolik jídla přinese na osobu na události. Nezajímá ji jen průměrná hodnota, ale také variace vzorkování. Samozřejmě budou existovat také předvídatelné odchylky od věcí, jako je typ akce, věk hostů, denní doba atd. Ale i při dvou událostech, které jsou identické u všech měřených kontrolních faktorů, se spotřebuje různé množství jídla.

Důvod, proč kuchař nechce vědět jen to, že může dělat strategická rozhodnutí. Například by mohla přinést drahé a rychle se kazící jídlo, aby sloužila minimálně pravděpodobné chuti davu, a pak si nechat přinést nějaké levnější a trvanlivější jídlo, pokud to bude nutné, a možná nějaké nouzové záložní nezranitelné jídlo v v případě, že je dav extrémně hladový.

Odpověď

Převzorkování a podvzorkování jsou 2 důležité techniky používané při strojovém učení – problémy s klasifikací v pořadí snížit nerovnováhu třídy a tím zvýšit přesnost modelu.

Klasifikace není nic jiného než předpovídání kategorie datového bodu, ke kterému pravděpodobně patří, učením se o minulých charakteristikách podobných případů.

Například

  • Předpovídání, zda je člověk muž nebo žena
  • Předpovídání, zda je zákazník banky schopen splácet úvěr či nikoli.
  • Předpovídání čehokoliv e mail je spam nebo anti-spam atd.

Prediktivní schopnost model získává zkoumáním mnoha podobných případů v minulosti za předpokladu, že se něco stane v budoucnu bude odrazem minulosti. Nyní, zejména při problémech s klasifikací, je každá kategorie známá jako třída.

Řekněme, že pokud chceme předpovědět, zda je člověk muž nebo žena, bude za třídu považován „Muž“ a „Žena“ “Bude také považován za třídu. Zatímco se učí o charakteristikách těchto tříd pomocí minulých instancí, měly by být přibližně rovnoměrně odděleny pro vývoj vysoce přesného modelu.

Jinými slovy, pokud model potřebuje schopnost předpovědět pohlaví člověk by se měl tuto schopnost naučit z nejméně 1 000 záznamů z minulosti, kde by měli mít muži i ženy poněkud stejnou účast. Pokud segregace tříd není přibližně stejná, lze ji označit jako problém „ Nerovnováha třídy „.

Pokusím se vysvětlit to s příkladem –

Uvažujme, že máme problém s binární klasifikací, abychom mohli předpovědět, zda bude film hitem nebo flopem.

Následující funkce máme jako nezávislé proměnné-

  • Doba trvání (v minutách)
  • Žánr
  • Měsíc vydání

Naše data vypadají takto (Ukázka 1) –

Většinou se náš model strojového učení naučí následující závěry z těchto dat –

  • Filmy, které byly vydány v dubnu až květnu, byly úspěšné.
  • Filmy patřící do žánru komedie byly většinou úspěšné.
  • Filmy patřící do hororového žánru byly většinou neúspěchy.

  • Filmy, které byly vydány v červnu – Červencové měsíce nebyly tak úspěšné.

Takže,

Jaká bude předpověď náš model, pokud se v dubnu objeví nový komediální film?

Bude to předpovězeno jako hit, protože existuje velká šance, že tento film vydělá dobrou částku peněz kancelář, protože všechny komediální filmy vydané v dubnu až květnu v minulosti byly úspěšné.

Jaká bude předpověď našeho modelu, pokud se v červenci objeví nový horor?

Náš model to předpovídá jako propadák, protože zatím žádné hororové filmy nebyly úspěšné z minulých dat, a to také v červenci, kdy se diváci nikdy nezměnili v kina.

Tato prediktivní schopnost modelu přišla do obrazu, protože dokázal rozlišit vlastnosti úspěšného a neúspěšného filmu ještě před vydáním na základě zkušeností s prozkoumáním minulé historie.

Nyní uvažujme, že máme naše vstupní data do modelu takto (ukázka 2) –

zde , 90\% našich minulých dat patří k charakteristice úspěšných filmů a pouze 10\% záznamů je k dispozici, abychom se dozvěděli o vlastnostech flopového filmu. Pokud vytvoříme model pomocí výše uvedená data (Ukázka 2), pak si myslíte, že wi Dokážete dobře předpovědět?

Ne.

Podívejme se podrobně na důvody,

Jaká bude předpověď našeho modelu, pokud se nový horor objeví v červencovém měsíci?

Tady neexistuje záruka, že model poskytne správnou předpověď (flop), protože se nedokázal dostatečně naučit o vlastnostech flopového filmu.

Řekněme, že jste vyrobili horor za 100 milionů dolarů a datum vydání stanovili na 22. června 2021. Nyní , chcete vědět, jaký bude možný výsledek tohoto filmu u pokladny.

Takže pokud jste model spustili s Ukázka -1 který obsahuje rovnoměrné oddělení tříd (Hit / Flop), pak by výsledek předpověděl jako „Flop“ (což je ve skutečnosti správné). Pokud ano, byli byste schopni přijmout preventivní opatření podle možnosti selhání, jako je

  • Změna data vydání
  • Zvyšování reklamy a publicity filmu
  • Vydání nové upoutávky na film pro zvýšení humbuku atd.

Pokud jste ale použili Ukázka – 2 v modelu by pak výsledek předpověděl jako hit, a tím byste film pustili ve stanoveném datu (22. června) a mohlo by skončily jako flop, který utrpěl ztrátu.

Skutečným důvodem nesprávné predikce modelu se Sample-2 je, že nebyl schopen pochopit, že film vyjde v červnu a také v žánr hororu má velmi nízkou pravděpodobnost úspěchu v pokladně kvůli nedostatku podobných příkladů v jeho učebních datech.

Tyto nerovnoměrné záznamy o přítomnosti v datové sadě s velmi nízkým počtem pro některé třídy a extrémně vysokým počtem pro ostatní třídy se nazývají nevyváženost třídy.

Jak překonat tento scénář?

Existují 2 hlavní způsoby –

  • Převzorkování
  • nedostatečné vzorkování

Převzorkování není nic jiného než duplikování počtu záznamů patřících do těch tříd, které mají velmi nízkou přítomnost . Ve výše uvedeném příkladu jsme měli 9 záznamů patřících do kategorie „Hit“ a pouze 1 záznam patřící do kategorie „Flop“. Nyní můžeme uměle zvýšit počet záznamů patřících do kategorie „Flop“ duplikováním její přítomnosti.

Zde, uměle jsme vytvořili dalších 5 záznamů patřících do kategorie „Flop“, takže se rozdíl mezi počtem záznamů patřících do obou tříd zmenší. Toto je klasický příklad převzorkování.

Nedostatečné vzorkování není nic jiného než snížení počtu záznamů patřících k těm třídám, které jsou ve srovnání s extrémně vysokou přítomností do jiných tříd.

Zde jsme snížili počet záznamů patřících do „Hit“, takže rozdíl mezi počtem záznamů patřících do obou tříd se zmenšil. Toto je klasický příklad nedostatečného vzorkování. Záznamy pro odstranění jsou vybírány striktně náhodným procesem a nejsou ovlivněny žádnými omezeními ani zkreslením.

Doufám, že vám to pomohlo !!! rozpětí>

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *