Migliore risposta
Sebbene le prime due risposte siano corrette fino in fondo, entrambe trattano la variazione di campionamento come errore. In tal caso, il termine più preciso in errore di campionamento.
Variazione campionaria è semplicemente la variazione in una statistica da campione a campione. Può essere misurato confrontando campioni effettivi, oppure può essere stimato teoricamente dalla conoscenza dei dati o da un singolo campione.
Un esempio di errore di campionamento è lesecuzione di un sondaggio per stimare la frazione di persone che voterà per il candidato democratico alle prossime elezioni. Vuoi conoscere la vera frazione di popolazione. La frazione che afferma che voterà Democratico nel tuo campione può variare dalla frazione di popolazione reale per la fortuna del sorteggio, ovvero lerrore di campionamento. Può anche differire a causa di pregiudizi, risposte errate o altri problemi, quelli non sono errori di campionamento.
Un esempio di variazione di campionamento che non è un errore di campionamento è un catering che cerca di decidere quanto cibo portare a persona agli eventi. Non è interessata solo al valore medio, ma alla variazione di campionamento. Ovviamente ci saranno anche variazioni prevedibili da cose come il tipo di evento, letà degli ospiti, lora del giorno e così via. Ma anche per due eventi identici su tutti i fattori di controllo misurati, verranno consumate quantità diverse di cibo.
Il motivo per cui il ristoratore non vuole sapere solo il motivo è che può fare scelte strategiche. Ad esempio, potrebbe portare il cibo costoso e deperibile solo per servire il minimo appetito probabile della folla, quindi avere del cibo meno costoso e di lunga durata da portare fuori se necessario, e forse del cibo non deperibile di emergenza in caso la folla è estremamente affamata.
Risposta
Il sovracampionamento e il sottocampionamento sono 2 tecniche importanti utilizzate nellapprendimento automatico: problemi di classificazione in ordine per ridurre lo squilibrio di classe aumentando in tal modo laccuratezza del modello.
La classificazione non è altro che prevedere la categoria di un punto dati a cui potrebbe appartenere imparando le caratteristiche passate di istanze simili.
Ad esempio,
- Predire se una persona è maschio o femmina
- Prevedere se un cliente di banca è in grado di rimborsare il prestito o meno.
- Predire cosa er una mail è uno spam o un anti-spam ecc.
Labilità predittiva viene acquisita dal modello esaminando molti casi simili in passato partendo dal presupposto che qualcosa va accadrà in futuro sarà un riflesso del passato. Ora, specialmente nei problemi di classificazione, ogni categoria è nota come classe.
Diciamo che, se vogliamo prevedere se una persona è maschio o femmina, “Maschio” sarà considerato come una classe e “Femmina “Sarà anche considerato come una classe. Durante lapprendimento delle caratteristiche di queste classi utilizzando le istanze passate, dovrebbero trovarsi in una separazione approssimativamente uniforme per lo sviluppo di un modello estremamente accurato.
In altre parole, se il modello necessita della capacità di prevedere il sesso di un persona allora dovrebbe imparare questa capacità da almeno migliaia di record in passato in cui sia i maschi che le femmine dovrebbero avere una partecipazione in qualche modo uguale. Se la segregazione delle classi non è approssimativamente uguale, può essere definita come un problema di “ Squilibrio di classi “.
Cercherò di spiegare questo con un esempio-
Consideriamo che abbiamo un problema di classificazione binaria per prevedere se un film sarà un successo o un flop.
Abbiamo le seguenti caratteristiche come variabili indipendenti-
- Durata (in minuti)
- Genere
- Mese di rilascio
I nostri dati hanno questo aspetto (esempio 1) –
Per lo più il nostro modello di machine learning imparerà le seguenti deduzioni da questi dati:
- I film usciti nei mesi di aprile-maggio hanno avuto successo.
- I film appartenenti al genere comico hanno avuto maggior successo.
-
I film appartenenti al genere horror sono stati per lo più fallimenti.
- Film usciti a giugno- I mesi di luglio non hanno avuto tanto successo.
Quindi,
Quale sarà la previsione di il nostro modello se un nuovo film commedia uscirà nel mese di aprile?
Sarà previsto come un successo perché cè unalta probabilità che questo film incassi una buona quantità di denaro alla scatola carica poiché tutti i film commedia usciti nel mese di aprile-maggio in passato hanno avuto successo.
Quale sarà la previsione del nostro modello se un nuovo film horror uscirà nel mese di luglio?
Il nostro il modello lo predirà come un flop perché nessun film dellorrore ha avuto successo finora dai dati passati e anche questo nel mese di luglio in cui il pubblico non si è mai trasformato in cinema.
Questa capacità predittiva del modello è arrivata nellimmagine perché è stato in grado di differenziare le caratteristiche di un film di successo e di fallimento anche prima delluscita dallesperienza di esame della storia passata.
Ora , consideriamo di avere i nostri dati di input per il modello come segue (Esempio 2) –
Qui , Il 90\% dei nostri dati passati appartiene alle caratteristiche dei film di successo e solo il 10\% dei record è presente per conoscere le caratteristiche di un film flop. Se creiamo un modello utilizzando i dati di cui sopra (campione-2) quindi pensi che wi sarai in grado di fare una buona previsione?
No.
Vediamo i motivi in modo approfondito,
Quale sarà la previsione del nostro modello se un nuovo film dellorrore uscirà nel mese di luglio?
Qui, non vi è alcuna garanzia che il modello fornirà la previsione corretta (flop) perché non è stato in grado di imparare abbastanza sulle caratteristiche di un film flop.
Supponiamo che tu abbia prodotto un film horror per $ 100 milioni e abbia fissato la data di uscita al 22 giugno 2021. Ora , vuoi sapere quale sarà il possibile risultato di questo film al botteghino.
Quindi, se hai eseguito il modello con Esempio -1 che contiene la separazione uniforme delle classi (Hit / Flop) allora avrebbe previsto il risultato come “Flop” (che è effettivamente corretto). In tal caso, avresti potuto prendere precauzioni in base alla possibilità di un errore come:
- Modifica della data di rilascio
- Aumento della pubblicità e della pubblicità del film
- Pubblicazione di un nuovo trailer del film per aumentare lhype ecc.
Ma, se hai utilizzato Sample – 2 nel modello allora avrebbe previsto il risultato come hit e quindi avresti rilasciato il film in una data fissa (22 giugno) e potrebbe sono finiti come un flop che ha subito la perdita.
La vera ragione per la previsione sbagliata per il modello con Sample-2 è che non è stato in grado di capire che un film in uscita nel mese di giugno e anche in il genere horror ha una probabilità molto bassa di avere successo al botteghino a causa della mancanza di esempi simili nei suoi dati di apprendimento.
Questa presenza irregolare registra in un set di dati con un conteggio molto basso per alcune classi e un conteggio estremamente alto per il resto delle classi è chiamata squilibrio di classe.
Come superare questo scenario?
Ci sono 2 modi principali:
- Sovracampionamento
- Sottocampionamento
Loversampling non è altro che la duplicazione del numero di record appartenenti a quelle classi che hanno una presenza molto bassa . Nellesempio precedente, avevamo 9 record appartenenti alla categoria “Hit” e solo 1 record appartenente alla categoria “Flop”. Ora possiamo aumentare artificialmente il numero di record appartenenti alla categoria “Flop” duplicandone la presenza.
Qui, abbiamo creato artificialmente altri 5 record appartenenti alla categoria “Flop” in modo che la differenza tra il numero di record appartenenti ad entrambe le classi si restringa. Questo è un classico esempio di sovracampionamento.
Il sottocampionamento non è altro che ridurre il numero di record appartenenti a quelle classi che hanno una presenza estremamente elevata rispetto ad altre classi.
Qui abbiamo ridotto il numero di record appartenenti a “Hit” in modo che la differenza tra il numero di record appartenenti a entrambe le classi si è ridotta. Questo è un classico esempio di sottocampionamento. I record per leliminazione vengono selezionati rigorosamente attraverso un processo casuale e non sono influenzati da alcun vincolo o pregiudizio.
Spero che ti sia stato daiuto !!!