Quest-ce que la variation déchantillonnage? Quels sont des exemples de cela?

Meilleure réponse

Bien que les deux premières réponses soient correctes dans la mesure où elles vont, elles traitent toutes deux la variation déchantillonnage comme une erreur. Dans ce cas, le terme plus précis derreur déchantillonnage.

La variation déchantillonnage est simplement la variation dune statistique dun échantillon à lautre. Elle peut être mesurée en comparant des échantillons réels, ou elle peut être estimée théoriquement soit à partir de la connaissance des données, soit à partir dun seul échantillon.

Un exemple derreur déchantillonnage consiste à effectuer un sondage pour estimer la fraction de personnes qui votera pour le candidat démocrate lors dune prochaine élection. Vous voulez connaître la vraie fraction de population. La fraction qui dit voter démocrate dans votre échantillon peut différer de la vraie fraction de population par la chance du tirage au sort, cest-à-dire une erreur déchantillonnage. Cela peut également différer en raison de biais ou de réponses mal enregistrées ou dautres problèmes, ce ne sont pas des erreurs déchantillonnage.

Un exemple de variation déchantillonnage qui nest pas une erreur déchantillonnage est un traiteur essayant de décider de la quantité de nourriture à apporter par personne aux événements. Elle ne sintéresse pas seulement à la valeur moyenne, mais à la variation déchantillonnage. Bien sûr, il y aura également des variations prévisibles par rapport à des éléments tels que le type dévénement, lâge des invités, lheure de la journée, etc. Mais même pour deux événements qui sont identiques sur tous les facteurs de contrôle mesurés, différentes quantités de nourriture seront consommées.

La raison pour laquelle le traiteur ne veut pas simplement connaître le moyen est quelle peut faire des choix stratégiques. Par exemple, elle pourrait apporter les aliments chers et périssables uniquement pour servir lappétit minimum probable de la foule, puis avoir des aliments moins chers et plus durables à sortir si cela semble nécessaire, et peut-être des aliments non périssables de secours durgence en cas où la foule a extrêmement faim.

Réponse

Le suréchantillonnage et le sous-échantillonnage sont 2 techniques importantes utilisées dans lapprentissage automatique – problèmes de classification dans lordre pour réduire le déséquilibre de classe, augmentant ainsi la précision du modèle.

La classification nest rien dautre que la prédiction de la catégorie dun point de données auquel il pourrait probablement appartenir en apprenant les caractéristiques passées dinstances similaires.

Par exemple,

  • Prédire si une personne est un homme ou une femme
  • Prédire si un client de banque est en mesure de rembourser le prêt ou non.
  • Prédire où e-mail est un spam ou un anti-spam, etc.

La capacité prédictive est acquise par le modèle en examinant de nombreuses instances similaires dans le passé en supposant que quelque chose va se produire dans le futur sera le reflet du passé. Désormais, en particulier dans les problèmes de classification, chaque catégorie est appelée classe.

Disons que si nous voulons prédire si une personne est un homme ou une femme, alors «Homme» sera considéré comme une classe et «Femme »Sera également considéré comme une classe. Tout en apprenant les caractéristiques de ces classes en utilisant les instances passées, elles doivent être à peu près égales pour développer un modèle très précis.

En dautres termes, si le modèle a besoin dune capacité à prédire le sexe dun personne, alors il devrait apprendre cette capacité dau moins des milliers denregistrements dans le passé où les hommes et les femmes devraient avoir une participation à peu près égale. Si la ségrégation des classes nest pas à peu près égale, elle peut être qualifiée de problème de «  Déséquilibre des classes « .

Je vais essayer dexpliquer ceci avec un exemple-

Considérons que nous avons un problème de classification binaire pour prédire si un film sera un hit ou un flop.

Nous avons les caractéristiques suivantes comme variables indépendantes-

  • Durée (en minutes)
  • Genre
  • Mois de sortie

Nos données ressemblent à ceci (Exemple 1) –

La plupart du temps, notre modèle dapprentissage automatique apprendra les inférences suivantes à partir de ces données –

  • Les films sortis en avril-mai ont été couronnés de succès.
  • Les films appartenant au genre comique ont surtout connu un succès.
  • Les films appartenant au genre dhorreur étaient pour la plupart des échecs.

  • Films sortis en juin- Les mois de juillet nont pas été aussi réussis.

Donc,

Quelle sera la prédiction de notre modèle si un nouveau film humoristique sort en avril?

Il sera prédit comme un succès car il y a de fortes chances que ce film rapporte une bonne somme dargent à la boîte bureau depuis tous les films comiques sortis en avril-mai mois dans le passé ont été couronnés de succès.

Quelle sera la prédiction de notre modèle si un nouveau film dhorreur sort en juillet?

Notre modèle le prédira comme un flop car aucun film dhorreur na été réussi jusquà présent par rapport aux données passées et cela aussi au mois de juillet où le public ne sest jamais transformé en salles.

Cette capacité prédictive du modèle est venue dans limage car il était capable de différencier les caractéristiques dun film réussi et échoué avant même la sortie de lexpérience de lexamen de lhistoire passée.

Maintenant , considérons que nous avons nos données dentrée dans le modèle comme suit (Exemple 2) –

Ici , 90\% de nos données passées appartiennent aux caractéristiques des films à succès et seuls 10\% des enregistrements sont présents pour connaître les caractéristiques dun film flop. Si nous créons un modèle en utilisant les données ci-dessus (échantillon-2) alors pensez-vous quil wi Serez-vous capable de donner une bonne prédiction?

Non.

Voyons les raisons en profondeur,

Quelle sera la prédiction de notre modèle si un nouveau film dhorreur sort en juillet?

Ici, rien ne garantit que le modèle donnera la bonne prédiction (flop) parce quil na pas pu en apprendre suffisamment sur les caractéristiques dun film flop.

Disons que vous avez produit un film dhorreur pour 100 millions de dollars et que vous avez fixé la date de sortie au 22 juin 2021. Maintenant , vous voulez savoir quel sera le résultat possible de ce film au box-office.

Donc, si vous avez exécuté le modèle avec Sample -1 qui contient la séparation paire des classes (Hit / Flop) alors il aurait prédit le résultat comme « Flop » (ce qui est en fait correct). Si tel est le cas, vous auriez pu prendre des précautions en fonction de la possibilité dun échec comme-

  • Changer la date de sortie
  • Augmenter la publicité et la publicité du film
  • Sortie dune nouvelle bande-annonce du film pour augmenter le battage médiatique, etc.

Mais, si vous avez utilisé Sample – 2 dans le modèle alors il aurait prédit le résultat comme hit et ainsi vous auriez sorti le film à une date fixe (22 juin) et il pourrait ont fini comme un flop entraînant la perte.

La vraie raison de la mauvaise prédiction pour le modèle avec Sample-2 est quil na pas été en mesure de comprendre quun film sortant au mois de juin et cela aussi le genre de lhorreur a une très faible probabilité de réussir au box-office en raison du manque dexemples similaires dans ses données dapprentissage.

Ces enregistrements de présence inégale dans un ensemble de données avec un nombre très faible pour certaines des classes et un nombre extrêmement élevé pour le reste des classes sont appelés un déséquilibre de classe.

/ span>

Comment surmonter ce scénario?

Il y a 2 façons principales-

  • Suréchantillonnage
  • Sous-échantillonnage

Le suréchantillonnage nest rien dautre que la duplication du nombre denregistrements appartenant à ces classes qui ont une très faible présence . Dans lexemple ci-dessus, nous avions 9 enregistrements appartenant à la catégorie «Hit» et un seul enregistrement appartenant à la catégorie «Flop». Désormais, nous pouvons augmenter artificiellement le nombre denregistrements appartenant à la catégorie «Flop» en dupliquant sa présence.

Ici, nous avons créé artificiellement 5 enregistrements supplémentaires appartenant à la catégorie «Flop» afin que la différence entre les nombres denregistrements appartenant aux deux classes se rétrécisse. Ceci est un exemple classique de suréchantillonnage.

Le sous-échantillonnage nest rien dautre que la réduction du nombre denregistrements appartenant à ces classes qui ont une présence extrêmement élevée par rapport à dautres classes.

Ici, nous avons réduit le nombre denregistrements appartenant à « Hit » afin que la différence entre le nombre denregistrements appartenant aux deux classes sest rétrécie. Cest un exemple classique de sous-échantillonnage. Les enregistrements pour la suppression sont sélectionnés strictement par un processus aléatoire et ne sont influencés par aucune contrainte ou biais.

Jespère que cela vous a aidé !!!

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *