Beste Antwort
Während die ersten beiden Antworten so weit wie möglich korrekt sind, behandeln beide Stichprobenvariationen als Fehler. In diesem Fall ist der genauere Begriff für den Stichprobenfehler.
Die Stichprobenvariation ist einfach die Variation einer Statistik von Stichprobe zu Stichprobe. Sie kann durch Vergleichen der tatsächlichen Stichproben gemessen oder theoretisch entweder anhand des Wissens über die Daten oder anhand einer einzelnen Stichprobe geschätzt werden.
Ein Beispiel für einen Stichprobenfehler ist die Durchführung einer Umfrage zur Schätzung des Personenanteils wer wird für den demokratischen Kandidaten bei einer bevorstehenden Wahl stimmen. Sie möchten den wahren Bevölkerungsanteil kennen. Die Fraktion, die angibt, in Ihrer Stichprobe demokratisch zu stimmen, kann durch das Glück der Auslosung, dem Stichprobenfehler, von der tatsächlichen Bevölkerungsfraktion abweichen. Es kann sich auch aufgrund von Voreingenommenheit oder falsch aufgezeichneten Antworten oder anderen Problemen unterscheiden. Dies sind keine Stichprobenfehler.
Ein Beispiel für eine Stichprobenvariation, bei der es sich nicht um einen Stichprobenfehler handelt, ist ein Caterer, der versucht zu entscheiden, wie viel Lebensmittel pro Person mitgebracht werden soll zu Veranstaltungen. Sie interessiert sich nicht nur für den Mittelwert, sondern auch für die Stichprobenvariation. Natürlich wird es auch vorhersehbare Abweichungen von der Art der Veranstaltung, dem Alter der Gäste, der Tageszeit usw. geben. Aber selbst bei zwei Ereignissen, die bei allen gemessenen Kontrollfaktoren identisch sind, werden unterschiedliche Mengen an Lebensmitteln konsumiert.
Der Grund, warum der Caterer nicht nur den Mittelwert wissen möchte, ist, dass er strategische Entscheidungen treffen kann. Zum Beispiel könnte sie das teure und verderbliche Essen nur mitbringen, um den minimal wahrscheinlichen Appetit der Menge zu stillen, dann etwas billigeres und länger anhaltendes Essen herausbringen, wenn es notwendig erscheint, und vielleicht ein nicht verderbliches Notfall-Backup-Essen hinein Wenn die Menge extrem hungrig ist.
Antwort
Über- und Unterabtastung sind zwei wichtige Techniken, die beim maschinellen Lernen verwendet werden – Klassifizierungsprobleme in der Reihenfolge
Die Klassifizierung ist nichts anderes als die Vorhersage der Kategorie eines Datenpunkts, zu dem er wahrscheinlich gehört, indem man sich mit früheren Merkmalen ähnlicher Instanzen vertraut macht, um das Klassenungleichgewicht zu verringern und dadurch die Genauigkeit des Modells zu erhöhen.
Zum Beispiel
- Vorhersagen, ob eine Person männlich oder weiblich ist
- Vorhersage, ob ein Bankkunde in der Lage ist, das Darlehen zurückzuzahlen oder nicht.
- Vorhersagen, was Bei einer E-Mail handelt es sich um Spam oder Anti-Spam usw.
Die Vorhersagefähigkeit wird durch das Modell erreicht, indem viele ähnliche Fälle in der Vergangenheit unter der Annahme untersucht werden, dass etwas passiert in der Zukunft passieren wird ein Spiegelbild der Vergangenheit sein. Insbesondere bei Klassifizierungsproblemen wird jede Kategorie als Klasse bezeichnet.
Wenn wir vorhersagen möchten, ob eine Person männlich oder weiblich ist, wird „männlich“ als Klasse und „weiblich“ betrachtet Wird auch als Klasse betrachtet. Während Sie anhand der vergangenen Instanzen etwas über die Merkmale dieser Klassen lernen, sollten sie für die Entwicklung eines hochpräzisen Modells ungefähr gleichmäßig voneinander getrennt sein.
Mit anderen Worten, wenn das Modell die Fähigkeit benötigt, das Geschlecht von a vorherzusagen Person dann sollte es diese Fähigkeit aus mindestens 1000 Aufzeichnungen in der Vergangenheit lernen, in denen sowohl Männer als auch Frauen eine etwas gleiche Beteiligung haben sollten. Wenn die Klassentrennung nicht ungefähr gleich ist, kann dies als „ Klassenungleichgewicht “ bezeichnet werden.
Ich werde versuchen, dies zu erklären Dies anhand eines Beispiels:
Nehmen wir an, wir haben ein Problem mit der binären Klassifizierung, um vorherzusagen, ob ein Film ein Hit oder ein Flop sein wird.
Wir haben die folgenden Funktionen als unabhängige Variablen:
- Dauer (in Minuten)
- Genre
- Veröffentlichungsmonat
Unsere Daten sehen folgendermaßen aus (Beispiel 1) –
Meistens lernt unser Modell für maschinelles Lernen Die folgenden Schlussfolgerungen aus diesen Daten –
- Filme, die in den Monaten April bis Mai veröffentlicht wurden, waren erfolgreich.
- Filme des Comedy-Genres waren größtenteils erfolgreich.
-
Filme, die zum Horror-Genre gehören, waren größtenteils Fehlschläge.
- Filme, die im Juni veröffentlicht wurden- Die Juli-Monate waren nicht so erfolgreich.
Also,
Was wird die Vorhersage sein? Unser Modell, wenn ein neuer Comedy-Film im April veröffentlicht wird?
Es wird als Erfolg vorausgesagt, da die Wahrscheinlichkeit groß ist, dass dieser Film einen guten Geldbetrag an der Box einbringt Büro, da alle Comedy-Filme, die in der Vergangenheit von April bis Mai veröffentlicht wurden, erfolgreich waren.
Wie wird unser Modell vorausgesagt, wenn im Juli ein neuer Horrorfilm veröffentlicht wird?
Unsere Das Modell wird es als Flop vorhersagen, da bisher keine Horrorfilme von früheren Daten erfolgreich waren, und das auch im Juli, in dem sich das Publikum nie in Theater verwandelt hat.
Diese Vorhersagefähigkeit des Modells kam ins Bild, weil es in der Lage war, die Eigenschaften eines erfolgreichen und fehlgeschlagenen Films bereits vor der Veröffentlichung von der Erfahrung der Untersuchung der Vergangenheit zu unterscheiden.
Jetzt Nehmen wir an, wir haben unsere Eingabedaten für das Modell wie folgt (Beispiel 2) –
Hier 90\% unserer früheren Daten gehören zu den Merkmalen von Erfolgsfilmen, und nur 10\% der Datensätze sind vorhanden, um mehr über die Merkmale eines Flop-Films zu erfahren. Wenn wir ein Modell mit erstellen Die obigen Daten (Beispiel 2) glauben Sie dann, dass es wi Können Sie eine gute Vorhersage machen?
Nein.
Sehen wir uns die Gründe im Detail an,
Wie wird unser Modell vorhergesagt, wenn im Juli ein neuer Horrorfilm veröffentlicht wird?
Hier gibt es keine Garantie dafür, dass das Modell die richtige Vorhersage liefert (Flop), weil es nicht genug über die Eigenschaften eines Flop-Films lernen konnte.
Nehmen wir an, Sie haben einen Horrorfilm für 100 Millionen US-Dollar produziert und das Erscheinungsdatum auf den 22. Juni 2021 festgelegt. Jetzt Sie möchten wissen, was das mögliche Ergebnis dieses Films an der Abendkasse sein wird.
Wenn Sie das Modell also mit Sample -1 ausgeführt haben , das die gleichmäßige Trennung der Klassen enthält (Hit / Flop), dann hätte es das Ergebnis als „Flop“ vorhergesagt (was tatsächlich korrekt ist). In diesem Fall hätten Sie Vorsichtsmaßnahmen treffen können, wenn ein Fehler wie
- Ändern des Veröffentlichungsdatums möglich wäre
- Steigerung der Werbung und Publizität des Films
- Veröffentlichung eines neuen Trailers des Films zur Erhöhung des Hype usw.
Wenn Sie jedoch Sample – 2
Der eigentliche Grund für die falsche Vorhersage für das Modell mit Sample-2 ist, dass es nicht verstehen konnte, dass ein Film im Juni veröffentlicht wurde und das auch in Das Genre des Horrors hat eine sehr geringe Wahrscheinlichkeit, an der Abendkasse erfolgreich zu werden, da es in seinen Lerndaten keine ähnlichen Beispiele gibt.
Diese ungleichmäßigen Anwesenheitsaufzeichnungen in einem Datensatz mit einer sehr geringen Anzahl für einige der Klassen und einer extrem hohen Anzahl für die übrigen Klassen werden als Klassenungleichgewicht bezeichnet.
Wie kann dieses Szenario überwunden werden?
Es gibt zwei Hauptmethoden:
- Überabtastung
- Unterabtastung
Oversampling ist nichts anderes als das Duplizieren der Anzahl der Datensätze, die zu den Klassen gehören, die eine sehr geringe Präsenz aufweisen. . Im obigen Beispiel hatten wir 9 Datensätze, die zur Kategorie „Hit“ gehörten, und nur 1 Datensatz, der zur Kategorie „Flop“ gehörte. Jetzt können wir die Anzahl der zur Kategorie „Flop“ gehörenden Datensätze künstlich erhöhen, indem wir ihre Anwesenheit duplizieren.
Hier, Wir haben künstlich 5 weitere Datensätze erstellt, die zur Kategorie „Flop“ gehören, damit sich der Unterschied zwischen der Anzahl der Datensätze, die zu beiden Klassen gehören, verringert. Dies ist ein klassisches Beispiel für Überabtastung.
Unterabtastung ist nichts anderes als die Reduzierung der Anzahl der Datensätze, die zu den Klassen gehören, die im Vergleich eine extrem hohe Präsenz aufweisen auf andere Klassen.
Hier haben wir die Anzahl der zu „Hit“ gehörenden Datensätze reduziert, so dass Der Unterschied zwischen der Anzahl der Datensätze, die zu beiden Klassen gehören, hat sich verringert. Dies ist ein klassisches Beispiel für eine Unterabtastung. Die Datensätze für das Löschen werden streng zufällig ausgewählt und nicht durch Einschränkungen oder Verzerrungen beeinflusst.
Hoffe, es hat Ihnen geholfen !!!