Mitä näytteenottovariaatio on? Mitä esimerkkejä tästä on?

Paras vastaus

Vaikka kaksi ensimmäistä vastausta ovatkin oikeita, ne molemmat käsittelevät näytteenottomuunnoksia virheinä. Siinä tapauksessa tarkempi termi näytteenottovirheessä.

Näytteenottovariaatio on yksinkertaisesti vaihtelu tilastossa näytteestä toiseen. Se voidaan mitata vertaamalla todellisia otoksia, tai se voidaan arvioida teoreettisesti joko tiedoista tiedoista tai yhdestä näytteestä.

Esimerkki näytteenottovirheestä on kyselyn tekeminen ihmisten osuuden arvioimiseksi. kuka äänestää demokraattista ehdokasta tulevissa vaaleissa. Haluat tietää todellisen väestöosuuden. Murtoluku, joka sanoo äänestävänsä demokraattiseksi otoksessasi, voi vaihdella todellisesta väestöosuudesta arvonnan onnen perusteella, se on otantavirhe. Se voi myös erota puolueellisuudesta, väärin kirjatuista vastauksista tai muista ongelmista, jotka eivät ole otantavirheitä.

Esimerkki näytteenottomuunnelmasta, joka ei ole näytevirhe, on ateriapalveluyritys, joka yrittää päättää, kuinka paljon ruokaa tuoda per henkilö tapahtumiin. Häntä ei kiinnosta pelkästään keskiarvo, vaan näytteen vaihtelu. Tietysti on myös ennustettavissa olevaa vaihtelua esimerkiksi tapahtuman tyypistä, vieraiden iästä, vuorokaudesta ja niin edelleen. Mutta jopa kahdessa tapahtumassa, jotka ovat identtisiä kaikilla mitatuilla kontrollitekijöillä, kulutetaan erilaisia ​​ruokamääriä.

Syynä pitopalvelu ei halua tietää vain keskiarvoa, koska hän voi tehdä strategisia valintoja. Hän saattaa esimerkiksi tuoda kalliita ja pilaantuvia elintarvikkeita vain vähimmäis todennäköisen väkijoukon palvelemiseen, sitten saada joitain halvempia ja pidempikestoisempia ruokia, jotta se voidaan tuoda esiin, jos se näyttää tarpeelliselta, ja ehkä jotain hätätilanteessa olevaa pilaantumatonta ruokaa tapauksessa, että väkijoukko on äärimmäisen nälkäinen.

Vastaus

Ylimääräinen näytteenotto ja alinäytteenotto ovat 2 tärkeätä tekniikkaa koneoppimisessa – luokitusongelmat järjestyksessä vähentää luokan epätasapainoa ja lisätä siten mallin tarkkuutta.

Luokittelu ei ole muuta kuin ennustaa tietopisteen luokka, johon se todennäköisesti kuuluu kuulemalla vastaavien instanssien aiemmista ominaisuuksista.

Esimerkiksi

  • Ennustetaan onko mies mies vai nainen
  • Ennakoidaan, pystyykö pankkiasiakas maksamaan lainaa takaisin.
  • Ennustaminen mitä Sähköposti on roskapostia tai roskapostia jne.

Ennakoiva kyky saadaan mallilla tutkimalla monia aikaisempia vastaavia tapauksia olettaen, että jotain menee tapahtuu tulevaisuudessa, heijastaa menneisyyttä. Nyt, etenkin luokitusongelmissa, jokainen luokka tunnetaan luokkana.

Oletetaan, että jos haluamme ennustaa onko mies mies vai nainen, niin “Mies” katsotaan luokaksi ja ”Nainen ”Pidetään myös luokassa. Kun opit näiden luokkien ominaisuuksista aikaisempien instanssien avulla, niiden tulisi olla suunnilleen tasaisesti erillisen mallin kehittämiseksi.

Toisin sanoen, jos malli tarvitsee kyvyn ennustaa sukupuolen sukupuoli Sen jälkeen sen tulisi oppia tämä kyky vähintään tuhannesta aikaisemmasta tietueesta, jossa sekä miehillä että naisilla tulisi olla jonkin verran osallistuminen. Jos luokkien erottelu ei ole suunnilleen yhtä suuri, sitä voidaan kutsua ongelmaksi ” luokan epätasapaino ”.

Yritän selittää tämä esimerkin avulla-

Otetaan huomioon, että meillä on binääriluokitteluongelma ennustaa onko elokuva osuma vai floppi.

Meillä on seuraavat ominaisuudet itsenäisinä muuttujina-

  • Kesto (minuutteina)
  • Lajityyppi
  • Julkaisuvuosi

Tietomme näyttävät tältä (näyte 1) –

Lähinnä koneoppimismallimme oppii seuraavat johtopäätökset näistä tiedoista-

  • Huhti-toukokuussa julkaistut elokuvat ovat onnistuneet.
  • Komedialajiin kuuluvat elokuvat onnistuivat enimmäkseen.
  • Kauhuelokuvaan kuuluvat elokuvat olivat enimmäkseen epäonnistumisia.

  • Elokuvat, jotka julkaistiin kesäkuussa- Heinäkuun kuukaudet eivät ole olleet niin onnistuneita.

Joten

Mikä on ennuste mallimme, jos uusi komediaelokuva julkaistaan ​​huhtikuussa?

Se ennustetaan osumaksi, koska on suuri mahdollisuus, että tämä elokuva kerää paljon rahaa laatikossa. toimistossa, koska kaikki aiemmin huhti-toukokuussa julkaistut komediaelokuvat ovat olleet onnistuneita.

Mikä on mallimme ennuste, jos uusi kauhuelokuva julkaistaan ​​heinäkuussa?

Meidän malli ennustaa sen flopiksi, koska mikään kauhuelokuva ei ole onnistunut toistaiseksi aiemmista tiedoista, ja myös heinäkuussa, jolloin yleisö ei ole koskaan muuttanut itseään teattereiksi.

Tämä mallin ennustava kyky tuli kuvaan, koska se pystyi erottamaan onnistuneen ja epäonnistuneen elokuvan ominaisuudet jo ennen julkaisua aikaisemman historian tutkimisen kokemuksesta.

Nyt , katsotaanpa, että meillä on mallimme syöttötiedot seuraavasti (näyte 2) –

Täällä , 90\% menneistä tiedoistamme kuuluu hittielokuvien ominaisuuksiin ja vain 10\% tietueista on läsnä oppiaksesi floppi-elokuvan ominaisuuksista. Jos luomme mallin käyttämällä Yllä olevat tiedot (näyte-2) luuletko sitten sen olevan wi Pystynkö antamaan hyvän ennusteen?

Ei.

Katsotaanpa syyt perusteellisesti,

Mikä on mallimme ennuste, jos uusi kauhuelokuva julkaistaan ​​heinäkuussa?

Tässä ei ole varmuutta siitä, että malli antaa oikean ennusteen (floppi), koska se ei kyennyt oppimaan tarpeeksi floppi-elokuvan ominaisuuksista.

Oletetaan, että olet tuottanut kauhuelokuvan 100 miljoonalla dollarilla ja vahvistanut julkaisupäiväksi 22. kesäkuuta 2021. , haluat tietää, mikä on tämän elokuvan mahdollinen tulos lipunmyynnissä.

Jos siis olet käyttänyt mallia mallilla Sample -1 joka sisältää luokkien tasaisen erottelun (osuma / floppi), se olisi ennustanut lopputulokseksi flopin (mikä on oikein). Jos näin on, olisit voinut ryhtyä varotoimiin epäonnistumismahdollisuuden mukaan, kuten

  • Julkaisupäivän muuttaminen
  • Elokuvan mainonnan ja julkisuuden lisääminen
  • Elokuvan uuden perävaunun julkaisu hyppyjen jne. Lisäämiseksi.

Mutta jos olet käyttänyt -näytettä – 2 mallissa , se olisi ennustanut lopputuloksen osumaksi ja siten olisit julkaissut elokuvan kiinteänä päivänä (22. kesäkuuta) ja saattaisi ovat päätyneet floppiin, josta aiheutuu tappiota.

Todellinen syy mallin väärään ennusteeseen Sample-2: lla on, että se ei pystynyt ymmärtämään, että elokuva julkaistiin kesäkuussa ja että myös kauhuelokuvan todennäköisyys menestyä lipputuloissa on hyvin pieni, koska vastaavia esimerkkejä ei ole oppimistiedoissa.

Tätä epätasaista läsnäolotietuetta tietojoukossa, jossa joidenkin luokkien lukumäärä on hyvin pieni ja lopuissa luokissa erittäin suuri, kutsutaan luokan epätasapainoksi.

Kuinka voittaa tämä skenaario?

On olemassa kaksi päätapaa-

  • Ylinäyte
  • Alinäyte

Ylinäyte ei ole muuta kuin päällekkäin niiden luokkien tietueiden määrän kopioiminen, joilla on hyvin vähän esiintymiä Yllä olevassa esimerkissä meillä oli 9 tietuetta, jotka kuuluvat ”Hit” -luokkaan ja vain 1 ennätys, joka kuuluu ”Flop” -luokkaan. Nyt voimme lisätä keinotekoisesti Flop-luokkaan kuuluvien tietueiden määrää kopioimalla sen läsnäolon.

Täällä Olemme luoneet keinotekoisesti vielä 5 Flop-luokkaan kuuluvaa tietuetta, jotta molempiin luokkiin kuuluvien tietueiden lukumäärä pienenee. Tämä on klassinen esimerkki ylinäytteestä.

Alinäytteenotto ei ole muuta kuin niiden luokkien tietueiden määrän vähentäminen, joilla on erittäin suuri läsnäolo muihin luokkiin.

Tässä olemme vähentäneet ”Hit” -tietueiden määrää siten, että molempiin luokkiin kuuluvien tietueiden lukumääräero on kaventunut. Tämä on klassinen esimerkki alinäytteenotosta. Poistettavat tietueet valitaan tiukasti satunnaisprosessin kautta, eivätkä rajoitukset tai ennakkoluulot vaikuta niihin.

Toivottavasti se auttoi sinua !!!

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *