Beste svaret
en prøve t-test er en statistisk prosedyre der du ønsket å teste det der gjennomsnittet for populasjonen din er forskjellig fra en konstant verdi (fikse nummer). For eksempel ønsker en skole å teste at gjennomsnittlig gjennomsnitt av GPA for studenter er 3.0. De vil bruke en prøve t-test og kan få resultatet.
To eksempler t-test er også en statistisk prosedyre der du er interessert i å teste om disse to populasjonene har samme gjennomsnitt eller forskjellige gjennomsnitt. I samme eksempel, hvis skolen er interessert i å teste at gjennomsnittlig GPA for naturfag og kunstfag er den samme. Da ville de ha brukt to-prøve t-test.
Svar
T-testen gir innsikt i om forskjellen mellom middel til to grupper skyldes tilfeldigheter eller er pålitelig (dvs. ville bli funnet igjen i en annen måling fra samme populasjon). I motsetning til en beskrivende statistikk , som beskriver prøven som måles, er t-testen en inferensiell statistikk , som beskriver prøven som måles og gir en generalisering for hele befolkningen som prøven ble tatt fra.
I mitt arbeid, bruker jeg vanligvis t-testen når jeg vurderer resultatene av en A / B-test – dvs. at en gruppe brukere presenteres med en variant av en produktfunksjon, og en annen gruppe med samme størrelse fra samme befolkning er presentert med «kontrollen» (den eksisterende produktfunksjonen). Årsaken til at t-testen er nyttig i dette scenariet er at den gir meg innsikt i om forskjellen mellom atferden til de to gruppene (målt ved gjennomsnittet av noen beregninger; inntekt eller oppbevaring) skyldes tilfeldigheter eller kan avhenger av at det skjer konsekvent. Kort sagt bruker jeg t-testen for å svare på spørsmålet: » ce mellom disse to gruppene være de samme i et nytt utvalg fra samme populasjon? «
Resultatene av en t-test blir evaluert gjennom forholdet mellom forskjellen mellom gruppene og forskjellen i gruppene. Dette forholdet er kjent som t-verdi ; t-verdien har en tilsvarende p-verdi , som representerer sannsynligheten for at det som observeres kan produseres av tilfeldige data. Jo lavere p-verdien er, desto tryggere kan vi være på at forskjellen ikke produseres ved en tilfeldighet og faktisk er en pålitelig forskjell mellom midlene til de to gruppene. I forskning anses en p-verdi på 0,05 eller mindre generelt å være pålitelig (statistisk signifikant), men i en mer gründerlig setting kan du bestemme at en høyere p-verdi er akseptabel. P-verdier tilsvarer t-verdier basert på størrelsen på prøvene; jo større utvalgsstørrelse (flere frihetsgrader), jo lavere er p-verdien for den samme t-verdien (forholdet mellom forskjeller).
Du spurte om alternativer til t-testen, og det er noen, men først tror jeg at jeg burde identifisere noen varianter av t-testen, i tilfelle du trodde at t-testen bare er nyttig i scenariet jeg beskrev ovenfor. Når en t-test måler påliteligheten av forskjellen mellom to prøver, som beskrevet ovenfor, kalles den en Uavhengige prøver t-test. Når t-testen måler påliteligheten av forskjellen mellom ett utvalg ved to forskjellige anledninger, det kalles en Paret-prøve t-test (så hvis du målte en brukergruppe en gang , og deretter målte den samme gruppen igjen en uke senere, ville du utføre en paret prøve t-test). Og når t-testen måler forskjellen mellom en prøve og et hypotetisk gjennomsnitt eller kjent populasjonsgjennomsnitt (som om vi målte gjennomsnittlig daglig inntekt for noen utvalg av brukere mot det vi kjenner til den gjennomsnittlige daglige inntekten for hele tjenesten vår), kalles det en En-prøve t- test.
Når det gjelder alternativer til t-testen, er den mest populære Mann-Whitney U test, som er en ikke-parametrisk hypotese test som er bra å bruke når fordelingen av prøven og populasjonen ikke er normal (et mykt krav til t-testen).