Hva er Pinocchio-paradokset?


Beste svaret

  • Hvis nesen ikke vokser, forteller han en løgn og nesen vil vokse, men så forteller han sannheten og den kan ikke skje.
  • Hvis nesen hans vokser, forteller han sannheten, så det kan ikke skje.
  • Hvis nesen hans vil vokse, vil han snakker sant, men nesen hans vokser hvis han lyver, så det ikke kan skje.
  • Hvis nesen ikke vil vokse, lyver han og den vil vokse, men da ville han fortelle sannheten så det kan ikke skje.

Svar

Under et fakultetsmøte bestemte en gruppe lærere på 9. trinn at de trengte å forstå ytterligere hva studienes optimale varighet er for å oppnå tilfredsstillende resultater. Så de bestemte seg for å samle det omtrentlige antall timer studentene studerte, og deretter sammenligne med studentens testresultater.

Mr. Simpson overbeviste fakultetet om at mer data betyr bedre resultater, og derfor integrerte alle lærerne sine tverrgående data for analysen.

Resultatene var forbløffende. Til alles forvirring, jo mindre en student studerte, jo høyere har de en tendens til å score på tester.

Faktisk koeffisienten assosiert med denne sammenhengen var -0,7981, et sterkt negativt forhold.

Bør de oppmuntre studentene til å studere mindre? Hvordan i all verden kan data sikkerhetskopiere et slikt krav? Sikkert manglet noe.

Etter å ha diskutert resultatene, ble lærerne enige om at de skulle konsultere skolens statistiker, fru Paradox. Etter at Simpson forklarte fru Paradox hva de hadde funnet i resultatene deres, foreslo fru Paradox at de analyserte dataene til hvert kurs individuelt.

Så de fortsatte og analyserte Phys. Ed. og fortsatte å få tankene blåst.

En korrelasjon på 0,6353! Hvordan i det statistiske universet var dette til og med mulig?

Mrs. Paradox forklarte deretter dette som Simpsons Paradox, et statistisk fenomen der et tilsynelatende sterkt forhold reverserer eller forsvinner når det introduseres for en tredje forvirrende variabel.

Hun overbeviste Simpson om å plotte alle dataene igjen, men deretter fargekode hvert kurs separat for å skille dem fra hverandre.

Etter å ha gjort det konkluderte Mr. Simpson og 9. trinns fakultet at forholdet virkelig var positivt, og at jo flere timer en student studerte, jo høyere har karakteren en tendens til å være.

Inkludert studieløpet i analysen reverserte forholdet fullstendig.

R Kode for dette eksemplet:

# Load the tidyverse

library(tidyverse)

# Generating correlated data with mvrnorm() from the MASS library

library(MASS)

# Sample Means

mu <- c(20,4)

# Define our covariance matrix, and specify the covariance relationship (i.e. 0.7 in this case)

Sigma <- matrix(.7, nrow=2, ncol=2) + diag(2)*.3

# create both variables with 100 samples

vars <- mvrnorm(n=100, mu=mu, Sigma=Sigma)

# Examine the data and the correlation

head(vars)

cor(vars)

# Plot the variables

plot(vars[,1],vars[,2])

# Create a function for generating 2 correlated variables given variable means

corVars<-function(m1,m2,confVar){

mu <- c(m1,m2)

Sigma <- matrix(.7, nrow=2, ncol=2) + diag(2)*.5

vars <- mvrnorm(n=100, mu=mu, Sigma=Sigma)

Var1<-vars[,1]

Var2<-vars[,2]

df<-as.data.frame(cbind(Var1 = Var1,Var2 = Var2,Var3 = confVar))

df$Var1<-as.numeric(as.character(df$Var1))

df$Var2<-as.numeric(as.character(df$Var2))

}

# Re-running for multiple sets and combining into a single dataframe df

d1 <- corVars(m1 = 20, m2 = 82, confVar = "Algebra")

d2 <- corVars(m1 = 18, m2 = 84, confVar = "English")

d3 <- corVars(m1 = 16, m2 = 86, confVar = "Social Studies")

d4 <- corVars(m1 = 14, m2 = 88, confVar = "Art")

d5 <- corVars(m1 = 12, m2 = 90, confVar = "Physical Education")

# Create the aggregate data

df<-rbind(d1,d2,d3,d4,d5)

# Grade & Study Time Plot

df \%>\%

ggplot(aes(x = Var1, y = Var2/100)) +

geom\_jitter(aes(size = 13), alpha = 0.55, shape = 21, fill = "darkgray", color = "black") +

scale\_y\_continuous(name = "Final Percentage", labels = percent)+

scale\_x\_continuous(name = "Approximate Hours for Preparation")+

guides(size = FALSE) +

ggtitle("Impact of Studying on Final Grades")+

theme(plot.title = element\_text(hjust = 0.5))+

theme\_bw()

# Grade & Study Time Correlation

cor(df$Var1, df$Var2)

# PhysEd Plot

df \%>\%

filter(Var3 == "Physical Education") \%>\%

ggplot(aes(x = Var1, y = Var2/100)) +

geom\_jitter(aes(size = 13), alpha = 0.55, shape = 21, fill = "darkgray", color = "black") +

scale\_y\_continuous(name = "Final Percentage", labels = percent)+

scale\_x\_continuous(name = "Approximate Hours for Preparation")+

guides(size = FALSE) +

ggtitle("Impact of Studying on Final Grades (Physical Education Only)")+

theme(plot.title = element\_text(hjust = 0.5))+

theme\_bw()

# PhysEd Correlation

cor(df$Var1[df$Var3 == "Physical Education"], df$Var2[df$Var3 == "Physical Education"])

# Confounding plot

df \%>\%

ggplot(aes(x = Var1, y = Var2/100)) +

geom\_jitter(aes(size = 1, fill = Var3), alpha = 0.25, shape = 21) +

guides(fill = guide\_legend(title = "Course Class", override.aes = list(size = 5)),

size = FALSE) +

scale\_y\_continuous(name = "Testing Results", labels = percent)+

scale\_x\_continuous(name = "Approximate Hours for Preparation")+

ggtitle("Impact of Studying on Final Grades")+

theme(plot.title = element\_text(hjust = 0.5))+

theme\_bw()

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *