Bedste svar
- Hvis hans næse ikke vokser, fortæller han en løgn og hans næse vokser, men så fortæller han sandheden, og det kan ikke ske.
- Hvis hans næse vokser, fortæller han sandheden, så det kan ikke ske.
- Hvis hans næse vokser, vil han fortæller sandheden, men hans næse vokser, hvis han lyver, så det kan ikke ske.
- Hvis hans næse ikke vokser, lyver han, og den vil vokse, men så ville han fortælle sandheden, så det kan ikke ske.
Svar
Under et fakultetsmøde besluttede en gruppe lærere i 9. klasse, at de skulle forstå yderligere, hvad den studerendes optimale varighed er for studerende for at opnå tilfredsstillende resultater. Så de besluttede at samle det omtrentlige antal timer, de studerende studerede, og derefter sammenligne med den studerendes testresultater.
Mr. Simpson overbeviste fakultetet om, at flere data betyder bedre resultater, og derfor integrerede alle lærerne deres tværgående data til analysen.
Resultaterne var forbløffende. Til alles forvirring, jo mindre en studerende studerede, jo højere har de en tendens til at score på prøver.
Faktisk er koefficienten forbundet med denne sammenhæng var -0,7981, et stærkt negativt forhold.
Skal de tilskynde deres studerende til at studere mindre? Hvordan i alverden kunne data bakke op om en sådan påstand? Der manglede bestemt noget.
Efter at have diskuteret resultaterne, blev lærerne enige om, at de skulle konsultere skolens statistik, fru Paradox. Efter at Simpson havde forklaret fru Paradox, hvad de havde fundet i deres resultater, foreslog fru Paradox, at de analyserede hvert kursus data individuelt.
Så de gik videre og analyserede Phys. Ed. og fortsatte med at få deres sind sprængt.
En korrelation på 0,6353! Hvordan var det overhovedet muligt i det statistiske univers?
Fru Paradox forklarede derefter dette som Simpsons Paradox, et statistisk fænomen, hvor et tilsyneladende stærkt forhold vender eller forsvinder, når det introduceres til en tredje forvirrende variabel.
Hun overbeviste Mr. Simpson om at plotte alle dataene igen, men derefter farvekode hvert kursus separat for at skelne dem fra hinanden.
Efter at have gjort det konkluderede Mr. Simpson og 9. klasse fakultetet, at forholdet virkelig var positivt, og at jo flere timer en studerende studerede, jo højere har karakteren en tendens til at være.
Inklusive studieforløbet i analysen vendte forholdet fuldstændigt om.
R Kode til dette eksempel:
# Load the tidyverse
library(tidyverse)
# Generating correlated data with mvrnorm() from the MASS library
library(MASS)
# Sample Means
mu <- c(20,4)
# Define our covariance matrix, and specify the covariance relationship (i.e. 0.7 in this case)
Sigma <- matrix(.7, nrow=2, ncol=2) + diag(2)*.3
# create both variables with 100 samples
vars <- mvrnorm(n=100, mu=mu, Sigma=Sigma)
# Examine the data and the correlation
head(vars)
cor(vars)
# Plot the variables
plot(vars[,1],vars[,2])
# Create a function for generating 2 correlated variables given variable means
corVars<-function(m1,m2,confVar){
mu <- c(m1,m2)
Sigma <- matrix(.7, nrow=2, ncol=2) + diag(2)*.5
vars <- mvrnorm(n=100, mu=mu, Sigma=Sigma)
Var1<-vars[,1]
Var2<-vars[,2]
df<-as.data.frame(cbind(Var1 = Var1,Var2 = Var2,Var3 = confVar))
df$Var1<-as.numeric(as.character(df$Var1))
df$Var2<-as.numeric(as.character(df$Var2))
}
# Re-running for multiple sets and combining into a single dataframe df
d1 <- corVars(m1 = 20, m2 = 82, confVar = "Algebra")
d2 <- corVars(m1 = 18, m2 = 84, confVar = "English")
d3 <- corVars(m1 = 16, m2 = 86, confVar = "Social Studies")
d4 <- corVars(m1 = 14, m2 = 88, confVar = "Art")
d5 <- corVars(m1 = 12, m2 = 90, confVar = "Physical Education")
# Create the aggregate data
df<-rbind(d1,d2,d3,d4,d5)
# Grade & Study Time Plot
df \%>\%
ggplot(aes(x = Var1, y = Var2/100)) +
geom\_jitter(aes(size = 13), alpha = 0.55, shape = 21, fill = "darkgray", color = "black") +
scale\_y\_continuous(name = "Final Percentage", labels = percent)+
scale\_x\_continuous(name = "Approximate Hours for Preparation")+
guides(size = FALSE) +
ggtitle("Impact of Studying on Final Grades")+
theme(plot.title = element\_text(hjust = 0.5))+
theme\_bw()
# Grade & Study Time Correlation
cor(df$Var1, df$Var2)
# PhysEd Plot
df \%>\%
filter(Var3 == "Physical Education") \%>\%
ggplot(aes(x = Var1, y = Var2/100)) +
geom\_jitter(aes(size = 13), alpha = 0.55, shape = 21, fill = "darkgray", color = "black") +
scale\_y\_continuous(name = "Final Percentage", labels = percent)+
scale\_x\_continuous(name = "Approximate Hours for Preparation")+
guides(size = FALSE) +
ggtitle("Impact of Studying on Final Grades (Physical Education Only)")+
theme(plot.title = element\_text(hjust = 0.5))+
theme\_bw()
# PhysEd Correlation
cor(df$Var1[df$Var3 == "Physical Education"], df$Var2[df$Var3 == "Physical Education"])
# Confounding plot
df \%>\%
ggplot(aes(x = Var1, y = Var2/100)) +
geom\_jitter(aes(size = 1, fill = Var3), alpha = 0.25, shape = 21) +
guides(fill = guide\_legend(title = "Course Class", override.aes = list(size = 5)),
size = FALSE) +
scale\_y\_continuous(name = "Testing Results", labels = percent)+
scale\_x\_continuous(name = "Approximate Hours for Preparation")+
ggtitle("Impact of Studying on Final Grades")+
theme(plot.title = element\_text(hjust = 0.5))+
theme\_bw()