Bedste svar
- Hvis hans næse ikke vokser, fortæller han en løgn og hans næse vokser, men så fortæller han sandheden, og det kan ikke ske.
- Hvis hans næse vokser, fortæller han sandheden, så det kan ikke ske.
- Hvis hans næse vokser, vil han fortæller sandheden, men hans næse vokser, hvis han lyver, så det kan ikke ske.
- Hvis hans næse ikke vokser, lyver han, og den vil vokse, men så ville han fortælle sandheden, så det kan ikke ske.
Svar
Under et fakultetsmøde besluttede en gruppe lærere i 9. klasse, at de skulle forstå yderligere, hvad den studerendes optimale varighed er for studerende for at opnå tilfredsstillende resultater. Så de besluttede at samle det omtrentlige antal timer, de studerende studerede, og derefter sammenligne med den studerendes testresultater.
Mr. Simpson overbeviste fakultetet om, at flere data betyder bedre resultater, og derfor integrerede alle lærerne deres tværgående data til analysen.
Resultaterne var forbløffende. Til alles forvirring, jo mindre en studerende studerede, jo højere har de en tendens til at score på prøver.
  
Faktisk er koefficienten forbundet med denne sammenhæng var -0,7981, et stærkt negativt forhold.
Skal de tilskynde deres studerende til at studere mindre? Hvordan i alverden kunne data bakke op om en sådan påstand? Der manglede bestemt noget.
Efter at have diskuteret resultaterne, blev lærerne enige om, at de skulle konsultere skolens statistik, fru Paradox. Efter at Simpson havde forklaret fru Paradox, hvad de havde fundet i deres resultater, foreslog fru Paradox, at de analyserede hvert kursus data individuelt.
Så de gik videre og analyserede Phys. Ed. og fortsatte med at få deres sind sprængt.
  
En korrelation på 0,6353! Hvordan var det overhovedet muligt i det statistiske univers?
Fru Paradox forklarede derefter dette som Simpsons Paradox, et statistisk fænomen, hvor et tilsyneladende stærkt forhold vender eller forsvinder, når det introduceres til en tredje forvirrende variabel.
Hun overbeviste Mr. Simpson om at plotte alle dataene igen, men derefter farvekode hvert kursus separat for at skelne dem fra hinanden.
  
Efter at have gjort det konkluderede Mr. Simpson og 9. klasse fakultetet, at forholdet virkelig var positivt, og at jo flere timer en studerende studerede, jo højere har karakteren en tendens til at være.
Inklusive studieforløbet i analysen vendte forholdet fuldstændigt om.
R Kode til dette eksempel:
  
 # Load the tidyverse 
 library(tidyverse) 
 # Generating correlated data with mvrnorm() from the MASS library 
 library(MASS) 
 # Sample Means 
 mu <- c(20,4) 
 # Define our covariance matrix, and specify the covariance relationship (i.e. 0.7 in this case) 
 Sigma <- matrix(.7, nrow=2, ncol=2) + diag(2)*.3 
 # create both variables with 100 samples 
 vars <- mvrnorm(n=100, mu=mu, Sigma=Sigma) 
 # Examine the data and the correlation 
 head(vars) 
 cor(vars) 
 # Plot the variables 
 plot(vars[,1],vars[,2]) 
 # Create a function for generating 2 correlated variables given variable means 
 corVars<-function(m1,m2,confVar){ 
  mu <- c(m1,m2) 
  Sigma <- matrix(.7, nrow=2, ncol=2) + diag(2)*.5 
  vars <- mvrnorm(n=100, mu=mu, Sigma=Sigma) 
  Var1<-vars[,1] 
  Var2<-vars[,2] 
  df<-as.data.frame(cbind(Var1 = Var1,Var2 = Var2,Var3 = confVar)) 
  df$Var1<-as.numeric(as.character(df$Var1)) 
  df$Var2<-as.numeric(as.character(df$Var2)) 
 } 
 # Re-running for multiple sets and combining into a single dataframe df 
 d1 <- corVars(m1 = 20, m2 = 82, confVar = "Algebra") 
 d2 <- corVars(m1 = 18, m2 = 84, confVar = "English") 
 d3 <- corVars(m1 = 16, m2 = 86, confVar = "Social Studies") 
 d4 <- corVars(m1 = 14, m2 = 88, confVar = "Art") 
 d5 <- corVars(m1 = 12, m2 = 90, confVar = "Physical Education") 
 # Create the aggregate data 
 df<-rbind(d1,d2,d3,d4,d5) 
 # Grade & Study Time Plot 
 df \%>\% 
  ggplot(aes(x = Var1, y = Var2/100)) + 
  geom\_jitter(aes(size = 13), alpha = 0.55, shape = 21, fill = "darkgray", color = "black") + 
  scale\_y\_continuous(name = "Final Percentage", labels = percent)+ 
  scale\_x\_continuous(name = "Approximate Hours for Preparation")+ 
  guides(size = FALSE) + 
  ggtitle("Impact of Studying on Final Grades")+ 
  theme(plot.title = element\_text(hjust = 0.5))+ 
  theme\_bw() 
 # Grade & Study Time Correlation 
 cor(df$Var1, df$Var2) 
 # PhysEd Plot 
 df \%>\%  
  filter(Var3 == "Physical Education") \%>\% 
  ggplot(aes(x = Var1, y = Var2/100)) + 
  geom\_jitter(aes(size = 13), alpha = 0.55, shape = 21, fill = "darkgray", color = "black") + 
  scale\_y\_continuous(name = "Final Percentage", labels = percent)+ 
  scale\_x\_continuous(name = "Approximate Hours for Preparation")+ 
  guides(size = FALSE) + 
  ggtitle("Impact of Studying on Final Grades (Physical Education Only)")+ 
  theme(plot.title = element\_text(hjust = 0.5))+ 
  theme\_bw() 
 # PhysEd Correlation 
 cor(df$Var1[df$Var3 == "Physical Education"], df$Var2[df$Var3 == "Physical Education"]) 
 # Confounding plot 
 df \%>\% 
  ggplot(aes(x = Var1, y = Var2/100)) + 
  geom\_jitter(aes(size = 1, fill = Var3), alpha = 0.25, shape = 21) + 
  guides(fill = guide\_legend(title = "Course Class", override.aes = list(size = 5)), 
  size = FALSE) + 
  scale\_y\_continuous(name = "Testing Results", labels = percent)+ 
  scale\_x\_continuous(name = "Approximate Hours for Preparation")+ 
  ggtitle("Impact of Studying on Final Grades")+ 
  theme(plot.title = element\_text(hjust = 0.5))+ 
  theme\_bw()