Beste svaret
- Hvis nesen ikke vokser, forteller han en løgn og nesen vil vokse, men så forteller han sannheten og den kan ikke skje.
- Hvis nesen hans vokser, forteller han sannheten, så det kan ikke skje.
- Hvis nesen hans vil vokse, vil han snakker sant, men nesen hans vokser hvis han lyver, så det ikke kan skje.
- Hvis nesen ikke vil vokse, lyver han og den vil vokse, men da ville han fortelle sannheten så det kan ikke skje.
Svar
Under et fakultetsmøte bestemte en gruppe lærere på 9. trinn at de trengte å forstå ytterligere hva studienes optimale varighet er for å oppnå tilfredsstillende resultater. Så de bestemte seg for å samle det omtrentlige antall timer studentene studerte, og deretter sammenligne med studentens testresultater.
Mr. Simpson overbeviste fakultetet om at mer data betyr bedre resultater, og derfor integrerte alle lærerne sine tverrgående data for analysen.
Resultatene var forbløffende. Til alles forvirring, jo mindre en student studerte, jo høyere har de en tendens til å score på tester.
Faktisk koeffisienten assosiert med denne sammenhengen var -0,7981, et sterkt negativt forhold.
Bør de oppmuntre studentene til å studere mindre? Hvordan i all verden kan data sikkerhetskopiere et slikt krav? Sikkert manglet noe.
Etter å ha diskutert resultatene, ble lærerne enige om at de skulle konsultere skolens statistiker, fru Paradox. Etter at Simpson forklarte fru Paradox hva de hadde funnet i resultatene deres, foreslo fru Paradox at de analyserte dataene til hvert kurs individuelt.
Så de fortsatte og analyserte Phys. Ed. og fortsatte å få tankene blåst.
En korrelasjon på 0,6353! Hvordan i det statistiske universet var dette til og med mulig?
Mrs. Paradox forklarte deretter dette som Simpsons Paradox, et statistisk fenomen der et tilsynelatende sterkt forhold reverserer eller forsvinner når det introduseres for en tredje forvirrende variabel.
Hun overbeviste Simpson om å plotte alle dataene igjen, men deretter fargekode hvert kurs separat for å skille dem fra hverandre.
Etter å ha gjort det konkluderte Mr. Simpson og 9. trinns fakultet at forholdet virkelig var positivt, og at jo flere timer en student studerte, jo høyere har karakteren en tendens til å være.
Inkludert studieløpet i analysen reverserte forholdet fullstendig.
R Kode for dette eksemplet:
# Load the tidyverse
library(tidyverse)
# Generating correlated data with mvrnorm() from the MASS library
library(MASS)
# Sample Means
mu <- c(20,4)
# Define our covariance matrix, and specify the covariance relationship (i.e. 0.7 in this case)
Sigma <- matrix(.7, nrow=2, ncol=2) + diag(2)*.3
# create both variables with 100 samples
vars <- mvrnorm(n=100, mu=mu, Sigma=Sigma)
# Examine the data and the correlation
head(vars)
cor(vars)
# Plot the variables
plot(vars[,1],vars[,2])
# Create a function for generating 2 correlated variables given variable means
corVars<-function(m1,m2,confVar){
mu <- c(m1,m2)
Sigma <- matrix(.7, nrow=2, ncol=2) + diag(2)*.5
vars <- mvrnorm(n=100, mu=mu, Sigma=Sigma)
Var1<-vars[,1]
Var2<-vars[,2]
df<-as.data.frame(cbind(Var1 = Var1,Var2 = Var2,Var3 = confVar))
df$Var1<-as.numeric(as.character(df$Var1))
df$Var2<-as.numeric(as.character(df$Var2))
}
# Re-running for multiple sets and combining into a single dataframe df
d1 <- corVars(m1 = 20, m2 = 82, confVar = "Algebra")
d2 <- corVars(m1 = 18, m2 = 84, confVar = "English")
d3 <- corVars(m1 = 16, m2 = 86, confVar = "Social Studies")
d4 <- corVars(m1 = 14, m2 = 88, confVar = "Art")
d5 <- corVars(m1 = 12, m2 = 90, confVar = "Physical Education")
# Create the aggregate data
df<-rbind(d1,d2,d3,d4,d5)
# Grade & Study Time Plot
df \%>\%
ggplot(aes(x = Var1, y = Var2/100)) +
geom\_jitter(aes(size = 13), alpha = 0.55, shape = 21, fill = "darkgray", color = "black") +
scale\_y\_continuous(name = "Final Percentage", labels = percent)+
scale\_x\_continuous(name = "Approximate Hours for Preparation")+
guides(size = FALSE) +
ggtitle("Impact of Studying on Final Grades")+
theme(plot.title = element\_text(hjust = 0.5))+
theme\_bw()
# Grade & Study Time Correlation
cor(df$Var1, df$Var2)
# PhysEd Plot
df \%>\%
filter(Var3 == "Physical Education") \%>\%
ggplot(aes(x = Var1, y = Var2/100)) +
geom\_jitter(aes(size = 13), alpha = 0.55, shape = 21, fill = "darkgray", color = "black") +
scale\_y\_continuous(name = "Final Percentage", labels = percent)+
scale\_x\_continuous(name = "Approximate Hours for Preparation")+
guides(size = FALSE) +
ggtitle("Impact of Studying on Final Grades (Physical Education Only)")+
theme(plot.title = element\_text(hjust = 0.5))+
theme\_bw()
# PhysEd Correlation
cor(df$Var1[df$Var3 == "Physical Education"], df$Var2[df$Var3 == "Physical Education"])
# Confounding plot
df \%>\%
ggplot(aes(x = Var1, y = Var2/100)) +
geom\_jitter(aes(size = 1, fill = Var3), alpha = 0.25, shape = 21) +
guides(fill = guide\_legend(title = "Course Class", override.aes = list(size = 5)),
size = FALSE) +
scale\_y\_continuous(name = "Testing Results", labels = percent)+
scale\_x\_continuous(name = "Approximate Hours for Preparation")+
ggtitle("Impact of Studying on Final Grades")+
theme(plot.title = element\_text(hjust = 0.5))+
theme\_bw()