Beste antwoord
- Als zijn neus niet groeit, vertelt hij een leugen en zal zijn neus groeien, maar dan vertelt hij de waarheid en het kan niet gebeuren.
- Als zijn neus groeit, vertelt hij de waarheid, dus het kan niet gebeuren.
- Als zijn neus groeit, zal hij de waarheid vertellen, maar zijn neus groeit als hij liegt, zodat het niet kan gebeuren.
- Als zijn neus niet groeit, liegt hij en hij zal groeien, maar dan zou hij de waarheid vertellen, dus kan niet gebeuren.
Antwoord
Tijdens een faculteitsvergadering besloot een groep leraren van het 9e leerjaar dat ze beter moesten begrijpen wat de optimale studieduur is voor studenten om bevredigende resultaten te bereiken. Dus besloten ze het geschatte aantal uren dat studenten studeerden te verzamelen en deze vervolgens te vergelijken met de testscores van de student.
Mr. Simpson overtuigde de faculteit ervan dat meer data betere resultaten betekent, en daarom hebben alle docenten hun cursusoverschrijdende data geïntegreerd voor de analyse.
De resultaten waren verbluffend. Tot ieders verwarring: hoe minder een student studeerde, hoe hoger hij scoort op toetsen.
In feite is de coëfficiënt geassocieerd met deze correlatie was -0.7981, een sterk negatieve relatie.
Moeten ze hun studenten aanmoedigen om minder te studeren? Hoe kunnen gegevens in vredesnaam een dergelijke claim ondersteunen? Er ontbrak zeker iets.
Na bespreking van de resultaten, kwamen de leraren overeen dat ze de statisticus van de school, mevrouw Paradox, moesten raadplegen. Nadat de heer Simpson aan mevrouw Paradox had uitgelegd wat ze in hun resultaten hadden gevonden, stelde mevrouw Paradox voor om de gegevens van elke cursus afzonderlijk te analyseren.
Dus gingen ze door en analyseerden Phys. Ed. en gingen verder met hun verstand.
Een correlatie van 0,6353! Hoe was dit in het statistische universum mogelijk?
Mevr. Paradox legde dit vervolgens uit als Simpsons Paradox, een statistisch fenomeen waarbij een ogenschijnlijk sterke relatie omkeert of verdwijnt wanneer deze wordt geïntroduceerd bij een derde verstorende variabele.
Ze overtuigde meneer Simpson om alle gegevens nogmaals uit te zetten, maar vervolgens elke cursus afzonderlijk een kleurcode te geven om ze van elkaar te onderscheiden.
Na dit te hebben gedaan, concludeerden de heer Simpson en de 9e klas faculteit dat de relatie inderdaad positief was, en dat hoe meer uren een student studeerde, hoe hoger het cijfer was.
Inclusief het verloop van de studie in de analyse heeft de relatie volledig omgekeerd.
R Code voor dit voorbeeld:
# Load the tidyverse
library(tidyverse)
# Generating correlated data with mvrnorm() from the MASS library
library(MASS)
# Sample Means
mu <- c(20,4)
# Define our covariance matrix, and specify the covariance relationship (i.e. 0.7 in this case)
Sigma <- matrix(.7, nrow=2, ncol=2) + diag(2)*.3
# create both variables with 100 samples
vars <- mvrnorm(n=100, mu=mu, Sigma=Sigma)
# Examine the data and the correlation
head(vars)
cor(vars)
# Plot the variables
plot(vars[,1],vars[,2])
# Create a function for generating 2 correlated variables given variable means
corVars<-function(m1,m2,confVar){
mu <- c(m1,m2)
Sigma <- matrix(.7, nrow=2, ncol=2) + diag(2)*.5
vars <- mvrnorm(n=100, mu=mu, Sigma=Sigma)
Var1<-vars[,1]
Var2<-vars[,2]
df<-as.data.frame(cbind(Var1 = Var1,Var2 = Var2,Var3 = confVar))
df$Var1<-as.numeric(as.character(df$Var1))
df$Var2<-as.numeric(as.character(df$Var2))
}
# Re-running for multiple sets and combining into a single dataframe df
d1 <- corVars(m1 = 20, m2 = 82, confVar = "Algebra")
d2 <- corVars(m1 = 18, m2 = 84, confVar = "English")
d3 <- corVars(m1 = 16, m2 = 86, confVar = "Social Studies")
d4 <- corVars(m1 = 14, m2 = 88, confVar = "Art")
d5 <- corVars(m1 = 12, m2 = 90, confVar = "Physical Education")
# Create the aggregate data
df<-rbind(d1,d2,d3,d4,d5)
# Grade & Study Time Plot
df \%>\%
ggplot(aes(x = Var1, y = Var2/100)) +
geom\_jitter(aes(size = 13), alpha = 0.55, shape = 21, fill = "darkgray", color = "black") +
scale\_y\_continuous(name = "Final Percentage", labels = percent)+
scale\_x\_continuous(name = "Approximate Hours for Preparation")+
guides(size = FALSE) +
ggtitle("Impact of Studying on Final Grades")+
theme(plot.title = element\_text(hjust = 0.5))+
theme\_bw()
# Grade & Study Time Correlation
cor(df$Var1, df$Var2)
# PhysEd Plot
df \%>\%
filter(Var3 == "Physical Education") \%>\%
ggplot(aes(x = Var1, y = Var2/100)) +
geom\_jitter(aes(size = 13), alpha = 0.55, shape = 21, fill = "darkgray", color = "black") +
scale\_y\_continuous(name = "Final Percentage", labels = percent)+
scale\_x\_continuous(name = "Approximate Hours for Preparation")+
guides(size = FALSE) +
ggtitle("Impact of Studying on Final Grades (Physical Education Only)")+
theme(plot.title = element\_text(hjust = 0.5))+
theme\_bw()
# PhysEd Correlation
cor(df$Var1[df$Var3 == "Physical Education"], df$Var2[df$Var3 == "Physical Education"])
# Confounding plot
df \%>\%
ggplot(aes(x = Var1, y = Var2/100)) +
geom\_jitter(aes(size = 1, fill = Var3), alpha = 0.25, shape = 21) +
guides(fill = guide\_legend(title = "Course Class", override.aes = list(size = 5)),
size = FALSE) +
scale\_y\_continuous(name = "Testing Results", labels = percent)+
scale\_x\_continuous(name = "Approximate Hours for Preparation")+
ggtitle("Impact of Studying on Final Grades")+
theme(plot.title = element\_text(hjust = 0.5))+
theme\_bw()