Meilleure réponse
- Si son nez ne pousse pas, il dit un mensonge et son nez se développera mais ensuite il dit la vérité et cela ne peut pas arriver.
- Si son nez se développe, il dit la vérité, donc cela ne peut pas arriver.
- Si son nez pousse, il va dit la vérité, mais son nez grandit s’il ment, donc ça ne peut pas arriver.
- Si son nez ne pousse pas, il ment et il grandira mais alors il dirait la vérité. Cela ne peut pas arriver.
Réponse
Lors dune réunion du corps professoral, un groupe denseignants de 9e année a décidé quil fallait mieux comprendre la durée optimale des études pour les étudiants pour obtenir des résultats satisfaisants. Ils ont donc décidé de rassembler le nombre approximatif d’heures que les étudiants étudiaient, puis de les comparer aux résultats des tests de l’étudiant.
M. Simpson a convaincu la faculté que plus de données signifie de meilleurs résultats, et ainsi tous les enseignants ont intégré leurs données croisées pour lanalyse.
Les résultats ont été étonnants. À la confusion de tout le monde, moins un élève étudie, plus il a tendance à obtenir des résultats élevés aux tests.
En fait, le coefficient associé à cette corrélation était de -0,7981, une relation fortement négative.
Devraient-ils encourager leurs élèves à moins étudier? Comment diable les données pourraient-elles étayer une telle affirmation? Il manquait sûrement quelque chose.
Après avoir discuté des résultats, les enseignants ont convenu quils devraient consulter la statisticienne de lécole, Mme Paradox. Après que M. Simpson ait expliqué à Mme Paradox ce quils avaient trouvé dans leurs résultats, Mme Paradox a suggéré quils analysent les données de chaque cours individuellement.
Alors, ils sont allés de lavant et ont analysé Phys. Ed. et ont commencé à être époustouflés.
Une corrélation de 0,6353! Comment cela a-t-il été possible dans lunivers statistique?
Mme. Paradox a ensuite expliqué cela comme Le paradoxe de Simpson, un phénomène statistique où une relation apparemment forte sinverse ou disparaît lorsquelle est introduite dans une troisième variable de confusion.
Elle a convaincu M. Simpson de tracer à nouveau toutes les données, puis de coder en couleur chaque cours séparément pour les distinguer les uns des autres.
Après cela, M. Simpson et le corps professoral de la 9e année ont conclu que la relation était effectivement positive et que plus un étudiant étudiait dheures, plus la note avait tendance à être élevée.
Y compris le cours de létude dans lanalyse a complètement inversé la relation.
Code R pour cet exemple:
# Load the tidyverse
library(tidyverse)
# Generating correlated data with mvrnorm() from the MASS library
library(MASS)
# Sample Means
mu <- c(20,4)
# Define our covariance matrix, and specify the covariance relationship (i.e. 0.7 in this case)
Sigma <- matrix(.7, nrow=2, ncol=2) + diag(2)*.3
# create both variables with 100 samples
vars <- mvrnorm(n=100, mu=mu, Sigma=Sigma)
# Examine the data and the correlation
head(vars)
cor(vars)
# Plot the variables
plot(vars[,1],vars[,2])
# Create a function for generating 2 correlated variables given variable means
corVars<-function(m1,m2,confVar){
mu <- c(m1,m2)
Sigma <- matrix(.7, nrow=2, ncol=2) + diag(2)*.5
vars <- mvrnorm(n=100, mu=mu, Sigma=Sigma)
Var1<-vars[,1]
Var2<-vars[,2]
df<-as.data.frame(cbind(Var1 = Var1,Var2 = Var2,Var3 = confVar))
df$Var1<-as.numeric(as.character(df$Var1))
df$Var2<-as.numeric(as.character(df$Var2))
}
# Re-running for multiple sets and combining into a single dataframe df
d1 <- corVars(m1 = 20, m2 = 82, confVar = "Algebra")
d2 <- corVars(m1 = 18, m2 = 84, confVar = "English")
d3 <- corVars(m1 = 16, m2 = 86, confVar = "Social Studies")
d4 <- corVars(m1 = 14, m2 = 88, confVar = "Art")
d5 <- corVars(m1 = 12, m2 = 90, confVar = "Physical Education")
# Create the aggregate data
df<-rbind(d1,d2,d3,d4,d5)
# Grade & Study Time Plot
df \%>\%
ggplot(aes(x = Var1, y = Var2/100)) +
geom\_jitter(aes(size = 13), alpha = 0.55, shape = 21, fill = "darkgray", color = "black") +
scale\_y\_continuous(name = "Final Percentage", labels = percent)+
scale\_x\_continuous(name = "Approximate Hours for Preparation")+
guides(size = FALSE) +
ggtitle("Impact of Studying on Final Grades")+
theme(plot.title = element\_text(hjust = 0.5))+
theme\_bw()
# Grade & Study Time Correlation
cor(df$Var1, df$Var2)
# PhysEd Plot
df \%>\%
filter(Var3 == "Physical Education") \%>\%
ggplot(aes(x = Var1, y = Var2/100)) +
geom\_jitter(aes(size = 13), alpha = 0.55, shape = 21, fill = "darkgray", color = "black") +
scale\_y\_continuous(name = "Final Percentage", labels = percent)+
scale\_x\_continuous(name = "Approximate Hours for Preparation")+
guides(size = FALSE) +
ggtitle("Impact of Studying on Final Grades (Physical Education Only)")+
theme(plot.title = element\_text(hjust = 0.5))+
theme\_bw()
# PhysEd Correlation
cor(df$Var1[df$Var3 == "Physical Education"], df$Var2[df$Var3 == "Physical Education"])
# Confounding plot
df \%>\%
ggplot(aes(x = Var1, y = Var2/100)) +
geom\_jitter(aes(size = 1, fill = Var3), alpha = 0.25, shape = 21) +
guides(fill = guide\_legend(title = "Course Class", override.aes = list(size = 5)),
size = FALSE) +
scale\_y\_continuous(name = "Testing Results", labels = percent)+
scale\_x\_continuous(name = "Approximate Hours for Preparation")+
ggtitle("Impact of Studying on Final Grades")+
theme(plot.title = element\_text(hjust = 0.5))+
theme\_bw()