Migliore risposta
- Se il suo naso non cresce, sta dicendo una bugia e il suo naso crescerà ma poi sta dicendo la verità e non può “accadere”.
- Se gli cresce il naso, sta dicendo la verità, quindi non può “accadere.
- Se gli crescerà il naso, lo farà sta dicendo la verità, ma il suo naso cresce se mente così non può “succedere.
- Se il suo naso non cresce, sta mentendo e crescerà ma poi direbbe la verità, quindi non può succedere.
Risposta
Durante una riunione di facoltà, un gruppo di insegnanti di terza media ha deciso che avevano bisogno di capire meglio qual è la durata ottimale dello studio per gli studenti per ottenere risultati soddisfacenti. Pertanto, hanno deciso di raccogliere il numero approssimativo di ore di studio degli studenti e di confrontarlo con i punteggi dei test degli studenti.
Mr. Simpson ha convinto la facoltà che più dati significano risultati migliori, e così tutti gli insegnanti hanno integrato i dati dei loro corsi incrociati per lanalisi.
I risultati sono stati sbalorditivi. Per la confusione di tutti, meno uno studente ha studiato, più alto è il punteggio nei test.
In effetti, il coefficiente associata a questa correlazione era -0,7981, una relazione fortemente negativa.
Dovrebbero incoraggiare i loro studenti a studiare di meno? Come diavolo potrebbero i dati sostenere una simile affermazione? Sicuramente mancava qualcosa.
Dopo aver discusso i risultati, gli insegnanti hanno convenuto di consultare lo statistico della scuola, la signora Paradox. Dopo che il signor Simpson ha spiegato alla signora Paradox cosa avevano trovato nei risultati, la signora Paradox ha suggerito di analizzare i dati di ogni corso individualmente.
Quindi, sono andati avanti e hanno analizzato la fisica. Ed. e ha continuato ad avere la testa a bocca aperta.
Una correlazione di 0.6353! Comè stato possibile nelluniverso statistico?
Mrs. Paradox ha quindi spiegato questo come Paradox di Simpson, un fenomeno statistico in cui una relazione apparentemente forte si inverte o scompare quando viene introdotta una terza variabile confondente.
Ha convinto il Sig. Simpson a tracciare nuovamente tutti i dati, ma poi ha codificato a colori ciascun corso separatamente per distinguerli luno dallaltro.
Dopo averlo fatto, il signor Simpson e il docente della terza media hanno concluso che il rapporto era davvero positivo e che più ore uno studente studia, più alto tende ad essere il voto.
Compreso il corso di studi in analisi ha completamente ribaltato il rapporto.
Codice R per questo esempio:
# Load the tidyverse
library(tidyverse)
# Generating correlated data with mvrnorm() from the MASS library
library(MASS)
# Sample Means
mu <- c(20,4)
# Define our covariance matrix, and specify the covariance relationship (i.e. 0.7 in this case)
Sigma <- matrix(.7, nrow=2, ncol=2) + diag(2)*.3
# create both variables with 100 samples
vars <- mvrnorm(n=100, mu=mu, Sigma=Sigma)
# Examine the data and the correlation
head(vars)
cor(vars)
# Plot the variables
plot(vars[,1],vars[,2])
# Create a function for generating 2 correlated variables given variable means
corVars<-function(m1,m2,confVar){
mu <- c(m1,m2)
Sigma <- matrix(.7, nrow=2, ncol=2) + diag(2)*.5
vars <- mvrnorm(n=100, mu=mu, Sigma=Sigma)
Var1<-vars[,1]
Var2<-vars[,2]
df<-as.data.frame(cbind(Var1 = Var1,Var2 = Var2,Var3 = confVar))
df$Var1<-as.numeric(as.character(df$Var1))
df$Var2<-as.numeric(as.character(df$Var2))
}
# Re-running for multiple sets and combining into a single dataframe df
d1 <- corVars(m1 = 20, m2 = 82, confVar = "Algebra")
d2 <- corVars(m1 = 18, m2 = 84, confVar = "English")
d3 <- corVars(m1 = 16, m2 = 86, confVar = "Social Studies")
d4 <- corVars(m1 = 14, m2 = 88, confVar = "Art")
d5 <- corVars(m1 = 12, m2 = 90, confVar = "Physical Education")
# Create the aggregate data
df<-rbind(d1,d2,d3,d4,d5)
# Grade & Study Time Plot
df \%>\%
ggplot(aes(x = Var1, y = Var2/100)) +
geom\_jitter(aes(size = 13), alpha = 0.55, shape = 21, fill = "darkgray", color = "black") +
scale\_y\_continuous(name = "Final Percentage", labels = percent)+
scale\_x\_continuous(name = "Approximate Hours for Preparation")+
guides(size = FALSE) +
ggtitle("Impact of Studying on Final Grades")+
theme(plot.title = element\_text(hjust = 0.5))+
theme\_bw()
# Grade & Study Time Correlation
cor(df$Var1, df$Var2)
# PhysEd Plot
df \%>\%
filter(Var3 == "Physical Education") \%>\%
ggplot(aes(x = Var1, y = Var2/100)) +
geom\_jitter(aes(size = 13), alpha = 0.55, shape = 21, fill = "darkgray", color = "black") +
scale\_y\_continuous(name = "Final Percentage", labels = percent)+
scale\_x\_continuous(name = "Approximate Hours for Preparation")+
guides(size = FALSE) +
ggtitle("Impact of Studying on Final Grades (Physical Education Only)")+
theme(plot.title = element\_text(hjust = 0.5))+
theme\_bw()
# PhysEd Correlation
cor(df$Var1[df$Var3 == "Physical Education"], df$Var2[df$Var3 == "Physical Education"])
# Confounding plot
df \%>\%
ggplot(aes(x = Var1, y = Var2/100)) +
geom\_jitter(aes(size = 1, fill = Var3), alpha = 0.25, shape = 21) +
guides(fill = guide\_legend(title = "Course Class", override.aes = list(size = 5)),
size = FALSE) +
scale\_y\_continuous(name = "Testing Results", labels = percent)+
scale\_x\_continuous(name = "Approximate Hours for Preparation")+
ggtitle("Impact of Studying on Final Grades")+
theme(plot.title = element\_text(hjust = 0.5))+
theme\_bw()