Cel mai bun răspuns
- Dacă nasul său nu crește, spune o minciună și nasul îi va crește, dar apoi spune adevărul și nu se poate întâmpla.
- Dacă nasul îi crește, el spune adevărul, așa că nu se poate întâmpla.
- Dacă nasul îi va crește, va face spune adevărul, dar nasul îi crește dacă minte, astfel încât să nu se poată întâmpla.
- Dacă nasul nu crește, minte și va crește, dar atunci ar spune adevărul, așa că nu se poate întâmpla.
Răspuns
În timpul unei ședințe a facultății, un grup de profesori din clasa a IX-a au decis că trebuie să înțeleagă în continuare care este durata optimă de studiu pentru studenți pentru a obține rezultate satisfăcătoare. Așadar, au decis să adune numărul aproximativ de ore pe care studiau studenții și apoi să le compare cu rezultatele testelor elevului.
Mr. Simpson a convins facultatea că mai multe date înseamnă rezultate mai bune și, prin urmare, toți profesorii și-au integrat datele transversale pentru analiză.
Rezultatele au fost uluitoare. Pentru confuzia tuturor, cu cât un student a studiat mai puțin, cu atât tind să obțină un scor mai mare la teste.
De fapt, coeficientul asociat cu această corelație a fost -0.7981, o relație puternic negativă.
Ar trebui să-și încurajeze elevii să studieze mai puțin? Cum ar putea fi datele din lume să susțină o astfel de afirmație? Cu siguranță lipsea ceva.
După ce au discutat rezultatele, profesorii au fost de acord că ar trebui să consulte statisticianul școlii, doamna Paradox. După ce domnul Simpson i-a explicat doamnei Paradox ceea ce găsiseră în rezultatele lor, doamna Paradox le-a sugerat să analizeze datele fiecărui curs individual.
Deci, au continuat și au analizat Phys. Ed. și au continuat să le sufle mintea.
O corelație de 0,6353! Cum a fost posibil în universul statistic acest lucru?
Doamnă Paradoxul a explicat apoi acest lucru ca Paradoxul lui Simpson, un fenomen statistic în care o relație aparent puternică se inversează sau dispare atunci când este introdusă într-o a treia variabilă de confuzie.
Ea l-a convins pe domnul Simpson să comploteze din nou toate datele, dar apoi să codeze fiecare curs separat pentru a le distinge unul de celălalt.
După ce a făcut acest lucru, domnul Simpson și facultatea din clasa a IX-a au ajuns la concluzia că relația a fost într-adevăr pozitivă și că, cu cât un student a studiat mai multe ore, cu atât nota este mai mare.
Inclusiv cursul de studiu din analiză a inversat complet relația.
Cod R pentru acest exemplu:
# Load the tidyverse
library(tidyverse)
# Generating correlated data with mvrnorm() from the MASS library
library(MASS)
# Sample Means
mu <- c(20,4)
# Define our covariance matrix, and specify the covariance relationship (i.e. 0.7 in this case)
Sigma <- matrix(.7, nrow=2, ncol=2) + diag(2)*.3
# create both variables with 100 samples
vars <- mvrnorm(n=100, mu=mu, Sigma=Sigma)
# Examine the data and the correlation
head(vars)
cor(vars)
# Plot the variables
plot(vars[,1],vars[,2])
# Create a function for generating 2 correlated variables given variable means
corVars<-function(m1,m2,confVar){
mu <- c(m1,m2)
Sigma <- matrix(.7, nrow=2, ncol=2) + diag(2)*.5
vars <- mvrnorm(n=100, mu=mu, Sigma=Sigma)
Var1<-vars[,1]
Var2<-vars[,2]
df<-as.data.frame(cbind(Var1 = Var1,Var2 = Var2,Var3 = confVar))
df$Var1<-as.numeric(as.character(df$Var1))
df$Var2<-as.numeric(as.character(df$Var2))
}
# Re-running for multiple sets and combining into a single dataframe df
d1 <- corVars(m1 = 20, m2 = 82, confVar = "Algebra")
d2 <- corVars(m1 = 18, m2 = 84, confVar = "English")
d3 <- corVars(m1 = 16, m2 = 86, confVar = "Social Studies")
d4 <- corVars(m1 = 14, m2 = 88, confVar = "Art")
d5 <- corVars(m1 = 12, m2 = 90, confVar = "Physical Education")
# Create the aggregate data
df<-rbind(d1,d2,d3,d4,d5)
# Grade & Study Time Plot
df \%>\%
ggplot(aes(x = Var1, y = Var2/100)) +
geom\_jitter(aes(size = 13), alpha = 0.55, shape = 21, fill = "darkgray", color = "black") +
scale\_y\_continuous(name = "Final Percentage", labels = percent)+
scale\_x\_continuous(name = "Approximate Hours for Preparation")+
guides(size = FALSE) +
ggtitle("Impact of Studying on Final Grades")+
theme(plot.title = element\_text(hjust = 0.5))+
theme\_bw()
# Grade & Study Time Correlation
cor(df$Var1, df$Var2)
# PhysEd Plot
df \%>\%
filter(Var3 == "Physical Education") \%>\%
ggplot(aes(x = Var1, y = Var2/100)) +
geom\_jitter(aes(size = 13), alpha = 0.55, shape = 21, fill = "darkgray", color = "black") +
scale\_y\_continuous(name = "Final Percentage", labels = percent)+
scale\_x\_continuous(name = "Approximate Hours for Preparation")+
guides(size = FALSE) +
ggtitle("Impact of Studying on Final Grades (Physical Education Only)")+
theme(plot.title = element\_text(hjust = 0.5))+
theme\_bw()
# PhysEd Correlation
cor(df$Var1[df$Var3 == "Physical Education"], df$Var2[df$Var3 == "Physical Education"])
# Confounding plot
df \%>\%
ggplot(aes(x = Var1, y = Var2/100)) +
geom\_jitter(aes(size = 1, fill = Var3), alpha = 0.25, shape = 21) +
guides(fill = guide\_legend(title = "Course Class", override.aes = list(size = 5)),
size = FALSE) +
scale\_y\_continuous(name = "Testing Results", labels = percent)+
scale\_x\_continuous(name = "Approximate Hours for Preparation")+
ggtitle("Impact of Studying on Final Grades")+
theme(plot.title = element\_text(hjust = 0.5))+
theme\_bw()