Najlepsza odpowiedź
- Jeśli jego nos nie rośnie, kłamie, a jego nos rośnie, ale potem mówi prawdy i to nie może się zdarzyć.
- Jeśli jego nos rośnie, mówi prawdę, więc to nie może się zdarzyć.
- Jeśli jego nos będzie rosnąć, będzie mówi prawdę, ale jego nos rośnie, jeśli kłamie, więc to nie może się zdarzyć.
- Jeśli jego nos nie rośnie, kłamie i będzie rosnąć, ale wtedy mówiłby prawdę, więc to nie może się wydarzyć.
Odpowiedź
Podczas spotkania wydziału grupa nauczycieli dziewiątej klasy zdecydowała, że muszą dokładniej zrozumieć, jaki jest optymalny czas trwania nauki dla uczniów aby osiągnąć zadowalające rezultaty. Postanowili więc zebrać przybliżoną liczbę godzin, przez które studiowali studenci, a następnie porównać je z wynikami testów uczniów.
Simpson przekonał wykładowców, że więcej danych oznacza lepsze wyniki, dlatego wszyscy nauczyciele zintegrowali swoje dane z różnych kursów do analizy.
Wyniki były zdumiewające. Ku zdziwieniu wszystkich, im mniej uczeń się uczył, tym wyższy jest wynik na testach.
W rzeczywistości współczynnik związane z tą korelacją było -0,7981, silnie negatywna zależność.
Czy powinni zachęcać swoich uczniów do mniejszego studiowania? Jak na świecie dane mogą potwierdzać takie twierdzenie? Z pewnością czegoś brakowało.
Po omówieniu wyników nauczyciele zgodzili się, że powinni skonsultować się ze statystykami szkolnymi, panią Paradox. Po tym, jak pan Simpson wyjaśnił pani Paradox, co znaleźli w swoich wynikach, pani Paradox zasugerowała, aby przeanalizować dane każdego kursu indywidualnie.
Więc poszli dalej i przeanalizowali Phys. Ed. i ich umysły zostały oszołomione.
Korelacja 0,6353! Jak w statystycznym wszechświecie było to w ogóle możliwe?
Pani Następnie Paradox wyjaśnił to jako Paradoks Simpsona, zjawisko statystyczne, w którym pozornie silna zależność odwraca się lub znika po wprowadzeniu trzeciej mylącej zmiennej.
Przekonała pana Simpsona, aby ponownie wykreślił wszystkie dane, ale następnie oznaczyła kolorami każdy kurs osobno, aby odróżnić je od siebie.
Po wykonaniu tej czynności pan Simpson i wykładowca klasy dziewiątej doszli do wniosku, że związek jest rzeczywiście pozytywny i że im więcej godzin uczeń studiował, tym wyższa jest ocena.
W tym Przebieg studiów w analizie całkowicie odwrócił zależność.
Kod R dla tego przykładu:
# Load the tidyverse
library(tidyverse)
# Generating correlated data with mvrnorm() from the MASS library
library(MASS)
# Sample Means
mu <- c(20,4)
# Define our covariance matrix, and specify the covariance relationship (i.e. 0.7 in this case)
Sigma <- matrix(.7, nrow=2, ncol=2) + diag(2)*.3
# create both variables with 100 samples
vars <- mvrnorm(n=100, mu=mu, Sigma=Sigma)
# Examine the data and the correlation
head(vars)
cor(vars)
# Plot the variables
plot(vars[,1],vars[,2])
# Create a function for generating 2 correlated variables given variable means
corVars<-function(m1,m2,confVar){
mu <- c(m1,m2)
Sigma <- matrix(.7, nrow=2, ncol=2) + diag(2)*.5
vars <- mvrnorm(n=100, mu=mu, Sigma=Sigma)
Var1<-vars[,1]
Var2<-vars[,2]
df<-as.data.frame(cbind(Var1 = Var1,Var2 = Var2,Var3 = confVar))
df$Var1<-as.numeric(as.character(df$Var1))
df$Var2<-as.numeric(as.character(df$Var2))
}
# Re-running for multiple sets and combining into a single dataframe df
d1 <- corVars(m1 = 20, m2 = 82, confVar = "Algebra")
d2 <- corVars(m1 = 18, m2 = 84, confVar = "English")
d3 <- corVars(m1 = 16, m2 = 86, confVar = "Social Studies")
d4 <- corVars(m1 = 14, m2 = 88, confVar = "Art")
d5 <- corVars(m1 = 12, m2 = 90, confVar = "Physical Education")
# Create the aggregate data
df<-rbind(d1,d2,d3,d4,d5)
# Grade & Study Time Plot
df \%>\%
ggplot(aes(x = Var1, y = Var2/100)) +
geom\_jitter(aes(size = 13), alpha = 0.55, shape = 21, fill = "darkgray", color = "black") +
scale\_y\_continuous(name = "Final Percentage", labels = percent)+
scale\_x\_continuous(name = "Approximate Hours for Preparation")+
guides(size = FALSE) +
ggtitle("Impact of Studying on Final Grades")+
theme(plot.title = element\_text(hjust = 0.5))+
theme\_bw()
# Grade & Study Time Correlation
cor(df$Var1, df$Var2)
# PhysEd Plot
df \%>\%
filter(Var3 == "Physical Education") \%>\%
ggplot(aes(x = Var1, y = Var2/100)) +
geom\_jitter(aes(size = 13), alpha = 0.55, shape = 21, fill = "darkgray", color = "black") +
scale\_y\_continuous(name = "Final Percentage", labels = percent)+
scale\_x\_continuous(name = "Approximate Hours for Preparation")+
guides(size = FALSE) +
ggtitle("Impact of Studying on Final Grades (Physical Education Only)")+
theme(plot.title = element\_text(hjust = 0.5))+
theme\_bw()
# PhysEd Correlation
cor(df$Var1[df$Var3 == "Physical Education"], df$Var2[df$Var3 == "Physical Education"])
# Confounding plot
df \%>\%
ggplot(aes(x = Var1, y = Var2/100)) +
geom\_jitter(aes(size = 1, fill = Var3), alpha = 0.25, shape = 21) +
guides(fill = guide\_legend(title = "Course Class", override.aes = list(size = 5)),
size = FALSE) +
scale\_y\_continuous(name = "Testing Results", labels = percent)+
scale\_x\_continuous(name = "Approximate Hours for Preparation")+
ggtitle("Impact of Studying on Final Grades")+
theme(plot.title = element\_text(hjust = 0.5))+
theme\_bw()