Co to jest paradoks Pinokia?


Najlepsza odpowiedź

  • Jeśli jego nos nie rośnie, kłamie, a jego nos rośnie, ale potem mówi prawdy i to nie może się zdarzyć.
  • Jeśli jego nos rośnie, mówi prawdę, więc to nie może się zdarzyć.
  • Jeśli jego nos będzie rosnąć, będzie mówi prawdę, ale jego nos rośnie, jeśli kłamie, więc to nie może się zdarzyć.
  • Jeśli jego nos nie rośnie, kłamie i będzie rosnąć, ale wtedy mówiłby prawdę, więc to nie może się wydarzyć.

Odpowiedź

Podczas spotkania wydziału grupa nauczycieli dziewiątej klasy zdecydowała, że ​​muszą dokładniej zrozumieć, jaki jest optymalny czas trwania nauki dla uczniów aby osiągnąć zadowalające rezultaty. Postanowili więc zebrać przybliżoną liczbę godzin, przez które studiowali studenci, a następnie porównać je z wynikami testów uczniów.

Simpson przekonał wykładowców, że więcej danych oznacza lepsze wyniki, dlatego wszyscy nauczyciele zintegrowali swoje dane z różnych kursów do analizy.

Wyniki były zdumiewające. Ku zdziwieniu wszystkich, im mniej uczeń się uczył, tym wyższy jest wynik na testach.

W rzeczywistości współczynnik związane z tą korelacją było -0,7981, silnie negatywna zależność.

Czy powinni zachęcać swoich uczniów do mniejszego studiowania? Jak na świecie dane mogą potwierdzać takie twierdzenie? Z pewnością czegoś brakowało.

Po omówieniu wyników nauczyciele zgodzili się, że powinni skonsultować się ze statystykami szkolnymi, panią Paradox. Po tym, jak pan Simpson wyjaśnił pani Paradox, co znaleźli w swoich wynikach, pani Paradox zasugerowała, aby przeanalizować dane każdego kursu indywidualnie.

Więc poszli dalej i przeanalizowali Phys. Ed. i ich umysły zostały oszołomione.

Korelacja 0,6353! Jak w statystycznym wszechświecie było to w ogóle możliwe?

Pani Następnie Paradox wyjaśnił to jako Paradoks Simpsona, zjawisko statystyczne, w którym pozornie silna zależność odwraca się lub znika po wprowadzeniu trzeciej mylącej zmiennej.

Przekonała pana Simpsona, aby ponownie wykreślił wszystkie dane, ale następnie oznaczyła kolorami każdy kurs osobno, aby odróżnić je od siebie.

Po wykonaniu tej czynności pan Simpson i wykładowca klasy dziewiątej doszli do wniosku, że związek jest rzeczywiście pozytywny i że im więcej godzin uczeń studiował, tym wyższa jest ocena.

W tym Przebieg studiów w analizie całkowicie odwrócił zależność.

Kod R dla tego przykładu:

# Load the tidyverse

library(tidyverse)

# Generating correlated data with mvrnorm() from the MASS library

library(MASS)

# Sample Means

mu <- c(20,4)

# Define our covariance matrix, and specify the covariance relationship (i.e. 0.7 in this case)

Sigma <- matrix(.7, nrow=2, ncol=2) + diag(2)*.3

# create both variables with 100 samples

vars <- mvrnorm(n=100, mu=mu, Sigma=Sigma)

# Examine the data and the correlation

head(vars)

cor(vars)

# Plot the variables

plot(vars[,1],vars[,2])

# Create a function for generating 2 correlated variables given variable means

corVars<-function(m1,m2,confVar){

mu <- c(m1,m2)

Sigma <- matrix(.7, nrow=2, ncol=2) + diag(2)*.5

vars <- mvrnorm(n=100, mu=mu, Sigma=Sigma)

Var1<-vars[,1]

Var2<-vars[,2]

df<-as.data.frame(cbind(Var1 = Var1,Var2 = Var2,Var3 = confVar))

df$Var1<-as.numeric(as.character(df$Var1))

df$Var2<-as.numeric(as.character(df$Var2))

}

# Re-running for multiple sets and combining into a single dataframe df

d1 <- corVars(m1 = 20, m2 = 82, confVar = "Algebra")

d2 <- corVars(m1 = 18, m2 = 84, confVar = "English")

d3 <- corVars(m1 = 16, m2 = 86, confVar = "Social Studies")

d4 <- corVars(m1 = 14, m2 = 88, confVar = "Art")

d5 <- corVars(m1 = 12, m2 = 90, confVar = "Physical Education")

# Create the aggregate data

df<-rbind(d1,d2,d3,d4,d5)

# Grade & Study Time Plot

df \%>\%

ggplot(aes(x = Var1, y = Var2/100)) +

geom\_jitter(aes(size = 13), alpha = 0.55, shape = 21, fill = "darkgray", color = "black") +

scale\_y\_continuous(name = "Final Percentage", labels = percent)+

scale\_x\_continuous(name = "Approximate Hours for Preparation")+

guides(size = FALSE) +

ggtitle("Impact of Studying on Final Grades")+

theme(plot.title = element\_text(hjust = 0.5))+

theme\_bw()

# Grade & Study Time Correlation

cor(df$Var1, df$Var2)

# PhysEd Plot

df \%>\%

filter(Var3 == "Physical Education") \%>\%

ggplot(aes(x = Var1, y = Var2/100)) +

geom\_jitter(aes(size = 13), alpha = 0.55, shape = 21, fill = "darkgray", color = "black") +

scale\_y\_continuous(name = "Final Percentage", labels = percent)+

scale\_x\_continuous(name = "Approximate Hours for Preparation")+

guides(size = FALSE) +

ggtitle("Impact of Studying on Final Grades (Physical Education Only)")+

theme(plot.title = element\_text(hjust = 0.5))+

theme\_bw()

# PhysEd Correlation

cor(df$Var1[df$Var3 == "Physical Education"], df$Var2[df$Var3 == "Physical Education"])

# Confounding plot

df \%>\%

ggplot(aes(x = Var1, y = Var2/100)) +

geom\_jitter(aes(size = 1, fill = Var3), alpha = 0.25, shape = 21) +

guides(fill = guide\_legend(title = "Course Class", override.aes = list(size = 5)),

size = FALSE) +

scale\_y\_continuous(name = "Testing Results", labels = percent)+

scale\_x\_continuous(name = "Approximate Hours for Preparation")+

ggtitle("Impact of Studying on Final Grades")+

theme(plot.title = element\_text(hjust = 0.5))+

theme\_bw()

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *