Co je paradox Pinocchio?


Nejlepší odpověď

  • Pokud mu nos neroste, říká lži a jeho nos poroste, ale pak říká Pravda a to se nemůže stát.
  • Pokud mu roste nos, říká pravdu, takže se to nemůže stát.
  • Pokud mu roste nos, bude říkat pravdu, ale jeho nos roste, pokud lže, aby se to nestalo.
  • Pokud mu nos neroste, lže a poroste, ale pak by řekl pravdu, tak to se to nemůže stát.

Odpověď

Během setkání na fakultě se skupina učitelů 9. ročníků rozhodla, že musí dále porozumět tomu, co je optimální doba studia pro studenty dosáhnout uspokojivých výsledků. Rozhodli se tedy shromáždit přibližný počet hodin, které studenti studovali, a poté je porovnat s výsledky testů studentů.

Mr. Simpson přesvědčil fakultu, že více dat znamená lepší výsledky, a tak všichni učitelé integrovali pro analýzu své údaje o různých kurzech.

Výsledky byly ohromující. Ke zmatku každého, čím méně student studoval, tím vyšší má v testech tendenci skórovat.

Ve skutečnosti koeficient spojená s touto korelací byla -0,7981, což je silně negativní vztah.

Měli by své studenty povzbuzovat ke studiu méně? Jak by na světě mohla data zálohovat takový nárok? Určitě něco chybělo.

Po diskusi o výsledcích se učitelé dohodli, že by se měli poradit se statistikou školy, paní Paradoxovou. Poté, co pan Simpson vysvětlil paní Paradoxové, co zjistili ve svých výsledcích, navrhla paní Paradoxová, aby analyzovali data každého kurzu jednotlivě.

Takže pokračovali a analyzovali Phys. Vyd. a pokračovalo v tom, že jim jejich mysl vybuchla.

Korelace 0,6353! Jak to ve statistickém vesmíru bylo vůbec možné?

Paní Paradox to poté vysvětlil jako Simpsonův Paradox, statistický jev, při kterém se zdánlivě silný vztah obrací nebo mizí, když je představen třetí matoucí proměnné.

Přesvědčila pana Simpsona, aby znovu vykreslil všechna data, ale pak barevně kódoval každý kurz zvlášť, aby se navzájem odlišil.

Poté pan Simpson a fakulta 9. ročníku dospěli k závěru, že vztah byl skutečně pozitivní a že čím více hodin student studoval, tím vyšší známka bývá.

Včetně průběh studie v analýze zcela obrátil vztah.

Kód R pro tento příklad:

# Load the tidyverse

library(tidyverse)

# Generating correlated data with mvrnorm() from the MASS library

library(MASS)

# Sample Means

mu <- c(20,4)

# Define our covariance matrix, and specify the covariance relationship (i.e. 0.7 in this case)

Sigma <- matrix(.7, nrow=2, ncol=2) + diag(2)*.3

# create both variables with 100 samples

vars <- mvrnorm(n=100, mu=mu, Sigma=Sigma)

# Examine the data and the correlation

head(vars)

cor(vars)

# Plot the variables

plot(vars[,1],vars[,2])

# Create a function for generating 2 correlated variables given variable means

corVars<-function(m1,m2,confVar){

mu <- c(m1,m2)

Sigma <- matrix(.7, nrow=2, ncol=2) + diag(2)*.5

vars <- mvrnorm(n=100, mu=mu, Sigma=Sigma)

Var1<-vars[,1]

Var2<-vars[,2]

df<-as.data.frame(cbind(Var1 = Var1,Var2 = Var2,Var3 = confVar))

df$Var1<-as.numeric(as.character(df$Var1))

df$Var2<-as.numeric(as.character(df$Var2))

}

# Re-running for multiple sets and combining into a single dataframe df

d1 <- corVars(m1 = 20, m2 = 82, confVar = "Algebra")

d2 <- corVars(m1 = 18, m2 = 84, confVar = "English")

d3 <- corVars(m1 = 16, m2 = 86, confVar = "Social Studies")

d4 <- corVars(m1 = 14, m2 = 88, confVar = "Art")

d5 <- corVars(m1 = 12, m2 = 90, confVar = "Physical Education")

# Create the aggregate data

df<-rbind(d1,d2,d3,d4,d5)

# Grade & Study Time Plot

df \%>\%

ggplot(aes(x = Var1, y = Var2/100)) +

geom\_jitter(aes(size = 13), alpha = 0.55, shape = 21, fill = "darkgray", color = "black") +

scale\_y\_continuous(name = "Final Percentage", labels = percent)+

scale\_x\_continuous(name = "Approximate Hours for Preparation")+

guides(size = FALSE) +

ggtitle("Impact of Studying on Final Grades")+

theme(plot.title = element\_text(hjust = 0.5))+

theme\_bw()

# Grade & Study Time Correlation

cor(df$Var1, df$Var2)

# PhysEd Plot

df \%>\%

filter(Var3 == "Physical Education") \%>\%

ggplot(aes(x = Var1, y = Var2/100)) +

geom\_jitter(aes(size = 13), alpha = 0.55, shape = 21, fill = "darkgray", color = "black") +

scale\_y\_continuous(name = "Final Percentage", labels = percent)+

scale\_x\_continuous(name = "Approximate Hours for Preparation")+

guides(size = FALSE) +

ggtitle("Impact of Studying on Final Grades (Physical Education Only)")+

theme(plot.title = element\_text(hjust = 0.5))+

theme\_bw()

# PhysEd Correlation

cor(df$Var1[df$Var3 == "Physical Education"], df$Var2[df$Var3 == "Physical Education"])

# Confounding plot

df \%>\%

ggplot(aes(x = Var1, y = Var2/100)) +

geom\_jitter(aes(size = 1, fill = Var3), alpha = 0.25, shape = 21) +

guides(fill = guide\_legend(title = "Course Class", override.aes = list(size = 5)),

size = FALSE) +

scale\_y\_continuous(name = "Testing Results", labels = percent)+

scale\_x\_continuous(name = "Approximate Hours for Preparation")+

ggtitle("Impact of Studying on Final Grades")+

theme(plot.title = element\_text(hjust = 0.5))+

theme\_bw()

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *