Vad är Pinocchio-paradoxen?


Bästa svaret

  • Om näsan inte växer säger han en lögn och näsan kommer att växa men då berättar han sanningen och det kan inte hända.
  • Om näsan växer talar han sanningen, så det kan inte hända.
  • Om näsan växer, kommer han talar sanningen, men näsan växer om han ljuger så att det inte kan hända.
  • Om näsan inte kommer att växa ljuger han och den kommer att växa men då skulle han säga sanningen så det kan inte hända.

Svar

Under ett fakultetsmöte bestämde en grupp lärare på 9: e klass att de behövde förstå ytterligare hur studiens optimala varaktighet är för att uppnå tillfredsställande resultat. Så de bestämde sig för att samla ungefärligt antal timmar studenter studerade och sedan jämföra med studentens testresultat.

Mr. Simpson övertygade fakulteten om att mer data betyder bättre resultat, och så integrerade alla lärarna sina korsdata för analysen.

Resultaten var häpnadsväckande. Till allas förvirring, ju mindre en student studerade desto högre tenderar de att göra poäng på tester.

Faktum är att koefficienten är associerad med denna korrelation var -0,7981, ett starkt negativt förhållande.

Ska de uppmuntra sina elever att studera mindre? Hur i hela världen kan data säkerhetskopiera ett sådant påstående? Visst saknades något.

Efter att ha diskuterat resultaten kom lärarna överens om att de skulle rådfråga skolans statistiker, Fru Paradox. Efter att Simpson förklarade för fru Paradox vad de hade hittat i sina resultat föreslog fru Paradox att de analyserade varje kursdata individuellt.

Så de fortsatte och analyserade Phys. Ed. och fortsatte att få sina tankar sprängda.

En korrelation på 0,6353! Hur i det statistiska universum var det ens möjligt?

Fru Paradox förklarade sedan detta som Simpsons Paradox, ett statistiskt fenomen där ett till synes starkt förhållande vänder eller försvinner när det införs en tredje förvirrande variabel.

Hon övertygade herr Simpson om att plotta alla data igen, men sedan färgkoda varje kurs separat för att skilja dem från varandra.

Efter att ha gjort det, drog Simpson och 9: e klassens fakultet slutsatsen att förhållandet verkligen var positivt och att ju fler timmar en student studerade, desto högre tenderar betyget att vara.

Inklusive studiens gång i analysen vänt helt förhållandet.

R Kod för detta exempel:

# Load the tidyverse

library(tidyverse)

# Generating correlated data with mvrnorm() from the MASS library

library(MASS)

# Sample Means

mu <- c(20,4)

# Define our covariance matrix, and specify the covariance relationship (i.e. 0.7 in this case)

Sigma <- matrix(.7, nrow=2, ncol=2) + diag(2)*.3

# create both variables with 100 samples

vars <- mvrnorm(n=100, mu=mu, Sigma=Sigma)

# Examine the data and the correlation

head(vars)

cor(vars)

# Plot the variables

plot(vars[,1],vars[,2])

# Create a function for generating 2 correlated variables given variable means

corVars<-function(m1,m2,confVar){

mu <- c(m1,m2)

Sigma <- matrix(.7, nrow=2, ncol=2) + diag(2)*.5

vars <- mvrnorm(n=100, mu=mu, Sigma=Sigma)

Var1<-vars[,1]

Var2<-vars[,2]

df<-as.data.frame(cbind(Var1 = Var1,Var2 = Var2,Var3 = confVar))

df$Var1<-as.numeric(as.character(df$Var1))

df$Var2<-as.numeric(as.character(df$Var2))

}

# Re-running for multiple sets and combining into a single dataframe df

d1 <- corVars(m1 = 20, m2 = 82, confVar = "Algebra")

d2 <- corVars(m1 = 18, m2 = 84, confVar = "English")

d3 <- corVars(m1 = 16, m2 = 86, confVar = "Social Studies")

d4 <- corVars(m1 = 14, m2 = 88, confVar = "Art")

d5 <- corVars(m1 = 12, m2 = 90, confVar = "Physical Education")

# Create the aggregate data

df<-rbind(d1,d2,d3,d4,d5)

# Grade & Study Time Plot

df \%>\%

ggplot(aes(x = Var1, y = Var2/100)) +

geom\_jitter(aes(size = 13), alpha = 0.55, shape = 21, fill = "darkgray", color = "black") +

scale\_y\_continuous(name = "Final Percentage", labels = percent)+

scale\_x\_continuous(name = "Approximate Hours for Preparation")+

guides(size = FALSE) +

ggtitle("Impact of Studying on Final Grades")+

theme(plot.title = element\_text(hjust = 0.5))+

theme\_bw()

# Grade & Study Time Correlation

cor(df$Var1, df$Var2)

# PhysEd Plot

df \%>\%

filter(Var3 == "Physical Education") \%>\%

ggplot(aes(x = Var1, y = Var2/100)) +

geom\_jitter(aes(size = 13), alpha = 0.55, shape = 21, fill = "darkgray", color = "black") +

scale\_y\_continuous(name = "Final Percentage", labels = percent)+

scale\_x\_continuous(name = "Approximate Hours for Preparation")+

guides(size = FALSE) +

ggtitle("Impact of Studying on Final Grades (Physical Education Only)")+

theme(plot.title = element\_text(hjust = 0.5))+

theme\_bw()

# PhysEd Correlation

cor(df$Var1[df$Var3 == "Physical Education"], df$Var2[df$Var3 == "Physical Education"])

# Confounding plot

df \%>\%

ggplot(aes(x = Var1, y = Var2/100)) +

geom\_jitter(aes(size = 1, fill = Var3), alpha = 0.25, shape = 21) +

guides(fill = guide\_legend(title = "Course Class", override.aes = list(size = 5)),

size = FALSE) +

scale\_y\_continuous(name = "Testing Results", labels = percent)+

scale\_x\_continuous(name = "Approximate Hours for Preparation")+

ggtitle("Impact of Studying on Final Grades")+

theme(plot.title = element\_text(hjust = 0.5))+

theme\_bw()

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *