Hvad er Pinocchio-paradokset?

Bedste svar

Hvis hans næse ikke vokser, fortæller han en løgn og hans næse vokser, men så fortæller han sandheden, og det kan ikke ske.
Hvis hans næse vokser, fortæller han sandheden, så det kan ikke ske.
Hvis hans næse vokser, vil han fortæller sandheden, men hans næse vokser, hvis han lyver, så det kan ikke ske.
Hvis hans næse ikke vokser, lyver han, og den vil vokse, men så ville han fortælle sandheden, så det kan ikke ske.

Svar

Under et fakultetsmøde besluttede en gruppe lærere i 9. klasse, at de skulle forstå yderligere, hvad den studerendes optimale varighed er for studerende for at opnå tilfredsstillende resultater. Så de besluttede at samle det omtrentlige antal timer, de studerende studerede, og derefter sammenligne med den studerendes testresultater.

Mr. Simpson overbeviste fakultetet om, at flere data betyder bedre resultater, og derfor integrerede alle lærerne deres tværgående data til analysen.

Resultaterne var forbløffende. Til alles forvirring, jo mindre en studerende studerede, jo højere har de en tendens til at score på prøver.

Faktisk er koefficienten forbundet med denne sammenhæng var -0,7981, et stærkt negativt forhold.

Skal de tilskynde deres studerende til at studere mindre? Hvordan i alverden kunne data bakke op om en sådan påstand? Der manglede bestemt noget.

Efter at have diskuteret resultaterne, blev lærerne enige om, at de skulle konsultere skolens statistik, fru Paradox. Efter at Simpson havde forklaret fru Paradox, hvad de havde fundet i deres resultater, foreslog fru Paradox, at de analyserede hvert kursus data individuelt.

Så de gik videre og analyserede Phys. Ed. og fortsatte med at få deres sind sprængt.

En korrelation på 0,6353! Hvordan var det overhovedet muligt i det statistiske univers?

Fru Paradox forklarede derefter dette som Simpsons Paradox, et statistisk fænomen, hvor et tilsyneladende stærkt forhold vender eller forsvinder, når det introduceres til en tredje forvirrende variabel.

Hun overbeviste Mr. Simpson om at plotte alle dataene igen, men derefter farvekode hvert kursus separat for at skelne dem fra hinanden.

Efter at have gjort det konkluderede Mr. Simpson og 9. klasse fakultetet, at forholdet virkelig var positivt, og at jo flere timer en studerende studerede, jo højere har karakteren en tendens til at være.

Inklusive studieforløbet i analysen vendte forholdet fuldstændigt om.

R Kode til dette eksempel:

# Load the tidyverse

library(tidyverse)

# Generating correlated data with mvrnorm() from the MASS library

library(MASS)

# Sample Means

mu <- c(20,4)

# Define our covariance matrix, and specify the covariance relationship (i.e. 0.7 in this case)

Sigma <- matrix(.7, nrow=2, ncol=2) + diag(2)*.3

# create both variables with 100 samples

vars <- mvrnorm(n=100, mu=mu, Sigma=Sigma)

# Examine the data and the correlation

head(vars)

cor(vars)

# Plot the variables

plot(vars[,1],vars[,2])

# Create a function for generating 2 correlated variables given variable means

corVars<-function(m1,m2,confVar){

mu <- c(m1,m2)

Sigma <- matrix(.7, nrow=2, ncol=2) + diag(2)*.5

vars <- mvrnorm(n=100, mu=mu, Sigma=Sigma)

Var1<-vars[,1]

Var2<-vars[,2]

df<-as.data.frame(cbind(Var1 = Var1,Var2 = Var2,Var3 = confVar))

df$Var1<-as.numeric(as.character(df$Var1))

df$Var2<-as.numeric(as.character(df$Var2))

}

# Re-running for multiple sets and combining into a single dataframe df

d1 <- corVars(m1 = 20, m2 = 82, confVar = "Algebra")

d2 <- corVars(m1 = 18, m2 = 84, confVar = "English")

d3 <- corVars(m1 = 16, m2 = 86, confVar = "Social Studies")

d4 <- corVars(m1 = 14, m2 = 88, confVar = "Art")

d5 <- corVars(m1 = 12, m2 = 90, confVar = "Physical Education")

# Create the aggregate data

df<-rbind(d1,d2,d3,d4,d5)

# Grade & Study Time Plot

df \%>\%

ggplot(aes(x = Var1, y = Var2/100)) +

geom\_jitter(aes(size = 13), alpha = 0.55, shape = 21, fill = "darkgray", color = "black") +

scale\_y\_continuous(name = "Final Percentage", labels = percent)+

scale\_x\_continuous(name = "Approximate Hours for Preparation")+

guides(size = FALSE) +

ggtitle("Impact of Studying on Final Grades")+

theme(plot.title = element\_text(hjust = 0.5))+

theme\_bw()

# Grade & Study Time Correlation

cor(df$Var1, df$Var2)

# PhysEd Plot

df \%>\%

filter(Var3 == "Physical Education") \%>\%

ggplot(aes(x = Var1, y = Var2/100)) +

geom\_jitter(aes(size = 13), alpha = 0.55, shape = 21, fill = "darkgray", color = "black") +

scale\_y\_continuous(name = "Final Percentage", labels = percent)+

scale\_x\_continuous(name = "Approximate Hours for Preparation")+

guides(size = FALSE) +

ggtitle("Impact of Studying on Final Grades (Physical Education Only)")+

theme(plot.title = element\_text(hjust = 0.5))+

theme\_bw()

# PhysEd Correlation

cor(df$Var1[df$Var3 == "Physical Education"], df$Var2[df$Var3 == "Physical Education"])

# Confounding plot

df \%>\%

ggplot(aes(x = Var1, y = Var2/100)) +

geom\_jitter(aes(size = 1, fill = Var3), alpha = 0.25, shape = 21) +

guides(fill = guide\_legend(title = "Course Class", override.aes = list(size = 5)),

size = FALSE) +

scale\_y\_continuous(name = "Testing Results", labels = percent)+

scale\_x\_continuous(name = "Approximate Hours for Preparation")+

ggtitle("Impact of Studying on Final Grades")+

theme(plot.title = element\_text(hjust = 0.5))+

theme\_bw()

Bedste svar

Svar

Related Post

Skriv et svar Annuller svar