Wat is de Pinokkio-paradox?


Beste antwoord

  • Als zijn neus niet groeit, vertelt hij een leugen en zal zijn neus groeien, maar dan vertelt hij de waarheid en het kan niet gebeuren.
  • Als zijn neus groeit, vertelt hij de waarheid, dus het kan niet gebeuren.
  • Als zijn neus groeit, zal hij de waarheid vertellen, maar zijn neus groeit als hij liegt, zodat het niet kan gebeuren.
  • Als zijn neus niet groeit, liegt hij en hij zal groeien, maar dan zou hij de waarheid vertellen, dus kan niet gebeuren.

Antwoord

Tijdens een faculteitsvergadering besloot een groep leraren van het 9e leerjaar dat ze beter moesten begrijpen wat de optimale studieduur is voor studenten om bevredigende resultaten te bereiken. Dus besloten ze het geschatte aantal uren dat studenten studeerden te verzamelen en deze vervolgens te vergelijken met de testscores van de student.

Mr. Simpson overtuigde de faculteit ervan dat meer data betere resultaten betekent, en daarom hebben alle docenten hun cursusoverschrijdende data geïntegreerd voor de analyse.

De resultaten waren verbluffend. Tot ieders verwarring: hoe minder een student studeerde, hoe hoger hij scoort op toetsen.

In feite is de coëfficiënt geassocieerd met deze correlatie was -0.7981, een sterk negatieve relatie.

Moeten ze hun studenten aanmoedigen om minder te studeren? Hoe kunnen gegevens in vredesnaam een ​​dergelijke claim ondersteunen? Er ontbrak zeker iets.

Na bespreking van de resultaten, kwamen de leraren overeen dat ze de statisticus van de school, mevrouw Paradox, moesten raadplegen. Nadat de heer Simpson aan mevrouw Paradox had uitgelegd wat ze in hun resultaten hadden gevonden, stelde mevrouw Paradox voor om de gegevens van elke cursus afzonderlijk te analyseren.

Dus gingen ze door en analyseerden Phys. Ed. en gingen verder met hun verstand.

Een correlatie van 0,6353! Hoe was dit in het statistische universum mogelijk?

Mevr. Paradox legde dit vervolgens uit als Simpsons Paradox, een statistisch fenomeen waarbij een ogenschijnlijk sterke relatie omkeert of verdwijnt wanneer deze wordt geïntroduceerd bij een derde verstorende variabele.

Ze overtuigde meneer Simpson om alle gegevens nogmaals uit te zetten, maar vervolgens elke cursus afzonderlijk een kleurcode te geven om ze van elkaar te onderscheiden.

Na dit te hebben gedaan, concludeerden de heer Simpson en de 9e klas faculteit dat de relatie inderdaad positief was, en dat hoe meer uren een student studeerde, hoe hoger het cijfer was.

Inclusief het verloop van de studie in de analyse heeft de relatie volledig omgekeerd.

R Code voor dit voorbeeld:

# Load the tidyverse

library(tidyverse)

# Generating correlated data with mvrnorm() from the MASS library

library(MASS)

# Sample Means

mu <- c(20,4)

# Define our covariance matrix, and specify the covariance relationship (i.e. 0.7 in this case)

Sigma <- matrix(.7, nrow=2, ncol=2) + diag(2)*.3

# create both variables with 100 samples

vars <- mvrnorm(n=100, mu=mu, Sigma=Sigma)

# Examine the data and the correlation

head(vars)

cor(vars)

# Plot the variables

plot(vars[,1],vars[,2])

# Create a function for generating 2 correlated variables given variable means

corVars<-function(m1,m2,confVar){

mu <- c(m1,m2)

Sigma <- matrix(.7, nrow=2, ncol=2) + diag(2)*.5

vars <- mvrnorm(n=100, mu=mu, Sigma=Sigma)

Var1<-vars[,1]

Var2<-vars[,2]

df<-as.data.frame(cbind(Var1 = Var1,Var2 = Var2,Var3 = confVar))

df$Var1<-as.numeric(as.character(df$Var1))

df$Var2<-as.numeric(as.character(df$Var2))

}

# Re-running for multiple sets and combining into a single dataframe df

d1 <- corVars(m1 = 20, m2 = 82, confVar = "Algebra")

d2 <- corVars(m1 = 18, m2 = 84, confVar = "English")

d3 <- corVars(m1 = 16, m2 = 86, confVar = "Social Studies")

d4 <- corVars(m1 = 14, m2 = 88, confVar = "Art")

d5 <- corVars(m1 = 12, m2 = 90, confVar = "Physical Education")

# Create the aggregate data

df<-rbind(d1,d2,d3,d4,d5)

# Grade & Study Time Plot

df \%>\%

ggplot(aes(x = Var1, y = Var2/100)) +

geom\_jitter(aes(size = 13), alpha = 0.55, shape = 21, fill = "darkgray", color = "black") +

scale\_y\_continuous(name = "Final Percentage", labels = percent)+

scale\_x\_continuous(name = "Approximate Hours for Preparation")+

guides(size = FALSE) +

ggtitle("Impact of Studying on Final Grades")+

theme(plot.title = element\_text(hjust = 0.5))+

theme\_bw()

# Grade & Study Time Correlation

cor(df$Var1, df$Var2)

# PhysEd Plot

df \%>\%

filter(Var3 == "Physical Education") \%>\%

ggplot(aes(x = Var1, y = Var2/100)) +

geom\_jitter(aes(size = 13), alpha = 0.55, shape = 21, fill = "darkgray", color = "black") +

scale\_y\_continuous(name = "Final Percentage", labels = percent)+

scale\_x\_continuous(name = "Approximate Hours for Preparation")+

guides(size = FALSE) +

ggtitle("Impact of Studying on Final Grades (Physical Education Only)")+

theme(plot.title = element\_text(hjust = 0.5))+

theme\_bw()

# PhysEd Correlation

cor(df$Var1[df$Var3 == "Physical Education"], df$Var2[df$Var3 == "Physical Education"])

# Confounding plot

df \%>\%

ggplot(aes(x = Var1, y = Var2/100)) +

geom\_jitter(aes(size = 1, fill = Var3), alpha = 0.25, shape = 21) +

guides(fill = guide\_legend(title = "Course Class", override.aes = list(size = 5)),

size = FALSE) +

scale\_y\_continuous(name = "Testing Results", labels = percent)+

scale\_x\_continuous(name = "Approximate Hours for Preparation")+

ggtitle("Impact of Studying on Final Grades")+

theme(plot.title = element\_text(hjust = 0.5))+

theme\_bw()

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *