Sådan oprettes QQ-plot i Excel


Bedste svar

For at lave et QQ-plot i Excel skal du have nogle ting først:

  • Et sorteret datasæt
  • En ordinsekvens for at rangordne datapunkterne
  • Udfør kvantilberegningen over datasætpunkterne
  • Find z-scores svarende til datamængderne i datasættet

Dette i en illustration af ovennævnte:

  • Derefter indsætter du et spredningsdiagram ved hjælp af z-scores som X-akse og datasættet peger som Y-akse

{ Bemærk venligst : min Excel-version er på spansk, men konteksten er den ame til alle andre sprogversioner.}

  • Når du har gjort dette, har du et diagram, der ligner dette

  • Højreklik på datapunkterne, og vælg tilføj trendlinje mulighed
  • Formatér plottet som ønsket

Svar

QQ-plot bruges til at sammenligne to distributioner.

Lad os bruge et eksempel: Under grøn er en histogram på 100 datapunkter. Blå er PDFen for en normalfordeling. Du kan se, at grønt er nogenlunde normalfordelt, bortset fra at der på venstre side er flere lave værdier, end det skulle have.

Dette bliver mere tydeligt, når du plotter dataene som nedenfor på en spredt måde:

Grøn er den 100 datapunkter fra histogrammet. Blå er 1\%, 2\%, … 100\% kvantiler af en normalfordeling. Outliers til venstre bliver mere indlysende for øje bolden på dette tidspunkt. Men det er stadig svært at fortælle, hvor tæt den grønne fordeling er på blå, især med data i midten alle dæmpet ud. Hvad hvis vi sammenligner det mindste datapunkt i grønt med mindste datapunkt i blåt? Anden mindste i grønt med næstmindste i blåt? … Og se hvor meget de har fravær?

Og det er hvad et QQ-plot er :

Lad os fokusere på det laveste punkt til venstre. I en teoretisk normalfordeling (x-akse svarende til den blå fordeling i det foregående plot) skal 1\% -kvantilen være -2,6; i vores prøvefordeling (y-akse svarende til den grønne fordeling i det foregående plot) er 1\% -kvantilen (dvs. det mindste datapunkt i et datasæt med størrelse 100) -3,4. Det ser ud til at være lavere end det burde være (under den monterede 45 graders linje).

QQ-plots er ikke særlig intuitive at læse , men vi kan opbygge mere intuition ved at se på QQ-plots med forskellige distributioner.

Bimodale prøver sammenlignet med normalfordeling:

Lad os igen tænke på, hvordan man transformerer normalfordeling i blåt til prøverne i grønt: vi skal presse henholdsvis venstre halvdel og højre halvdel og lade midterpunktet være uændret. Dele lige venstre til eller højre til midtpunktet tyndes ud (lavere og højere end deres kolleger i den blå normalfordeling).

Disse afspejles alle i QQ-plottet:

Bemærk hvordan punktet nær 0 ligger på linjen. Langt til venstre er over linjen og yderst til højre er under linjen: hvilket betyder, at halerne er mindre spredt i prøverne end den teoretiske fordeling. Dele lige venstre til eller højre til 0 er under og over linjen, hvilket betyder, at disse punkter skubbes længere mod venstre og længere mod højre fra den teoretiske fordeling.

Her er et plot, der hjælper med at visualisere forbindelsen:

Her er en mental model til visualisering af et QQ-plot: forestil dig teoretisk fordeling i blåt som 100 perler på en stang. Du kan skubbe hver perle til venstre eller højre for at komme til prøvefordelingen. Hvis du skubber til venstre, betyder det i et Q-Q-plot, at datapunktet er under den monterede linje; hvis du skubber til højre, er det over. Drej dybest set bevægelsen mod uret med 90 grader

Endnu et eksempel: Højre skæve prøver sammenlignet med en normalfordeling

Tilsvarende venstre punkter i den blå normalfordeling alle bliver presset til næsten -1 i den grønne distribution.De yderste punkter i den blå normalfordeling trækkes længere til højre end de burde være. Dette afspejles alt i QQ-plottet:

Bemærk, hvordan begge haler er højere end 45 graders linjen.

For mere intuition er nedenfor alle prøver trukket fra en normalfordeling med forskellige stikprøvestørrelser sammenlignet med normalfordelingen.

QQ-plots er ikke begrænset til normale fordelinger. Du kan bruge den til at sammenligne to distributioner.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *