Hvordan lage QQ-plot i Excel


Beste svaret

For å lage et QQ-plot i Excel må du ha noen ting først:

  • Et sortert datasett
  • En ordinær sekvens for å rangere datapunktene
  • Utfør kvantilberegningen over datasettpunktene
  • Finn z-score tilsvarende kvantilene til datasettet

Dette i en illustrasjon av det ovennevnte:

  • Deretter setter du inn et spredningsdiagram ved å bruke z-score som X-akse og datasettpunktene som Y-akse

{ Merk : min Excel-versjon er på spansk, men konteksten er ame for alle andre språkversjoner.}

  • Når du har gjort dette, vil du ha et diagram som ligner på dette

  • Høyreklikk på datapunktene og velg legg til trendlinje alternativ
  • Formater plottet som ønsket

Svar

QQ-plott brukes til å sammenligne to fordelinger.

La oss bruke et eksempel: Under grønt er et histogram på 100 datapunkter. Blå er PDF-en for en normalfordeling. Du kan se at grønt er omtrent normalfordelt, bortsett fra at på venstre side er det flere lave verdier enn det burde ha.

Dette blir tydeligere når du plotter ut dataene som nedenfor på en spredt måte:

Grønt er det 100 datapunkter fra histogrammet. Blå er 1\%, 2\%, … 100\% kvantiler av en normalfordeling. Utløpene til venstre blir tydeligere for øye ball på dette punktet. Men det er fortsatt vanskelig å fortelle hvor nær den grønne fordelingen er til blått, spesielt med data i midten som alle er dempet ut. Hva om vi sammenligner det minste datapunktet i grønt med det minste datapunkt i blått? Nest minste i grønt med nest minste i blått? … Og se hvor mye de har av?

Og det er hva et QQ-plot er :

La oss fokusere på det laveste punktet til venstre. I en teoretisk normalfordeling (x-akse, tilsvarende den blå fordelingen i forrige tomt), skal 1\% -kvantilen være -2,6; i vår prøvedistribusjon (y-akse, tilsvarende den grønne fordelingen i forrige tomt), er 1\% -kvantilen (dvs. det minste datapunktet i et datasett med størrelse 100) -3,4. Det ser lavere ut enn det skulle være (under den monterte 45 graders linjen).

QQ-plott er ikke veldig intuitive å lese , men vi kan bygge mer intuisjon ved å se på QQ-plott med forskjellige distribusjoner.

Bimodale prøver sammenlignet med normalfordeling:

Igjen, la oss tenke på hvordan vi kan transformere normalfordeling i blått til prøvene i grønt: vi trenger å presse henholdsvis venstre halvdel og høyre halvdel, og la midtpunktet være omtrent uendret. Deler som bare er venstre til eller høyre til midtpunktet tynnes ut (lavere og høyere enn deres kolleger i den blå normalfordelingen).

Dette gjenspeiles i QQ-plottet:

Legg merke til hvordan punktet nær 0 ligger på linjen. Lengst til venstre er over linjen og helt til høyre er under linjen: det betyr at halene er mindre spredt i prøvene enn den teoretiske fordelingen. Deler som er rett til venstre eller høyre til 0 er under og over linjen, noe som betyr at disse punktene blir presset til lengre venstre og til høyre fra den teoretiske fordelingen.

Her er et plot for å visualisere forbindelsen:

Her er en mental modell for å visualisere et QQ-plot: forestill deg teoretisk fordeling i blått som 100 perler på en stang. Du kan skyve hver perle mot venstre eller høyre for å komme til prøvefordelingen. Hvis du skyver til venstre, betyr det i et Q-Q-plot, at datapunktet er under den monterte linjen; hvis du skyver til høyre, er det over. I utgangspunktet roterer du bevegelsen mot urviseren med 90 grader

Ett eksempel: Høyre skjevprøver sammenlignet med en normalfordeling

Tilsvarende venstre punkter i den blå normalfordelingen alle blir klemt til nær -1 i den grønne fordelingen.Høyre punkter i den blå normalfordelingen trekkes lengre til høyre enn de burde være. Dette gjenspeiles i QQ-plottet:

Legg merke til hvordan begge haler er høyere enn 45 graders linjen.

For mer intuisjon, nedenfor er alle prøvene hentet fra en normalfordeling, av forskjellige prøvestørrelser, sammenlignet med normalfordelingen.

QQ-plott er ikke begrenset til normale fordelinger. Du kan bruke den til å sammenligne to distribusjoner.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *