Corelație în R: Pearson & Spearman cu Matrix Exemplu

O relație bivariantă descrie o relație - sau corelație - între două variabile și. În acest tutorial, discutăm conceptul de corelație și arătăm cum poate fi folosit pentru a măsura relația dintre oricare două variabile.

Există două metode principale pentru a calcula corelația dintre două variabile.

Pearson: corelație parametrică
Spearman: corelație non-parametrică

În acest tutorial, veți învăța

Corelația Pearson
Corelația Spearman Rank
Matricea de corelație
Vizualizați Matricea de corelație

Corelația Pearson

Metoda de corelație Pearson este de obicei utilizată ca verificare primară pentru relația dintre două variabile.

Coeficientul de corelație , este o măsură a rezistenței liniare relația dintre cele două variabile și. Se calculează după cum urmează:

, adică abaterea standard a
, adică abaterea standard a

Corelația variază între -1 și 1.

O valoare apropiată sau egală cu 0 implică o relație liniară mică sau deloc între și.
În schimb, cu cât se apropie de 1 sau -1, cu atât relația liniară este mai puternică.

Putem calcula testul t după cum urmează și putem verifica tabelul de distribuție cu un grad de libertate egal cu:

Corelația Spearman Rank

O corelație de rang ordonează observațiile după rang și calculează nivelul de asemănare dintre rang. O corelație de rang are avantajul de a fi robustă pentru valorile aberante și nu este legată de distribuirea datelor. Rețineți că, o corelație de rang este potrivită pentru variabila ordinală.

Corelația rangului lui Spearman,, este întotdeauna între -1 și 1 cu o valoare apropiată de extremitate indică o relație puternică. Se calculează după cum urmează:

cu afirmate covarianțele dintre rang și. Numitorul calculează abaterile standard.

În R, putem folosi funcția cor (). Este nevoie de trei argumente și metodă.

cor(x, y, method)

Argumente :

x: Primul vector
y: Al doilea vector
metoda: Formula utilizată pentru a calcula corelația. Trei valori de șir:
- „pearson”
- "kendall"
- "spearman"

Un argument opțional poate fi adăugat dacă vectorii conțin valoare lipsă: use = "complete.obs"

Vom folosi setul de date BudgetUK. Acest set de date raportează alocarea bugetară a gospodăriilor britanice între 1980 și 1982. Există 1519 observații cu zece caracteristici, printre care:

wfood: împărtășiți alimentele, împărțiți cheltuielile
wfuel: împărțiți cheltuielile de combustibil
wcloth: cota bugetară pentru cheltuielile de îmbrăcăminte
walc: împărtășiți cheltuielile cu alcoolul
wtrans: împărțiți cheltuielile de transport
wother: cota din alte bunuri cheltuite
totexp: cheltuielile totale ale gospodăriei în lire sterline
venituri venituri nete totale ale gospodăriei
vârstă: vârsta gospodăriei
copii: numărul copiilor

Exemplu

library(dplyr)PATH <-"https://raw.githubusercontent.com/guru99-edu/R-Programming/master/british_household.csv"data <-read.csv(PATH)filter(income < 500)mutate(log_income = log(income),log_totexp = log(totexp),children_fac = factor(children, order = TRUE, labels = c("No", "Yes")))select(-c(X,X.1, children, totexp, income))glimpse(data)

Explicarea codului

Mai întâi importăm datele și aruncăm o privire cu funcția glimpse () din biblioteca dplyr.
Trei puncte sunt peste 500.000, așa că am decis să le excludem.
Este o practică obișnuită să se convertească o variabilă monetară în jurnal. Ajută la reducerea impactului valorilor aberante și scade asimetria din setul de date.

Ieșire:

## Observations: 1,516## Variables: 10## $ wfood  0.4272, 0.3739, 0.1941, 0.4438, 0.3331, 0.3752, 0… ## $ wfuel  0.1342, 0.1686, 0.4056, 0.1258, 0.0824, 0.0481, 0… ## $ wcloth  0.0000, 0.0091, 0.0012, 0.0539, 0.0399, 0.1170, 0… ## $ walc  0.0106, 0.0825, 0.0513, 0.0397, 0.1571, 0.0210, 0… ## $ wtrans  0.1458, 0.1215, 0.2063, 0.0652, 0.2403, 0.0955, 0… ## $ wother  0.2822, 0.2444, 0.1415, 0.2716, 0.1473, 0.3431, 0… ## $ age  25, 39, 47, 33, 31, 24, 46, 25, 30, 41, 48, 24, 2… ## $ log_income  4.867534, 5.010635, 5.438079, 4.605170, 4.605170,… ## $ log_totexp  3.912023, 4.499810, 5.192957, 4.382027, 4.499810,… ## $ children_fac  Yes, Yes, Yes, Yes, No, No, No, No, No, No, Yes,…

Putem calcula coeficientul de corelație dintre veniturile și variabilele wfood cu metodele „pearson” și „spearman”.

cor(data$log_income, data$wfood, method = "pearson")

ieșire:

## [1] -0.2466986

cor(data$log_income, data$wfood, method = "spearman")

Ieșire:

## [1] -0.2501252

Matricea de corelație

Corelația bivariată este un început bun, dar putem obține o imagine mai largă cu analiza multivariată. O corelație cu multe variabile este prezentată într-o matrice de corelație . O matrice de corelație este o matrice care reprezintă corelația pereche a tuturor variabilelor.

Funcția cor () returnează o matrice de corelație. Singura diferență cu corelația bivariantă este că nu trebuie să specificăm ce variabile. În mod implicit, R calculează corelația dintre toate variabilele.

Rețineți că, o corelație nu poate fi calculată pentru variabila factor. Trebuie să ne asigurăm că eliminăm caracteristica categorică înainte de a trece cadrul de date în interiorul cor ().

O matrice de corelație este simetrică, ceea ce înseamnă că valorile de deasupra diagonalei au aceleași valori ca și cea de mai jos. Este mai vizual să arăți jumătate din matrice.

Excludem children_fac deoarece este o variabilă la nivel de factor. cor nu realizează corelație asupra unei variabile categorice.

# the last column of data is a factor level. We don't include it in the codemat_1 <-as.dist(round(cor(data[,1:9]),2))mat_1

Explicarea codului

cor (date): Afișați matricea de corelație
rotund (date, 2): rotunjiți matricea de corelație cu două zecimale
as.dist (): Afișează doar a doua jumătate

Ieșire:

## wfood wfuel wcloth walc wtrans wother age log_income## wfuel 0.11## wcloth -0.33 -0.25## walc -0.12 -0.13 -0.09## wtrans -0.34 -0.16 -0.19 -0.22## wother -0.35 -0.14 -0.22 -0.12 -0.29## age 0.02 -0.05 0.04 -0.14 0.03 0.02## log_income -0.25 -0.12 0.10 0.04 0.06 0.13 0.23## log_totexp -0.50 -0.36 0.34 0.12 0.15 0.15 0.21 0.49

Nivelul de semnificație

Nivelul de semnificație este util în unele situații când folosim metoda Pearson sau Spearman. Funcția rcorr () din biblioteca Hmisc calculează pentru noi valoarea p. Putem descărca biblioteca de la conda și putem copia codul pentru al lipi în terminal:

conda install -c r r-hmisc

Rcorr () necesită ca un cadru de date să fie stocat ca matrice. Ne putem converti datele într-o matrice înainte de a calcula matricea de corelație cu valoarea p.

library("Hmisc")data_rcorr <-as.matrix(data[, 1: 9])mat_2 <-rcorr(data_rcorr)# mat_2 <-rcorr(as.matrix(data)) returns the same output

Obiectul list mat_2 conține trei elemente:

r: ieșirea matricei de corelație
n: Numărul de observații
P: valoarea p

Ne interesează al treilea element, valoarea p. Este obișnuit să se arate matricea de corelație cu valoarea p în loc de coeficientul de corelație.

p_value <-round(mat_2[["P"]], 3)p_value

Explicarea codului

mat_2 [["P"]]: valorile p sunt stocate în elementul numit P
round (mat_2 [["P"]], 3): rotunjiți elementele cu trei cifre

Ieșire:

wfood wfuel wcloth walc wtrans wother age log_income log_totexpwfood NA 0.000 0.000 0.000 0.000 0.000 0.365 0.000 0wfuel 0.000 NA 0.000 0.000 0.000 0.000 0.076 0.000 0wcloth 0.000 0.000 NA 0.001 0.000 0.000 0.160 0.000 0walc 0.000 0.000 0.001 NA 0.000 0.000 0.000 0.105 0wtrans 0.000 0.000 0.000 0.000 NA 0.000 0.259 0.020 0wother 0.000 0.000 0.000 0.000 0.000 NA 0.355 0.000 0age 0.365 0.076 0.160 0.000 0.259 0.355 NA 0.000 0log_income 0.000 0.000 0.000 0.105 0.020 0.000 0.000 NA 0log_totexp 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 NA

Vizualizați Matricea de corelație

O hartă de căldură este un alt mod de a arăta o matrice de corelație. Biblioteca GGally este o extensie a ggplot2. În prezent, nu este disponibil în biblioteca conda. Putem instala direct în consolă.

install.packages("GGally")

Biblioteca include diferite funcții pentru a afișa statisticile rezumative, cum ar fi corelația și distribuția tuturor variabilelor într-o matrice.

Funcția ggcorr () are o mulțime de argumente. Vom introduce doar argumentele pe care le vom folosi în tutorial:

Funcția ggcorr

ggcorr(df, method = c("pairwise", "pearson"),nbreaks = NULL, digits = 2, low = "#3B9AB2",mid = "#EEEEEE", high = "#F21A00",geom = "tile", label = FALSE,label_alpha = FALSE)

Argumente:

df : set de date utilizat
metoda : Formula pentru a calcula corelația. În mod implicit, pairwise și Pearson sunt calculate
nbreaks : Returnează un interval categoric pentru colorarea coeficienților. În mod implicit, nu există pauze și gradientul de culoare este continuu
cifre : rotunjiți coeficientul de corelație. În mod implicit, setați la 2
scăzut : controlați nivelul inferior al colorării
mid : Controlează nivelul mediu al colorării
ridicat : Controlați nivelul ridicat de colorare
geom : Controlează forma argumentului geometric. În mod implicit, „țiglă”
etichetă : valoare booleană. Afișați sau nu eticheta. În mod implicit, setați la „FALS”

Harta de căldură de bază

Cel mai de bază complot al pachetului este o hartă de căldură. Legenda graficului arată o culoare de gradient de la - 1 la 1, cu o culoare fierbinte care indică o corelație puternică pozitivă și o culoare rece, o corelație negativă.

library(GGally)ggcorr(data)

Explicarea codului

ggcorr (date): este necesar un singur argument, care este numele cadrului de date. Variabilele la nivel de factor nu sunt incluse în complot.

Ieșire:

Adăugați control la harta de căldură

Putem adăuga mai multe controale în grafic.

ggcorr(data,nbreaks = 6,low = "steelblue",mid = "white",high = "darkred",geom = "circle")

Explicarea codului

nbreaks = 6: rupe legenda cu 6 ranguri.
low = "steelblue": utilizați culori mai deschise pentru corelație negativă
mid = "alb": utilizați culori albe pentru corelarea intervalelor medii
high = "darkred": folosiți culori închise pentru corelație pozitivă
geom = "cerc": folosiți cercul ca formă a ferestrelor din harta de căldură. Mărimea cercului este proporțională cu valoarea absolută a corelației.

Ieșire:

Adăugați o etichetă pe harta de căldură

GGally ne permite să adăugăm o etichetă în interiorul ferestrelor.

ggcorr(data,nbreaks = 6,label = TRUE,label_size = 3,color = "grey50")

Explicarea codului

etichetă = ADEVĂRAT: Adăugați valorile coeficienților de corelație din interiorul hărții de căldură.
color = "grey50": Alegeți culoarea, adică gri
label_size = 3: Setați dimensiunea etichetei la 3

Ieșire:

ggpairs

În cele din urmă, introducem o altă funcție din biblioteca GGaly. Ggpair. Produce un grafic într-un format matricial. Putem afișa trei tipuri de calcul într-un singur grafic. Matricea este o dimensiune, cu egal cu numărul de observații. Partea superioară / inferioară afișează ferestrele și în diagonală. Putem controla ce informații dorim să afișăm în fiecare parte a matricei. Formula pentru ggpair este:

ggpair(df, columns = 1: ncol(df), title = NULL,upper = list(continuous = "cor"),lower = list(continuous = "smooth"),mapping = NULL)

Argumente :

df : set de date utilizat
coloane : Selectați coloanele pentru a desena complotul
title : Includeți un titlu
sus : Controlați casetele de deasupra diagonalei parcelei. Trebuie să furnizați tipul de calcul sau grafic pentru a reveni. Dacă continuu = "cor", îi cerem lui R să calculeze corelația. Rețineți că argumentul trebuie să fie o listă. Alte argumente pot fi folosite, consultați [vinetă] („http://ggobi.github.io/ggally/#custom_functions”) pentru mai multe informații.
Jos : Controlați casetele de sub diagonală.
Cartografiere : indică estetica graficului. De exemplu, putem calcula graficul pentru diferite grupuri.

Analiza bivariată cu ggpair cu grupare

Următorul grafic prezintă trei informații:

Matricea de corelație dintre log_totexp, log_income, vârstă și variabila wtrans grupate în funcție de faptul dacă gospodăria are sau nu un copil.
Trageți distribuția fiecărei variabile în funcție de grup
Afișați graficul de împrăștiere cu tendința în funcție de grup

library(ggplot2)ggpairs(data, columns = c("log_totexp", "log_income", "age", "wtrans"), title = "Bivariate analysis of revenue expenditure by the British household", upper = list(continuous = wrap("cor",size = 3)),lower = list(continuous = wrap("smooth",alpha = 0.3,size = 0.1)),mapping = aes(color = children_fac))

Explicarea codului

coloane = c ("log_totexp", "log_income", "age", "wtrans"): Alegeți variabilele de afișat în grafic
title = "Analiza bivariată a cheltuielilor de venituri de către gospodăria britanică": adăugați un titlu
upper = list (): Controlați partea superioară a graficului. Adică deasupra diagonalei
continuu = wrap ("cor", dimensiune = 3)): Calculați coeficientul de corelație. Înfășurăm argumentul continuu în interiorul funcției wrap () pentru a controla estetica graficului (adică mărimea = 3) -mai jos = list (): Controlăm partea inferioară a graficului. Adică sub diagonală.
continuu = wrap ("neted", alfa = 0,3, dimensiune = 0,1): Adăugați un grafic scatter cu o tendință liniară. Înfășurăm argumentul continuu în interiorul funcției wrap () pentru a controla estetica graficului (adică dimensiunea = 0,1, alfa = 0,3)
mapping = aes (color = children_fac): dorim ca fiecare parte a graficului să fie stivuită de variabila children_fac, care este o variabilă categorică care ia valoarea 1 dacă gospodăria nu are copii și 2 altfel

Ieșire:

Analiza bivariată cu ggpair cu grupare parțială

Graficul de mai jos este puțin diferit. Schimbăm poziția mapării în interiorul argumentului superior.

ggpairs(data, columns = c("log_totexp", "log_income", "age", "wtrans"),title = "Bivariate analysis of revenue expenditure by the British household",upper = list(continuous = wrap("cor",size = 3),mapping = aes(color = children_fac)),lower = list(continuous = wrap("smooth",alpha = 0.3,size = 0.1)))

Explicarea codului

Exact același cod ca și exemplul anterior, cu excepția:
mapping = aes (color = children_fac): Mutați lista în upper = list (). Vrem doar calculul stivuit pe grup în partea superioară a graficului.

Ieșire:

rezumat

Putem rezuma funcția în tabelul de mai jos:

bibliotecă	Obiectiv	metodă	cod
Baza	corelație bivariată	Pearson	cor(dfx2, method = "pearson")
Baza	corelație bivariată	Spearman	cor(dfx2, method = "spearman")
Baza	Corelație multivariată	Pearson	cor(df, method = "pearson")
Baza	Corelație multivariată	Spearman	cor(df, method = "spearman")
Hmisc	Valoarea P		rcorr(as.matrix(data[,1:9]))[["P"]]
Ggally	harta termografica		ggcorr(df)
	Parcele multivariate		cf code below

Corelație în R: Pearson & Spearman cu Matrix Exemplu

Cuprins:

Corelația Pearson

Corelația Spearman Rank

Matricea de corelație

Nivelul de semnificație

Vizualizați Matricea de corelație

Harta de căldură de bază

Adăugați control la harta de căldură

Adăugați o etichetă pe harta de căldură

ggpairs

Analiza bivariată cu ggpair cu grupare

Analiza bivariată cu ggpair cu grupare parțială

rezumat

Cum se creează / se modifică / se afișează rutare în SAP PP

Planificarea capacității SAP PP: CM01, CM21

Tutorial SAP MRP (Planificarea cerințelor materiale): MD01, MD02, MD04

Tutorial SAP Management Demand: MD61, MD62, MD04, MD74, MD75

Tutorial de planificare pe termen lung (LTP) în SAP PP: MS31, MS02, MD61

Scăpați de Flash alb atunci când se încarcă iframe - CSS-Tricks

Obțineți formularul de indicații de orientare (Google Maps) - CSS-Tricks

Linkuri de apelare și SMS pentru iPhone - CSS-Tricks

Structura paginii HTML5 - CSS-Tricks

Păstrați blițul în spatele altor elemente - CSS-Tricks

Încorporarea blițului - CSS-Tricks

Încorporarea Windows Media - CSS-Tricks

Trimiterea formularului se deschide Filă / fereastră nouă - CSS-Tricks

Marcare tabel gol - CSS-Tricks

Cod de bază64 pentru GIF transparent 1x1px - CSS-Tricks