Συσχέτιση στο R: Pearson & Spearman Relation Matrix

Διμεταβλητή συσχέτιση στο R

Μια διμεταβλητή σχέση περιγράφει μια σχέση -ή συσχέτιση- μεταξύ δύο μεταβλητών στο R. Σε αυτό το σεμινάριο, θα συζητήσουμε την έννοια της συσχέτισης και θα δείξουμε πώς μπορεί να χρησιμοποιηθεί για τη μέτρηση της σχέσης μεταξύ οποιωνδήποτε δύο μεταβλητών στο R.

Συσχέτιση στον προγραμματισμό R

Υπάρχουν δύο κύριες μέθοδοι για τον υπολογισμό της συσχέτισης μεταξύ δύο μεταβλητών στον προγραμματισμό R:

  • Pearson: Παραμετρική συσχέτιση
  • Ακοντιστής: Μη παραμετρική συσχέτιση

Πίνακας συσχέτισης Pearson στο R

Η μέθοδος συσχέτισης Pearson χρησιμοποιείται συνήθως ως πρωταρχικός έλεγχος για τη σχέση μεταξύ δύο μεταβλητών.

The συντελεστής συσχέτισης, , είναι ένα μέτρο της δύναμης του γραμμικός σχέση μεταξύ δύο μεταβλητών και . Υπολογίζεται ως εξής:

Πίνακας συσχέτισης Pearson στο R

μαζί σου,

  • Πίνακας συσχέτισης Pearson στο R, δηλαδή τυπική απόκλιση του
  • Πίνακας συσχέτισης Pearson στο R, δηλαδή τυπική απόκλιση του

Η συσχέτιση κυμαίνεται μεταξύ -1 και 1.

  • Μια τιμή κοντά ή ίση με 0 υποδηλώνει μικρή ή καθόλου γραμμική σχέση μεταξύ και .
  • Αντίθετα, όσο πιο κοντά πλησιάζει το 1 ή το -1, τόσο ισχυρότερη είναι η γραμμική σχέση.

Μπορούμε να υπολογίσουμε το τεστ t ως εξής και να ελέγξουμε τον πίνακα κατανομής με βαθμό ελευθερίας ίσο με:

Πίνακας συσχέτισης Pearson στο R

Spearman Rank Correlation στο R

Ένας συσχετισμός κατάταξης ταξινομεί τις παρατηρήσεις κατά σειρά και υπολογίζει το επίπεδο ομοιότητας μεταξύ της κατάταξης. Μια συσχέτιση κατάταξης έχει το πλεονέκτημα ότι είναι ισχυρή σε ακραίες τιμές και δεν συνδέεται με τη διανομή των δεδομένων. Σημειώστε ότι, μια συσχέτιση κατάταξης είναι κατάλληλη για την τακτική μεταβλητή.

Η συσχέτιση κατάταξης του Spearman, , είναι πάντα μεταξύ -1 και 1 με τιμή κοντά στο άκρο υποδηλώνει ισχυρή σχέση. Υπολογίζεται ως εξής:

Spearman Rank Correlation στο R

με δηλωμένες τις συνδιακυμάνσεις μεταξύ κατάταξης και . Ο παρονομαστής υπολογίζει τις τυπικές αποκλίσεις.

Στο R, μπορούμε να χρησιμοποιήσουμε τη συνάρτηση cor(). Χρειάζονται τρία ορίσματα, και η μέθοδος.

cor(x, y, method)

Επιχειρήματα:

  • x: Πρώτο διάνυσμα
  • y: Δεύτερο διάνυσμα
  • μέθοδος: Ο τύπος που χρησιμοποιείται για τον υπολογισμό της συσχέτισης. Τρεις τιμές συμβολοσειρών:
    • “Pearson”
    • “Κένταλ”
    • "ακοντιστής"

Ένα προαιρετικό όρισμα μπορεί να προστεθεί εάν τα διανύσματα περιέχουν τιμή που λείπει: use = "complete.obs"

Θα χρησιμοποιήσουμε το σύνολο δεδομένων BudgetUK. Αυτό το σύνολο δεδομένων αναφέρει την κατανομή του προϋπολογισμού των βρετανικών νοικοκυριών μεταξύ 1980 και 1982. Υπάρχουν 1519 παρατηρήσεις με δέκα χαρακτηριστικά, μεταξύ των οποίων:

  • wfood: Μοιραστείτε μερίδιο διατροφής
  • wfuel: κοινή χρήση καυσίμων
  • ύφασμα: μερίδιο προϋπολογισμού για δαπάνες ένδυσης
  • walc: Μοιραστείτε δαπάνες αλκοόλ
  • wtrans: μοιραστείτε τις δαπάνες μεταφοράς
  • wother: μερίδιο άλλων αγαθών που δαπανώνται
  • totexp: συνολική δαπάνη του νοικοκυριού σε λίρες
  • εισόδημα: συνολικό καθαρό εισόδημα νοικοκυριού
  • την ηλικία του: ηλικία νοικοκυριού
  • παιδιά: Αριθμός παιδιών

Παράδειγμα

library(dplyr)
PATH <-"https://raw.githubusercontent.com/guru99-edu/R-Programming/master/british_household.csv"
data <-read.csv(PATH)
  filter(income < 500)
  mutate(log_income = log(income),
         log_totexp = log(totexp),
         children_fac = factor(children, order = TRUE, labels = c("No", "Yes")))
  select(-c(X,X.1, children, totexp, income))
glimpse(data)

Επεξήγηση κώδικα

  • Πρώτα εισάγουμε τα δεδομένα και ρίχνουμε μια ματιά με τη συνάρτηση glimpse() από τη βιβλιοθήκη dplyr.
  • Οι τρεις βαθμοί είναι πάνω από 500, οπότε αποφασίσαμε να τους αποκλείσουμε.
  • Είναι κοινή πρακτική η μετατροπή μιας νομισματικής μεταβλητής σε log. Βοηθά στη μείωση του αντίκτυπου των ακραίων τιμών και μειώνει τη λοξότητα στο σύνολο δεδομένων.

Παραγωγή:

## Observations: 1,516## Variables: 10
## $ wfood        <dbl> 0.4272, 0.3739, 0.1941, 0.4438, 0.3331, 0.3752, 0...
## $ wfuel        <dbl> 0.1342, 0.1686, 0.4056, 0.1258, 0.0824, 0.0481, 0...
## $ wcloth       <dbl> 0.0000, 0.0091, 0.0012, 0.0539, 0.0399, 0.1170, 0...
## $ walc         <dbl> 0.0106, 0.0825, 0.0513, 0.0397, 0.1571, 0.0210, 0...
## $ wtrans       <dbl> 0.1458, 0.1215, 0.2063, 0.0652, 0.2403, 0.0955, 0...
## $ wother       <dbl> 0.2822, 0.2444, 0.1415, 0.2716, 0.1473, 0.3431, 0...
## $ age          <int> 25, 39, 47, 33, 31, 24, 46, 25, 30, 41, 48, 24, 2...
## $ log_income   <dbl> 4.867534, 5.010635, 5.438079, 4.605170, 4.605170,...
## $ log_totexp   <dbl> 3.912023, 4.499810, 5.192957, 4.382027, 4.499810,...
## $ children_fac <ord> Yes, Yes, Yes, Yes, No, No, No, No, No, No, Yes, ...

Μπορούμε να υπολογίσουμε τον συντελεστή συσχέτισης μεταξύ των μεταβλητών εισοδήματος και wfood με τις μεθόδους «pearson» και «spearman».

cor(data$log_income, data$wfood, method = "pearson")

Παραγωγή:

## [1] -0.2466986
cor(data$log_income, data$wfood, method = "spearman")

Παραγωγή:

## [1] -0.2501252

Πίνακας συσχέτισης στο R

Η διμεταβλητή συσχέτιση είναι μια καλή αρχή, αλλά μπορούμε να έχουμε μια ευρύτερη εικόνα με την πολυμεταβλητή ανάλυση. Μια συσχέτιση με πολλές μεταβλητές απεικονίζεται στο α μήτρα συσχέτισης. Ένας πίνακας συσχέτισης είναι ένας πίνακας που αντιπροσωπεύει τη συσχέτιση ζεύγους όλων των μεταβλητών.

Η συνάρτηση cor() επιστρέφει έναν πίνακα συσχέτισης. Η μόνη διαφορά με τη διμεταβλητή συσχέτιση είναι ότι δεν χρειάζεται να προσδιορίσουμε ποιες μεταβλητές. Από προεπιλογή, το R υπολογίζει τη συσχέτιση μεταξύ όλων των μεταβλητών.

Σημειώστε ότι, μια συσχέτιση δεν μπορεί να υπολογιστεί για μεταβλητή παράγοντα. Πρέπει να βεβαιωθούμε ότι έχουμε απορρίψει το κατηγορηματικό χαρακτηριστικό πριν περάσουμε το πλαίσιο δεδομένων μέσα στο cor().

Ένας πίνακας συσχέτισης είναι συμμετρικός που σημαίνει ότι οι τιμές πάνω από τη διαγώνιο έχουν τις ίδιες τιμές με αυτήν που ακολουθεί. Είναι πιο οπτικό να εμφανίζεται το μισό του πίνακα.

Εξαιρούμε το child_fac επειδή είναι μια μεταβλητή επιπέδου παράγοντα. Το cor δεν εκτελεί συσχέτιση σε μια κατηγορική μεταβλητή.

# the last column of data is a factor level. We don't include it in the code
mat_1 <-as.dist(round(cor(data[,1:9]),2))
mat_1

Επεξήγηση κώδικα

  • cor(δεδομένα): Εμφάνιση του πίνακα συσχέτισης
  • γύρος (δεδομένα, 2): Στρογγυλοποιήστε τον πίνακα συσχέτισης με δύο δεκαδικά ψηφία
  • as.dist(): Εμφανίζει μόνο το δεύτερο ημίχρονο

Παραγωγή:

##            wfood wfuel wcloth  walc wtrans wother   age log_income
## wfuel       0.11                                                  
## wcloth     -0.33 -0.25                                            
## walc       -0.12 -0.13  -0.09                                     
## wtrans     -0.34 -0.16  -0.19 -0.22                               
## wother     -0.35 -0.14  -0.22 -0.12  -0.29                        
## age         0.02 -0.05   0.04 -0.14   0.03   0.02                 
## log_income -0.25 -0.12   0.10  0.04   0.06   0.13  0.23           
## log_totexp -0.50 -0.36   0.34  0.12   0.15   0.15  0.21       0.49

Επίπεδο σημασίας

Το επίπεδο σημαντικότητας είναι χρήσιμο σε ορισμένες περιπτώσεις όταν χρησιμοποιούμε τη μέθοδο pearson ή spearman. Η συνάρτηση rcorr() από τη βιβλιοθήκη Hmisc υπολογίζει για εμάς την τιμή p. Μπορούμε να κατεβάσουμε τη βιβλιοθήκη από Conda και αντιγράψτε τον κωδικό για να τον επικολλήσετε στο τερματικό:

conda install -c r r-hmisc

Η rcorr() απαιτεί ένα πλαίσιο δεδομένων που πρέπει να αποθηκευτεί ως μήτρα. Μπορούμε να μετατρέψουμε τα δεδομένα μας σε πίνακα πριν να υπολογίσουμε τον πίνακα συσχέτισης με την τιμή p.

library("Hmisc")
data_rcorr <-as.matrix(data[, 1: 9])

mat_2 <-rcorr(data_rcorr)
# mat_2 <-rcorr(as.matrix(data)) returns the same output

Το αντικείμενο λίστας mat_2 περιέχει τρία στοιχεία:

  • r: Έξοδος του πίνακα συσχέτισης
  • n: Αριθμός παρατήρησης
  • P: p-value

Μας ενδιαφέρει το τρίτο στοιχείο, η τιμή p. Είναι σύνηθες να εμφανίζεται ο πίνακας συσχέτισης με την τιμή p αντί του συντελεστή συσχέτισης.

p_value <-round(mat_2[["P"]], 3)
p_value

Επεξήγηση κώδικα

  • mat_2[["P"]]: Οι τιμές p αποθηκεύονται στο στοιχείο που ονομάζεται P
  • γύρος(mat_2[["P"]], 3): Στρογγυλοποιήστε τα στοιχεία με τρία ψηφία

Παραγωγή:

           wfood wfuel wcloth  walc wtrans wother   age log_income log_totexp
wfood         NA 0.000  0.000 0.000  0.000  0.000 0.365      0.000          0
wfuel      0.000    NA  0.000 0.000  0.000  0.000 0.076      0.000          0
wcloth     0.000 0.000     NA 0.001  0.000  0.000 0.160      0.000          0
walc       0.000 0.000  0.001    NA  0.000  0.000 0.000      0.105          0
wtrans     0.000 0.000  0.000 0.000     NA  0.000 0.259      0.020          0
wother     0.000 0.000  0.000 0.000  0.000     NA 0.355      0.000          0
age        0.365 0.076  0.160 0.000  0.259  0.355    NA      0.000          0
log_income 0.000 0.000  0.000 0.105  0.020  0.000 0.000         NA          0
log_totexp 0.000 0.000  0.000 0.000  0.000  0.000 0.000      0.000         NA

Οπτικοποίηση του πίνακα συσχέτισης στο R

Ένας χάρτης θερμότητας είναι ένας άλλος τρόπος για να εμφανιστεί ένας πίνακας συσχέτισης. Η βιβλιοθήκη GGally είναι μια επέκταση του ggplot2. Προς το παρόν, δεν είναι διαθέσιμο στη βιβλιοθήκη conda. Μπορούμε να εγκαταστήσουμε απευθείας στην κονσόλα.

install.packages("GGally")

Οπτικοποίηση του πίνακα συσχέτισης

Η βιβλιοθήκη περιλαμβάνει διαφορετικές συναρτήσεις για την εμφάνιση των συνοπτικών στατιστικών, όπως η συσχέτιση και η κατανομή όλων των μεταβλητών σε ένα μήτρα.

Η συνάρτηση ggcorr() έχει πολλά ορίσματα. Θα εισαγάγουμε μόνο τα ορίσματα που θα χρησιμοποιήσουμε στο σεμινάριο:

Η συνάρτηση ggcorr

ggcorr(df, method = c("pairwise", "pearson"),
  nbreaks = NULL, digits = 2, low = "#3B9AB2",
  mid = "#EEEEEE", high = "#F21A00",
  geom = "tile", label = FALSE,
  label_alpha = FALSE)

επιχειρήματα:

  • df: Χρησιμοποιείται σύνολο δεδομένων
  • μέθοδος: Τύπος για τον υπολογισμό της συσχέτισης. Από προεπιλογή, υπολογίζονται κατά ζεύγη και Pearson
  • nbreaks: Επιστρέψτε ένα κατηγορηματικό εύρος για τον χρωματισμό των συντελεστών. Από προεπιλογή, δεν υπάρχει θραύση και η χρωματική διαβάθμιση είναι συνεχής
  • ψηφία: Στρογγυλοποίηση του συντελεστή συσχέτισης. Από προεπιλογή, ορίστε το 2
  • χαμηλός: Ελέγξτε το χαμηλότερο επίπεδο του χρωματισμού
  • στα μέσα: Ελέγξτε το μεσαίο επίπεδο του χρωματισμού
  • ψηλά: Ελέγξτε το υψηλό επίπεδο χρωματισμού
  • γεωμ: Ελέγξτε το σχήμα του γεωμετρικού ορίσματος. Από προεπιλογή, "πλακάκι"
  • επιγραφή: Boolean τιμή. Εμφάνιση ή όχι της ετικέτας. Από προεπιλογή, ορίστε το "FALSE".

Βασικός χάρτης θερμότητας

Το πιο βασικό οικόπεδο του πακέτου είναι ένας χάρτης θερμότητας. Το υπόμνημα του γραφήματος δείχνει ένα χρώμα ντεγκραντέ από – 1 έως 1, με το ζεστό χρώμα να υποδηλώνει ισχυρή θετική συσχέτιση και το ψυχρό χρώμα, μια αρνητική συσχέτιση.

library(GGally)
ggcorr(data)

Επεξήγηση κώδικα

  • ggcorr(δεδομένα): Απαιτείται μόνο ένα όρισμα, το οποίο είναι το όνομα του πλαισίου δεδομένων. Οι μεταβλητές επιπέδου συντελεστών δεν περιλαμβάνονται στην γραφική παράσταση.

Παραγωγή:

Βασικός χάρτης θερμότητας

Προσθήκη ελέγχου στον χάρτη θερμότητας

Μπορούμε να προσθέσουμε περισσότερα στοιχεία ελέγχου στο γράφημα:

ggcorr(data,
    nbreaks = 6,
    low = "steelblue",
    mid = "white",
    high = "darkred",
    geom = "circle")

Επεξήγηση κώδικα

  • nbreaks=6: σπάστε τον μύθο με 6 τάξεις.
  • χαμηλό = "ατσάλι μπλε": Χρησιμοποιήστε πιο ανοιχτά χρώματα για αρνητική συσχέτιση
  • mid = "λευκό": Χρησιμοποιήστε λευκά χρώματα για συσχέτιση μεσαίων περιοχών
  • ψηλό = «σκοτεινό»: Χρησιμοποιήστε σκούρα χρώματα για θετική συσχέτιση
  • geom = "κύκλος": Χρησιμοποιήστε τον κύκλο ως το σχήμα των παραθύρων στον χάρτη θερμότητας. Το μέγεθος του κύκλου είναι ανάλογο με την απόλυτη τιμή της συσχέτισης.

Παραγωγή:

Προσθήκη ελέγχου στον χάρτη θερμότητας

Προσθήκη ετικέτας στον χάρτη θερμότητας

Το GGally μας επιτρέπει να προσθέσουμε μια ετικέτα μέσα στα παράθυρα:

ggcorr(data,
    nbreaks = 6,
    label = TRUE,
    label_size = 3,
    color = "grey50")

Επεξήγηση κώδικα

  • ετικέτα = ΑΛΗΘΕΙΑ: Προσθέστε τις τιμές των συντελεστών συσχέτισης μέσα στον χάρτη θερμότητας.
  • χρώμα = "γκρι50": Επιλέξτε το χρώμα, δηλαδή γκρι
  • label_size = 3: Ορίστε το μέγεθος της ετικέτας ίσο με 3

Παραγωγή:

Προσθήκη ετικέτας στον χάρτη θερμότητας

Η συνάρτηση ggpairs

Τέλος, εισάγουμε μια άλλη λειτουργία από τη βιβλιοθήκη GGaly. Ggpair. Παράγει ένα γράφημα σε μορφή matrix. Μπορούμε να εμφανίσουμε τρία είδη υπολογισμών σε ένα γράφημα. Ο πίνακας είναι μια διάσταση, με ίσο αριθμό παρατηρήσεων. Το επάνω/κάτω μέρος εμφανίζει παράθυρα και στη διαγώνιο. Μπορούμε να ελέγξουμε ποιες πληροφορίες θέλουμε να εμφανίζουμε σε κάθε τμήμα του πίνακα. Ο τύπος για το ggpair είναι:

ggpair(df, columns = 1: ncol(df), title = NULL,
    upper = list(continuous = "cor"),
    lower = list(continuous = "smooth"),
    mapping = NULL)		

επιχειρήματα:

  • df: Χρησιμοποιείται σύνολο δεδομένων
  • στήλες: Επιλέξτε τις στήλες για να σχεδιάσετε την γραφική παράσταση
  • τίτλος: Συμπεριλάβετε έναν τίτλο
  • άνω: Ελέγξτε τα κουτιά πάνω από τη διαγώνιο του οικοπέδου. Πρέπει να παρέχετε τον τύπο υπολογισμών ή γραφήματος προς επιστροφή. Αν συνεχής = "cor", ζητάμε από τον R να υπολογίσει τη συσχέτιση. Σημειώστε ότι, το όρισμα πρέπει να είναι μια λίστα. Μπορούν να χρησιμοποιηθούν και άλλα ορίσματα, ανατρέξτε στο [vignette](“http://ggobi.github.io/ggally/#custom_functions”) για περισσότερες πληροφορίες.
  • Χαμηλώστε: Ελέγξτε τα πλαίσια κάτω από τη διαγώνιο.
  • ΧΑΡΤΗΣ: Δηλώνει την αισθητική του γραφήματος. Για παράδειγμα, μπορούμε να υπολογίσουμε το γράφημα για διαφορετικές ομάδες.

Ανάλυση διμεταβλητών με ggpair με ομαδοποίηση

Το επόμενο γράφημα απεικονίζει τρεις πληροφορίες:

  • Ο πίνακας συσχέτισης μεταξύ της μεταβλητής log_totexp, log_income, age και wtrans ομαδοποιημένος ανάλογα με το αν το νοικοκυριό έχει παιδί ή όχι.
  • Σχεδιάστε την κατανομή κάθε μεταβλητής ανά ομάδα
  • Εμφανίστε το διάγραμμα διασποράς με την τάση ανά ομάδα
library(ggplot2)
ggpairs(data, columns = c("log_totexp", "log_income", "age", "wtrans"), title = "Bivariate analysis of revenue expenditure by the British household", upper = list(continuous = wrap("cor",
        size = 3)),
    lower = list(continuous = wrap("smooth",
        alpha = 0.3,
        size = 0.1)),
    mapping = aes(color = children_fac))

Επεξήγηση κώδικα

  • στήλες = c("log_totexp", "log_income", "age", "wtrans"): Επιλέξτε τις μεταβλητές που θα εμφανίζονται στο γράφημα
  • τίτλος = "Διμεταβλητή ανάλυση των εσόδων από το βρετανικό νοικοκυριό": Προσθέστε έναν τίτλο
  • άνω = λίστα(): Ελέγξτε το πάνω μέρος του γραφήματος. Δηλ. Πάνω από τη διαγώνιο
  • συνεχές = περιτύλιγμα ("cor", μέγεθος = 3)): Υπολογίστε τον συντελεστή συσχέτισης. Τυλίγουμε το όρισμα συνεχές μέσα στη συνάρτηση wrap() για να ελέγξουμε την αισθητική του γραφήματος (δηλ. μέγεθος = 3) -lower = list(): Έλεγχος του κάτω μέρους του γραφήματος. Δηλ. Κάτω από τη διαγώνιο.
  • συνεχές = περιτύλιγμα ("λεία", άλφα = 0.3, μέγεθος = 0.1): Προσθέστε ένα διάγραμμα διασποράς με γραμμική τάση. Τυλίγουμε το όρισμα συνεχές μέσα στη συνάρτηση wrap() για να ελέγξουμε την αισθητική του γραφήματος (π.χ. μέγεθος=0.1, άλφα=0.3)
  • αντιστοίχιση = aes (χρώμα = παιδικό_fac): Θέλουμε κάθε μέρος του γραφήματος να στοιβάζεται από τη μεταβλητή children_fac, η οποία είναι μια κατηγορική μεταβλητή που παίρνει την τιμή 1 εάν το νοικοκυριό δεν έχει παιδιά και 2 διαφορετικά

Παραγωγή:

Ανάλυση διμεταβλητών με ggpair με ομαδοποίηση

Ανάλυση διμεταβλητών με ggpair με μερική ομαδοποίηση

Το παρακάτω γράφημα είναι λίγο διαφορετικό. Αλλάζουμε τη θέση της αντιστοίχισης μέσα στο πάνω όρισμα.

ggpairs(data, columns = c("log_totexp", "log_income", "age", "wtrans"),
    title = "Bivariate analysis of revenue expenditure by the British household",
    upper = list(continuous = wrap("cor",
            size = 3),
        mapping = aes(color = children_fac)),
    lower = list(
        continuous = wrap("smooth",
            alpha = 0.3,
            size = 0.1))
)

Επεξήγηση κώδικα

  • Ακριβώς ο ίδιος κώδικας με το προηγούμενο παράδειγμα εκτός από:
  • αντιστοίχιση = aes(color = child_fac): Μετακινήστε τη λίστα στο επάνω μέρος = list(). Θέλουμε μόνο τον υπολογισμό να στοιβάζεται ανά ομάδα στο πάνω μέρος του γραφήματος.

Παραγωγή:

Ανάλυση διμεταβλητών με ggpair με μερική ομαδοποίηση

Περίληψη

  • Μια διμεταβλητή σχέση περιγράφει μια σχέση -ή συσχέτιση- μεταξύ δύο μεταβλητών στο R.
  • Υπάρχουν δύο κύριες μέθοδοι για τον υπολογισμό της συσχέτισης μεταξύ δύο μεταβλητών Προγραμματισμός R: Pearson & Spearman.
  • Η μέθοδος συσχέτισης Pearson χρησιμοποιείται συνήθως ως πρωταρχικός έλεγχος για τη σχέση μεταξύ δύο μεταβλητών.
  • Ένας συσχετισμός κατάταξης ταξινομεί τις παρατηρήσεις κατά σειρά και υπολογίζει το επίπεδο ομοιότητας μεταξύ της κατάταξης.
  • Η συσχέτιση κατάταξης του Spearman, , είναι πάντα μεταξύ -1 και 1 με τιμή κοντά στο άκρο υποδηλώνει ισχυρή σχέση.
  • Ένας πίνακας συσχέτισης είναι ένας πίνακας που αντιπροσωπεύει τη συσχέτιση ζεύγους όλων των μεταβλητών.
  • Το επίπεδο σημαντικότητας είναι χρήσιμο σε ορισμένες περιπτώσεις όταν χρησιμοποιούμε τη μέθοδο pearson ή spearman.

Μπορούμε να συνοψίσουμε όλες τις συναρτήσεις συσχέτισης στο R στον παρακάτω πίνακα:

Βιβλιοθήκη Σκοπός Μέθοδος Κώδικας
Βάση διμεταβλητή συσχέτιση Pearson
cor(dfx2, method = "pearson")
Βάση διμεταβλητή συσχέτιση Ακοντιστής
cor(dfx2, method = "spearman")
Βάση Πολυμεταβλητή συσχέτιση Pearson
cor(df, method = "pearson")
Βάση Πολυμεταβλητή συσχέτιση Ακοντιστής
cor(df, method = "spearman")
Hmisc Τιμή P
rcorr(as.matrix(data[,1:9]))[["P"]]
Ggally χάρτης θερμότητας
ggcorr(df)
Πολυμεταβλητά οικόπεδα
cf code below