Factor în R: Variabilă categorică & Variabile continue

Cuprins:

Anonim

Ce este factorul în R?

Factorul în R este o variabilă utilizată pentru clasificarea și stocarea datelor, având un număr limitat de valori diferite. Stochează datele ca un vector de valori întregi. Factorul din R este, de asemenea, cunoscut ca o variabilă categorică care stochează atât valorile datelor șirului, cât și ale numerelor întregi ca niveluri. Factorul este utilizat în principal în modelarea statistică și analiza datelor exploratorii cu R.

Într-un set de date, putem distinge două tipuri de variabile: categorice și continue .

  • În statisticile descriptive pentru variabilele categorice din R, valoarea este limitată și se bazează de obicei pe un anumit grup finit. De exemplu, o variabilă categorică în R poate fi țările, anul, sexul, ocupația.
  • Cu toate acestea, o variabilă continuă poate lua orice valori, de la întreg la zecimal. De exemplu, putem avea venituri, prețul unei acțiuni etc ...

Variabile categorice

Variabilele categorice din R sunt stocate într-un factor. Să verificăm codul de mai jos pentru a converti o variabilă de caracter într-o variabilă de factor în R. Caracterele nu sunt acceptate în algoritmul de învățare automată și singura modalitate este de a converti un șir într-un număr întreg.

Sintaxă

factor(x = character(), levels, labels = levels, ordered = is.ordered(x))

Argumente:

  • x : Un vector de date categorice în R. Trebuie să fie un șir sau întreg, nu zecimal.
  • Nivele : un vector al valorilor posibile luate de x. Acest argument este opțional. Valoarea implicită este lista unică de elemente ale vectorului x.
  • Etichete : Adăugați o etichetă la datele categorice x din R. De exemplu, 1 poate lua eticheta „masculin” în timp ce 0, eticheta „feminin”.
  • ordonat : determinați dacă nivelurile trebuie ordonate în date categorice în R.

Exemplu:

Să creăm un cadru de date factor.

# Create gender vectorgender_vector <- c("Male", "Female", "Female", "Male", "Male")class(gender_vector)# Convert gender_vector to a factorfactor_gender_vector <-factor(gender_vector)class(factor_gender_vector)

Ieșire:

## [1] "character"## [1] "factor"

Este important să transformăm un șir în variabilă factor în R atunci când efectuăm sarcina de învățare automată.

O variabilă categorică în R poate fi împărțită în variabilă categorică nominală și variabilă categorică ordinală .

Variabilă categorică nominală

O variabilă categorică are mai multe valori, dar ordinea nu contează. De exemplu, bărbat sau femeie. Variabilele categorice din R nu au ordonare.

# Create a color vectorcolor_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')# Convert the vector to factorfactor_color <- factor(color_vector)factor_color

Ieșire:

## [1] blue red green white black yellow## Levels: black blue green red white yellow

Din factor_color, nu putem spune nicio comandă.

Variabilă categorică ordinală

Variabilele categorice ordinale au o ordonare naturală. Putem specifica ordinea, de la cel mai mic la cel mai mare cu ordin = ADEVĂRAT și de la cel mai mic la cel mai mic cu ordin = FALS.

Exemplu:

Putem folosi rezumatul pentru a număra valorile pentru fiecare variabilă factor în R.

# Create Ordinal categorical vectorday_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')# Convert `day_vector` to a factor with ordered levelfactor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))# Print the new variablefactor_day

Ieșire:

## [1] evening morning afternoon middaymidnight evening 

Exemplu:

## Levels: morning < midday < afternoon < evening < midnight# Append the line to above code# Count the number of occurence of each levelsummary(factor_day)

Ieșire:

## morning midday afternoon evening midnight## 1 1 1 2 1

R a ordonat nivelul de la „dimineață” la „miezul nopții”, așa cum se specifică în paranteze niveluri.

Variabile continue

Variabilele de clasă continuă sunt valoarea implicită în R. Ele sunt stocate ca numerice sau întregi. O putem vedea din setul de date de mai jos. mtcars este un set de date încorporat. Adună informații despre diferite tipuri de mașini. Îl putem importa folosind mtcars și putem verifica clasa variabilei mpg, mile pe galon. Returnează o valoare numerică, indicând o variabilă continuă.

dataset <- mtcarsclass(dataset$mpg)

Ieșire

## [1] "numeric"