Ce este limbajul de programare R? Introducere & Bazele R

Cuprins:

Anonim

Ce este R Software?

R este un limbaj de programare și software gratuit dezvoltat de Ross Ihaka și Robert Gentleman în 1993. R posedă un catalog extins de metode statistice și grafice. Include algoritmi de învățare automată, regresie liniară, serii de timp, inferență statistică pentru a numi câteva. Majoritatea bibliotecilor R sunt scrise în R, dar pentru sarcini de calcul grele sunt preferate codurile C, C ++ și Fortran.

R nu este încredințat doar de către academicieni, dar multe companii mari folosesc și limbaj de programare R, inclusiv Uber, Google, Airbnb, Facebook și așa mai departe.

Analiza datelor cu R se face într-o serie de pași; programarea, transformarea, descoperirea, modelarea și comunicarea rezultatelor

  • Program : R este un instrument de programare clar și accesibil
  • Transform : R este alcătuit dintr-o colecție de biblioteci concepute special pentru știința datelor
  • Descoperiți : investigați datele, rafinați-vă ipoteza și analizați-le
  • Model : R oferă o gamă largă de instrumente pentru a capta modelul potrivit pentru datele dvs.
  • Comunicați : integrați coduri, grafice și ieșiri într-un raport cu R Markdown sau creați aplicații Shiny pentru a le distribui lumii

În acest tutorial de introducere veți învăța R

  • Pentru ce se utilizează R?
  • R de către industrie
  • Pachet R
  • Comunicați cu R
  • De ce să folosești R?
  • Ar trebui să alegi R?
  • Este dificil R?

Pentru ce se utilizează R?

  • Inferință statistică
  • Analiza datelor
  • Algoritm de învățare automată

R de către industrie

Dacă descompunem utilizarea R de către industrie, vedem că academicienii sunt pe primul loc. R este un limbaj pentru a face statistici. R este prima alegere din industria medicală, urmată de guvern și consultanță.

Pachet R

Utilizările principale ale R sunt și vor fi întotdeauna statistica, vizualizarea și învățarea automată. Imaginea de mai jos arată care pachet R a primit cele mai multe întrebări în Stack Overflow. În top 10, cele mai multe dintre ele sunt legate de fluxul de lucru al unui om de știință de date: pregătirea datelor și comunicarea rezultatelor.

Toate bibliotecile R, aproape 12k, sunt stocate în CRAN. CRAN este o sursă gratuită și deschisă. Puteți descărca și utiliza numeroasele biblioteci pentru a efectua învățarea automată sau analiza seriilor temporale.

Comunicați cu R

R are mai multe moduri de a prezenta și partaja munca, fie printr-un document de reducere a valorii, fie printr-o aplicație strălucitoare. Totul poate fi găzduit în Rpub, GitHub sau pe site-ul companiei.

Mai jos este un exemplu de prezentare găzduită pe Rpub

Rstudio acceptă reducere pentru a scrie un document. Puteți exporta documentele în diferite formate:

  • Document:
    • HTML
    • PDF / Latex
    • Cuvânt
  • Prezentare
    • HTML
    • Beamer PDF

Rstudio are un instrument excelent pentru a crea cu ușurință o aplicație. Mai jos este un exemplu de aplicație cu datele Băncii Mondiale.

De ce să folosești R?

Știința datelor modelează modul în care companiile își conduc afacerile. Fără îndoială, a rămâne departe de inteligența artificială și de mașină va duce compania la eșec. Marea întrebare este ce instrument / limbă ar trebui să utilizați?

Acestea sunt o mulțime de instrumente disponibile pe piață pentru a efectua analiza datelor. Învățarea unei noi limbi necesită o investiție în timp. Imaginea de mai jos prezintă curba de învățare în comparație cu capacitatea de afaceri pe care o oferă o limbă. Relația negativă implică faptul că nu există prânz gratuit. Dacă doriți să oferiți cele mai bune informații din date, atunci trebuie să petreceți ceva timp învățând instrumentul adecvat, care este R.

În partea din stânga sus a graficului, puteți vedea Excel și PowerBI. Aceste două instrumente sunt ușor de învățat, dar nu oferă o capacitate de afaceri remarcabilă, mai ales în ceea ce privește modelarea. În mijloc, puteți vedea Python și SAS. SAS este un instrument dedicat pentru a efectua o analiză statistică pentru afaceri, dar nu este gratuit. SAS este un software de tip click and run. Python, cu toate acestea, este un limbaj cu o curbă de învățare monotonă. Python este un instrument fantastic pentru implementarea Machine Learning și AI, dar nu are caracteristici de comunicare. Cu o curbă de învățare identică, R este un bun compromis între implementare și analiza datelor.

Când vine vorba de vizualizarea datelor (DataViz), probabil ați auzit despre Tableau. Tabloul este, fără îndoială, un instrument excelent pentru a descoperi modele prin grafice și diagrame. În plus, învățarea Tableau nu necesită mult timp. O mare problemă cu vizualizarea datelor este că s-ar putea să nu găsiți niciodată un model sau pur și simplu să creați o mulțime de diagrame inutile. Tableau este un instrument bun pentru vizualizarea rapidă a datelor sau a Business Intelligence. Când vine vorba de statistici și instrument de luare a deciziilor, R este mai potrivit.

Stack Overflow este o comunitate mare pentru limbaje de programare. Dacă aveți o problemă de codare sau trebuie să înțelegeți un model, Stack Overflow este aici pentru a vă ajuta. De-a lungul anului, procentajul vizualizărilor întrebărilor a crescut brusc pentru R comparativ cu celelalte limbi. Această tendință este, desigur, foarte corelată cu epoca în plină expansiune a științei datelor, dar reflectă cererea limbajului R pentru știința datelor.

În știința datelor, există două instrumente care concurează între ele. R și Python sunt probabil limbajul de programare care definește știința datelor.

Ar trebui să alegi R?

Omul de știință al datelor poate folosi două instrumente excelente: R și Python. Este posibil să nu aveți timp să le învățați pe amândouă, mai ales dacă începeți să învățați știința datelor. Învățarea modelării statistice și a algoritmuluieste mult mai important decât să înveți un limbaj de programare. Un limbaj de programare este un instrument pentru a calcula și comunica descoperirea ta. Cea mai importantă sarcină în știința datelor este modul în care vă ocupați de date: import, curățare, pregătire, inginerie caracteristică, selectare caracteristică. Acesta ar trebui să fie obiectivul dvs. principal. Dacă încercați să învățați R și Python în același timp, fără un fundal solid în statistici, este prost. Oamenii de știință ai datelor nu sunt programatori. Sarcina lor este să înțeleagă datele, să le manipuleze și să expună cea mai bună abordare. Dacă vă gândiți la ce limbă să învățați, să vedem care este limba cea mai potrivită pentru dvs.

Publicul principal pentru știința datelor este profesionist în afaceri. În afaceri, o implicație importantă este comunicarea. Există multe modalități de comunicare: raport, aplicație web, tablou de bord. Ai nevoie de un instrument care să facă toate acestea împreună.

Este dificil R?

Cu ani în urmă, R era un limbaj dificil de stăpânit. Limbajul era confuz și nu la fel de structurat ca celelalte instrumente de programare. Pentru a depăși această problemă majoră, Hadley Wickham a dezvoltat o colecție de pachete numite tidyverse. Regula jocului s-a schimbat pentru cel mai bun. Manipularea datelor devine banală și intuitivă. Crearea unui grafic nu a mai fost atât de dificilă.

Cei mai buni algoritmi pentru învățarea automată pot fi implementați cu R. Pachetele precum Keras și TensorFlow permit crearea unei tehnici de învățare automată de ultimă generație. R are, de asemenea, un pachet pentru a efectua Xgboost, unul dintre cei mai buni algoritmi pentru competiția Kaggle.

R poate comunica cu cealaltă limbă. Este posibil să apelați Python, Java, C ++ în R. Lumea datelor mari este, de asemenea, accesibilă lui R. Puteți conecta R cu diferite baze de date, cum ar fi Spark sau Hadoop.

În cele din urmă, R a evoluat și a permis operația de paralelizare pentru a accelera calculul. De fapt, R a fost criticat pentru utilizarea unui singur CPU la un moment dat. Pachetul paralel vă permite să efectuați sarcini în diferite nuclee ale mașinii.

rezumat

Pe scurt, R este un instrument excelent pentru explorarea și investigarea datelor. Analiza elaborată, cum ar fi clusterizarea, corelația și reducerea datelor, se realizează cu R. Aceasta este partea cea mai importantă, fără o bună inginerie și model de caracteristici, implementarea învățării automate nu va da rezultate semnificative.