Manipularea datelor în R: Ce este, Variabile, Folosind pachetul dplyr

Publicat: 2020-03-26

Cuprins

Introducere

În afară de personal și infrastructură, datele sunt noul element de bază al oricărei companii. De la corporații mari până la industriile la scară mică, datele sunt combustibilul care le conduce afacerile. Aceste date sunt asociate cu tranzacțiile lor zilnice de afaceri, datele despre cumpărături ale clienților, datele despre vânzări, diagramele financiare, statisticile de afaceri, campaniile de marketing și multe altele. De aceea , Tim O'Reilly, fondatorul O'Reilly Media, a spus că intrăm într-o situație în care datele vor fi mai importante decât software-ul.

Dar ce să faci cu atâtea date? Companiile folosesc aceste date pentru a obține informații valoroase asupra performanței lor de afaceri. Ei angajează oameni de știință de date care efectuează manipularea datelor în R pentru a înțelege aceste date. De exemplu, înțelegerea datelor de vânzări și marketing pentru anul trecut le va oferi o idee despre locul în care se află. Un studiu recent a arătat că piața de analiză a datelor este de așteptat să aibă o valoare de 77,6 miliarde de dolari până în 2023.

Oamenii de știință de date sunt angajați pentru a înțelege aceste date printr-un proces numit manipulare a datelor.

Ce este manipularea datelor?

Manipularea datelor este procesul de organizare a datelor pentru a le citi și înțelege mai bine. De exemplu, oficialii companiei pot obține date despre clienți din sistemele și jurnalele lor. În cea mai mare parte, aceste date vor fi stocate în software-ul CRM (Customer Relationship Management) și în foi Excel. Dar s-ar putea să nu fie organizat corespunzător. Manipularea datelor include modalități de organizare a tuturor acestor date, cum ar fi în ordine alfabetică.

Datele pot fi sortate în funcție de dată, oră, număr de serie sau orice alt câmp. Oamenii din departamentul de conturi al unei companii folosesc datele pentru a determina tendințele vânzărilor, preferințele utilizatorilor, statisticile pieței și prețurile produselor. Analiștii financiari folosesc datele pentru a înțelege cum se desfășoară piața de valori, tendințele și cele mai bune acțiuni în care ar trebui să investească.

În plus, datele serverului web pot fi folosite pentru a înțelege cât de mult trafic are site-ul web. În această eră tehnologică, IoT este un exemplu de tehnologie în care datele sunt obținute de la senzori atașați la mașini. Aceste date sunt folosite pentru a determina performanța mașinii și dacă are defecte. Manipularea datelor este crucială în IoT, deoarece piața va avea o valoare de 81,67 miliarde USD până în 2025.

Manipularea datelor este realizată în mod popular folosind un limbaj de programare numit R. Să ne cunoaștem limbajul puțin mai bine.

Ce este R?

Pentru a înțelege manipularea datelor în R , trebuie să cunoașteți elementele de bază ale R. Este un limbaj de programare modern care este folosit pentru analiza datelor, calculul statistic și inteligența artificială. Limbajul a fost creat în 1993 de Ross Ihaka și Robert Gentleman . În zilele noastre, cercetătorii, analiștii de date, oamenii de știință și statisticienii folosesc R pentru a analiza, curăța și vizualiza datele.

R are un catalog uriaș format din metode grafice și statistice care pot sprijini învățarea automată, regresia liniară, inferența statistică și serii de timp. Sub licența publică generală GNU, limba este disponibilă gratuit pentru sisteme de operare precum Windows, Mac și Linux. Este prietenos cu platforma, ceea ce înseamnă că codul R scris pe o platformă poate fi executat cu ușurință pe alta.

R este acum considerat principalul limbaj de programare pentru știința datelor. Dar este un limbaj cuprinzător, deoarece îl puteți folosi pentru dezvoltarea de software, precum și pentru sarcini complicate, cum ar fi modelarea statistică. Puteți dezvolta aplicații web folosind pachetul său RShiny.

Este un limbaj atât de puternic încât unele dintre cele mai bune companii din lume, cum ar fi Google și Facebook, îl folosesc.

Să vedem câteva dintre cele mai importante caracteristici ale lui R:

Are CRAN (Comprehensive R Archive Network) care este un depozit care are mai mult de 10.000 de pachete R, având toate funcționalitățile necesare pentru lucrul cu date.
Este un limbaj de programare open-source . Aceasta înseamnă că îl puteți descărca gratuit și chiar să contribui la dezvoltarea lui, să-i actualizați caracteristicile și să personalizați funcționalitățile existente.
Puteți crea vizualizări de înaltă calitate din datele disponibile din bibliotecile grafice utile ale lui R, cum ar fi ggplot2 și plotly
R este un limbaj foarte rapid. Deoarece este un limbaj de programare interpretat , nu există nicio cerință pentru un compilator pentru conversia programelor R în cod executabil și astfel un script R rulează mai rapid
R poate efectua o varietate de calcule complicate într-o clipă, constând din matrice, cadre de date și vectori . Există mulți operatori pentru efectuarea acestor calcule
Se ocupă de date structurate și nestructurate. Extensiile pentru Big Data și SQL sunt disponibile pentru manipularea tuturor tipurilor de date
R are o comunitate în continuă creștere, care are cele mai strălucite minți. Acești oameni contribuie în mod constant la limbajul de programare prin dezvoltarea de biblioteci r și actualizări
Puteți integra cu ușurință R cu alte limbaje de programare, cum ar fi Python, Java și C++. De asemenea, îl puteți combina cu Hadoop pentru calcul distribuit

Acum că ați adunat elementele de bază ale limbajului de programare R, haideți să ne scufundăm în lucrurile interesante!

Variabile în R

În timp ce programați în R sau efectuați orice manipulare a datelor în R , trebuie să vă ocupați de variabile. Variabilele sunt folosite pentru stocarea datelor care pot fi sub formă de șiruri, numere întregi, numere întregi în virgulă mobilă sau doar valori booleene. Aceste variabile rezervă un spațiu în memorie pentru conținutul său. Spre deosebire de limbajele tradiționale de programare, variabilele din R sunt alocate împreună cu obiectele R.

Variabilele nu au un tip de date, dar primesc tipul obiectului R căruia îi este atribuită. Cele mai populare obiecte R sunt:

Vectori
Liste
Matrice
Matrici
Factori
Cadre de date

Aceste structuri de date sunt extrem de importante pentru manipularea datelor în R și analiza datelor. Să le privim puțin mai detaliat pentru a înțelege manipularea de bază a datelor:

Vectori

Sunt cele mai elementare structuri de date și sunt utilizate pentru date unidimensionale. Tipurile de vectori atomici sunt:

Întreg
Logic
Numeric
Complex
Caracter

Când creați valoare în R, acesta devine un vector cu un singur element de lungime 1. De exemplu,

print(„ABC”); # vector cu un singur element de tip caracter

print(10.5) # vector cu un singur element de tip dublu

Elementele din vectori sunt accesate folosind numerele lor de index. Pozițiile indexului în vectori încep de la 1. De exemplu,

t <- c(„Luni”,”Marți”,”Miercuri”,”Sâmbătă”)

u <- t[c(1,2,3)]

print(u)

Rezultatul va fi „Luni”, „Marți”, „Miercuri”

Liste

Acestea sunt obiecte în R care sunt folosite pentru a ține diferite tipuri de elemente în interiorul acestuia. Acestea pot fi numere întregi, șiruri de caractere și chiar liste. Dacă datele nu pot fi păstrate într-un cadru de date sau într-o matrice, aceasta este cea mai bună opțiune. Listele pot conține și o matrice. Puteți crea liste folosind metoda list().

Utilizați următorul cod pentru a crea o listă:

list_data <- list(„Negru”, „Verde”, c(11,4,14), TRUE, 31.22, 120.5)

print(liste_date)

Elementele listei pot fi accesate folosind indici de listă.

print(list_data[1]) #codul tipărește primul element al listei

Exemplu de manipulare a datelor cu liste:

list_data[4] <- NULL # acest cod elimină ultimul element din listă dacă are 4 elemente

Citiți: R vs Python pentru știința datelor

Matrice

Matricele sunt obiecte care pot fi utilizate pentru stocarea unui singur tip de date. Datele de mai mult de două dimensiuni pot fi stocate în matrice. Pentru aceasta, trebuie să utilizați funcția array() care ia vectorii ca intrare. Folosește valoarea din parametrul dim pentru a crea matricea.

De exemplu, uitați-vă la următorul cod:

vector_result <- array(c(vectorA,vectorB),dim = c(3,3,2))

print(rezultat_vector)

Matrici

În aceste obiecte R, elementele sunt organizate într-un aspect bidimensional. Matricele dețin elemente de tipuri atomice similare. Acestea sunt benefice atunci când elementele aparțin unei singure clase. Pentru calcule matematice sunt create matrici cu elemente numerice. Puteți crea matrice folosind funcția matrice().

Sintaxa de bază pentru a crea o matrice este prezentată mai jos:

matrice (date, nrow, ncol, byrow, dimnames)

Date – Acesta este vectorul de intrare care devine elementul de date pentru matrice
Nrow – Acesta este numărul de rânduri pe care doriți să le creați
Ncol – Acesta este numărul de coloane pe care doriți să le creați
Byrow – Acesta este un indiciu logic. Dacă valoarea sa este TRUE, elementele vectoriale vor fi aranjate pe rând
Dimname – Nume date coloanelor și rândurilor

Factori

Aceste obiecte R sunt folosite pentru clasificarea datelor și stocarea lor ca niveluri. Sunt bune pentru modelarea statistică și analiza datelor. Atât numerele întregi, cât și șiruri de caractere pot fi stocate în factori. Puteți utiliza funcția factor() pentru a crea un factor furnizând un vector ca intrare în metodă.

Cadre de date

Are o structură bidimensională ca o matrice cu rânduri și coloane. Aici, fiecare rând are un set de valori care aparțin fiecărei coloane. Coloanele conțin valoarea unei variabile. Sunt folosite pentru reprezentarea datelor din foile de calcul. Acestea pot fi folosite pentru stocarea datelor de tip factor, numeric sau caracter.

Un cadru de date are următoarele caracteristici:

Numele rândurilor trebuie să fie unice
Numele coloanelor nu trebuie să fie goale
Numărul de elemente de date din fiecare coloană trebuie să fie același

Manipularea datelor în R

În timpul manipulării datelor în R , primul pas este să creați mostre mici de date dintr-un set de date uriaș. Acest lucru se face deoarece întregul set de date nu poate fi analizat la un moment dat. De obicei, analiștii de date creează un subset reprezentativ al setului de date. Acest lucru îi ajută să identifice tendințele și modelele din setul de date mai mare. Acest proces de eșantionare se mai numește și subsetare .

Diferitele moduri de a crea un submult în R sunt următoarele:

$ – Acesta selectează un singur element de date și rezultatul acestuia este întotdeauna un vector

[[ – Acest operator de subsetare returnează, de asemenea, un singur element, dar vă puteți referi la elemente prin poziția lor

[ – Acest operator este utilizat pentru returnarea mai multor elemente de date

Unele dintre funcțiile de bază pentru manipularea datelor în R sunt:

funcția sample().

După cum sugerează și numele, metoda sample() este utilizată pentru a crea mostre de date dintr-un set de date mai mare. Alături de această comandă, menționați numărul de mostre pe care doriți să le extrageți din setul de date sau dintr-un vector. Sintaxa de bază este următoarea:

eșantion (x, dimensiune, înlocuire = FALSE, prob = NULL)

x – Acesta poate fi un vector sau un set de date de mai multe elemente din care eșantionul trebuie ales

dimensiune – Acesta este un număr întreg pozitiv care denotă numărul de elemente de selectat

înlocuiți – Acesta poate fi adevărat sau fals, indiferent dacă doriți eșantionarea cu sau fără înlocuire

prob – Este un argument utilizat pentru furnizarea unui vector de greutăți pentru obținerea elementelor vectorului care este eșantionat

Funcția Table().

Această funcție creează un tabel de frecvență care este utilizat pentru calcularea numărului de valori unice ale unei anumite variabile. De exemplu, să creăm un tabel de frecvență cu setul de date iris:

tabel(iris$specie)

Codul scris mai sus creează un tabel care ilustrează tipurile de specii din setul de date iris.

duplicat()

Metoda duplicated() este utilizată pentru identificarea și eliminarea valorilor duplicate dintr-un set de date. Ia un vector sau un cadru de date ca argument și returnează True pentru elementele care sunt duplicate. De exemplu,

duplicat(c(1,1,3))

Aceasta va verifica care dintre aceste elemente sunt duplicate și va returna True sau False.

Citește și : Arborele de decizie în R

Manipularea datelor în R folosind pachetul dplyr

R oferă un pachet simplu și ușor de utilizat numit dplyr pentru manipularea datelor. Pachetul are câteva metode încorporate pentru manipulare, explorare și transformare a datelor. Să vedem câteva dintre cele mai importante funcții ale acestui pachet:

Selectați()

Metoda select() este una dintre funcțiile de bază pentru manipularea datelor în R . Această metodă este utilizată pentru selectarea coloanelor din R. Folosind aceasta, puteți selecta datele ca și numele coloanei sale. Coloanele pot fi selectate în funcție de anumite condiții. Să presupunem că vrem să selectăm coloana a 3 -a și a 4 - a a unui cadru de date numit myData, codul va fi:

selectați(myData,3:4)

filtru()

Această metodă este utilizată pentru filtrarea rândurilor unui set de date care corespund unor criterii specifice. Poate funcționa ca select(), treci mai întâi cadrul de date și apoi o condiție separată folosind o virgulă.

De exemplu, dacă doriți să filtrați coloanele care au mașini roșii într-un set de date, trebuie să scrieți:

filtru (mașini, culoare ==”Roșu”)

Ca rezultat, vor fi afișate rândurile care se potrivesc.

mutare()

Puteți utiliza metoda mutate() pentru a crea coloane noi într-un set de date, păstrând în același timp pe cele vechi. Aceste coloane pot fi create prin specificarea unei condiții. De exemplu,

mutare(mtcars, mtcars_new_col = mpg/cyl)

În această comandă, în setul de date mtcars, este creată o nouă coloană mtcars_new_col care conține valorile coloanei mpg împărțite la coloana cyl.

aranja()

Acesta este folosit pentru sortarea rândurilor în ordine crescătoare sau descrescătoare, folosind una sau mai multe variabile. În loc să aplicați metoda desc(), puteți adăuga un simbol minus (-) înaintea variabilei de sortare. Aceasta va indica ordinea descrescătoare a sortării. De exemplu,

aranja (setul_meu de date, -Sepal.Length)

a se grupa cu()

Metoda group_by() este utilizată pentru gruparea observațiilor într-un set de date după una sau mai multe variabile.

rezuma()

Funcția summarise() este benefică pentru determinarea informațiilor despre date, cum ar fi media, mediana și modul. Este folosit împreună cu datele grupate create de o altă metodă group_by. summarise() ajută la reducerea mai multor valori în valori individuale.

combina()

Metoda merge() combină sau îmbină seturi de date împreună. Acest lucru este util pentru a combina mai multe surse de date de intrare împreună.

Metoda vă oferă 4 moduri de a îmbina seturile de date . Ele sunt menționate mai jos:

Asociere naturală – Aceasta este folosită pentru a păstra rândurile care se potrivesc cu condiția specificată în cadrele de date
Unire exterioară completă – Aceasta îmbină și stochează toate rândurile din ambele cadre de date
Left outer join – Aceasta stochează toate rândurile unui cadru de date A și cele din B care se potrivesc
Right outer join – Aceasta stochează toate rândurile unui cadru de date B și cele din A care se potrivesc

rename_if()

Aceasta este o funcție pe care o puteți utiliza pentru redenumirea coloanelor unui cadru de date atunci când condiția specificată este îndeplinită.

rename_all()

Acesta este folosit pentru redenumirea tuturor coloanelor unui cadru de date fără a specifica nicio condiție.

Obțineți cursuri de știință a datelor de la cele mai bune universități din lume. Alăturați-vă programelor noastre Executive PG, Programelor de certificate avansate sau Programelor de master pentru a vă accelera cariera.

Operator de conducte

Operatorul de conducte este disponibil în pachete precum magrittr și dplyr pentru a simplifica codul general. Operatorul vă permite să combinați mai multe funcții împreună. Notat cu simbolul %>%, poate fi folosit cu metode populare, cum ar fi summarise(), filter(), select() și group_by() în timpul manipulării datelor în R.

Pe lângă dplyr, există multe alte pachete în CRAN pentru manipularea datelor în R . De fapt, veți găsi mai mult de 7000 de pachete pentru a vă reduce codarea și, de asemenea, erorile. Multe dintre aceste pachete sunt create de dezvoltatori experți, așa că sunteți pe mâini sigure. Acestea includ:

tabel de date
lubrifiat
ggplot2
cititor
remodela2
tidyr

Concluzie

Dacă sunteți începător în manipularea datelor în R , ați putea alege funcțiile de bază încorporate disponibile în R. Acestea includ metode precum with(), within(), duplicated(), cut(), table(), sample() și sort(). Dar sunt consumatoare de timp și sunt repetitive. Nu este o varianta foarte eficienta.

Astfel, cea mai bună cale de urmat este utilizarea numărului mare de pachete din CRAN, cum ar fi dplyr. Acestea sunt super utile și vă fac programele mai eficiente.

Ce pachet este util pentru manipularea datelor în R?

Procesul de manipulare a datelor este folosit pentru a modifica datele disponibile și pentru a le face mai ușor de citit împreună cu pentru a le face mai organizate. Există adesea o mulțime de erori și inexactități de la mașinile care au colectat date. Manipularea datelor vă permite să eliminați aceste inexactități și să furnizați date mai precise.

Există o mulțime de modalități de a efectua manipularea datelor în R, cum ar fi utilizarea pachetelor precum ggplot2, readr, dplyr etc. și prin utilizarea funcțiilor de bază R precum inside(), with(), etc. Cu toate acestea, pachetul dplyr este considerat foarte util pentru manipularea datelor în R. Acest pachet constă din diverse funcții care au fost create special pentru manipularea datelor și permite ca datele să fie procesate mai rapid în comparație cu celelalte metode și pachete.

Care este scopul pachetului dplyr din R?

Pachetul dplyr este cunoscut a fi cel mai bun pentru manipularea datelor în R cu eficiență maximă. Anterior, a existat acest pachet numit plyr și care a fost repetat pentru a forma dplyr. Acum, dplyr se concentrează complet pe cadrele de date. Acesta este motivul pentru care este mult mai rapid, are un API mai bun și consistent și este, de asemenea, destul de ușor de utilizat.

Pachetul dplyr funcționează pentru a profita la maximum de datele disponibile cu performanțe îmbunătățite în comparație cu celelalte pachete de manipulare a datelor din R.

Cum poți manipula datele?

Pentru a efectua manipularea datelor, trebuie să efectuați anumiți pași într-o ordine generală. Urmați pașii de mai jos:

1. În primul rând, veți avea nevoie de o bază de date care a fost creată din surse de date.
2. În continuare, trebuie să curățați, rearanjați și restructurați datele disponibile cu manipularea datelor.
3. Acum, trebuie să dezvoltați o bază de date la care veți lucra.
4. Aici veți putea îmbina, șterge și modifica informațiile disponibile.
5. În cele din urmă, analizați datele disponibile și generați informații utile din acestea.