Stăpânirea pandalor: funcții importante ale pandaților pentru următorul tău proiect

Publicat: 2020-11-30

Biblioteca Pandas a fost favorita din toate timpurile pentru toți oamenii de știință de date sau analiștii datorită naturii sale ușor de utilizat, a unei game largi de funcționalități și a unei interpretări mai bune a rezultatelor. Orice persoană care își începe călătoria în știința datelor este sfătuită să aibă o bună comandă asupra panda, să vină cu conducte pentru a reduce efortul manual de curățare și preprocesare a datelor.

Pandas este construit pe Numpy, ceea ce permite executarea mai rapidă a comenzilor și efectuarea lucrărilor în mai puțin timp. În acest articol, vom împărtăși câteva funcții panda subestimate care pot îmbogăți calitatea codului proiectului dumneavoastră.

Înainte de a merge mai departe, iată o legendă rapidă:

  • Toate comenzile menționate presupun că cadrul de date este numit „df”, care este un obiect al pd.DataFrame()
  • Biblioteca Pandas a fost importată ca alias ca „pd”.

Cuprins

Accesorii șiruri

Datele șir sau text contribuie în mare parte la un set de date. Fie că este vorba de informații legate de autor, titlu, publicarea unei cărți sau tweet-uri făcute pentru un anume hashtag, avem o mulțime de date text și aceste date sunt utile atunci când sunt curățate corespunzător și sunt transmise oricărui clasificator precum Naive Bayes etc. Iată câteva trucuri pe care le puteți aplica:

  • Pentru a accesa datele de tip șir, utilizați accesorul „str”. De exemplu, df['nume_coloană'].str
  • Acest lucru face posibilă efectuarea tuturor operațiunilor cu șir pe coloana selectată.
  • Unele operațiuni comune includ,
    • df['nume_coloană'].str.len(): lungimea fiecărui șir
    • .str.split(): Împărțire la un anumit caracter
    • .str.contains(): returnează T/F dacă un anumit cuvânt este prezent în șir
    • .str.count(): Returnează numărul de rânduri care satisfac expresia regulată transmisă.
    • .str.findall(): Returnează rezultatele care se potrivesc cu expresia transmisă.
    • .str.replace(): La fel ca findall, dar aici are loc înlocuirea elementelor potrivite
    • Sunt acceptate toate operațiunile cu șir, cum ar fi .title, .isalpha, .isalnum, .isdecimal etc.

Citește și: Pandas Dataframe Astype

Accesorii Datetime

Datele și ora sunt prezente în mod obișnuit în seturile de date sub formă de marcaje temporale, ora de începere, ora de încheiere sau orice alt moment asociat cu acel eveniment. Este util să analizați aceste date în mod corespunzător, deoarece oferă tendințe de-a lungul unei linii temporale care poate fi prezentată pentru a prezice evenimente viitoare sau le numim citați ca analiză a serii temporale. Să vedem câteva comenzi utile:

  • Pentru a accesa datele DateTime, convertiți tipul de date curent (valorile datei sunt analizate ca șir sau obiect) în DateTime utilizând funcția pd.to_datetime().
  • Acum, folosind accesorul „.dt”, putem accesa orice informație DateTime necesară, cum ar fi:
    • df['nume_coloană'].dt.day: returnează ziua datei.
    • .dt.time: Ora
    • .dt.year: Anul datei
    • .dt.month: luna datei
    • .dt.weekday: Fie că este duminică, luni... sub formă numerică, unde 0 reprezintă luni. Dacă doriți nume de zile, atunci utilizați .dt.day_name
    • .dt.is_month_start: returnează T/F în funcție de faptul dacă data este prima a lunii.
    • .dt.is_month_end Aceeași funcționalitate ca month_start, dar aici este verificată ultima dată a lunii.
    • .dt.quater: returnează în ce trimestru se află data
    • .dt.is_quater_start: returnează T/F dacă data este prima zi a trimestrului
    • .dt.is_quater_end: dacă este ultima zi a trimestrului
    • .dt.normalize: Când componenta timp nu adaugă o contribuție valoroasă la analiză, poate fi ignorată. Această comandă rotunjește timpul la miezul nopții, adică 00:00:00.

Panda Complot

Plotarea vizualizărilor este una dintre componentele cheie ale analizei datelor și joacă un rol major în timpul efectuării ingineriei caracteristicilor. De exemplu, valorile aberante dintr-un set de date pot fi detectate folosind diagrame cu casete care reprezintă intervalul median și intercuartil, lăsând valorile aberante la extreme.

Plotarea se face mai ales prin alte biblioteci, cum ar fi seaborn, plotly, bokeh, matplotlib, dar când doriți să vizualizați instantaneu datele fără a defini în mod explicit bibliotecile? Panda a primit soluția. Folosind funcția pd.plot(), puteți trasa direct grafice care sunt invocate intern folosind matplotlib. Diverse opțiuni disponibile pentru aceasta:

  • df.plot() sau df['nume_coloană'].plot() (în funcție de tipul de grafic)
  • df.plot() are parametrul „kind” care definește graficul. În mod implicit, este un grafic „liniar”, dar alte opțiuni disponibile sunt „bar”, „barh”, „box”, „hist”, „kde” etc.
  • Invocă backend-ul matplotlib, ceea ce înseamnă că îi putem accesa argumentele printr-un accesor „ax”.
  • Funcția .plot() poate lua, de asemenea, argumente precum „title”, „xticks”, „xlim”, „xlabel”, „fontsize”, „colormap”, ceea ce eradica într-o oarecare măsură nevoia de a defini biblioteci externe.

Funcții diverse

  • pd.get_dummies(): În timp ce preprocesăm date, uneori ne întâlnim cu date categorice care trebuie convertite în formă numerică pentru a fi transmise modelului. Atunci când aceste categorii sunt destul de scăzute, se preferă codificarea one-hot, dar a face acest lucru manual durează. Această funcție dumies nu numai că transformă valorile, dar, dacă drop_first este setată la True, aruncă coloana anterioară care conține toate categoriile.
  • df.query(): Este funcția care vă permite să aplicați masca condiționată peste cadrul de date. Diferența de bază între aceasta și mascarea normală este că această funcție returnează direct valorile în loc de masca booleană, reducând efortul de a crea măști și de a o aplica cadrului de date.
  • df.select_dtypes(): Uneori trebuie să realizăm anumite sarcini pe un tip de tip de date. De exemplu, în timpul citirii datelor din fișiere externe, unele tipuri de date sunt definite ca obiecte. În timpul curățării datelor, setul de date trebuie să aibă toate tipurile de date corecte, iar efectuarea manuală prin df.astype('data-type') ar fi plictisitoare când numărul acestor tipuri de date este mare. Această funcție selectează tipul de date specificat și poate fi combinată cu funcția .apply(). Un exemplu de cod ar arăta astfel:

df.select_dtypes(obiect).apply(astype(str))

Trebuie citit: Întrebări la interviu Pandas

Concluzie

Această sarcină este denumită înlănțuire și este foarte obișnuită în timpul activităților de știință a datelor pentru a reduce efortul de definire a variabilelor pentru fiecare pas care trebuie efectuat.

Dacă sunteți curios să aflați despre Pandas, consultați Diploma PG în știința datelor de la IIIT-B și upGrad, care este creată pentru profesioniști care lucrează și oferă peste 10 studii de caz și proiecte, ateliere practice practice, mentorat cu experți din industrie, -1 cu mentori din industrie, peste 400 de ore de învățare și asistență la locul de muncă cu firme de top.