17 Întrebări și răspunsuri la interviu pe care trebuie să le citiți Pandas [Pentru cei proaspăți și cu experiență]
Publicat: 2020-07-29Pandas este o bibliotecă Python cu licență BSD și open-source care oferă structuri de date de înaltă performanță, ușor de utilizat și instrumente de analiză a datelor. Python with Pandas este utilizat într-o gamă largă de discipline, inclusiv economie, finanțe, statistică, analiză și multe altele. În acest articol, am enumerat câteva întrebări esențiale de interviu cu panda și întrebări de interviu NumPy pe care un cursant Python trebuie să le cunoască. Dacă doriți să aflați mai multe despre python, consultați programele noastre de știință a datelor.
Cuprins
Întrebări și răspunsuri la interviu Pandas
Întrebarea 1 – Definiți Python Pandas.
Pandas se referă la o bibliotecă de software scrisă explicit pentru Python, care este folosită pentru a analiza și manipula datele. Pandas este o bibliotecă open-source, multiplatformă, creată de Wes McKinney. A fost lansat în 2008 și a furnizat structuri de date și operațiuni pentru a manipula date numerice și serii de timp. Pandas pot fi instalați folosind distribuția pip sau Anaconda. Pandas facilitează efectuarea operațiunilor de învățare automată pe date tabelare.
Întrebarea 2 – Care sunt diferitele tipuri de structuri de date în Pandas?
Biblioteca Panda acceptă două tipuri majore de structuri de date, DataFrames și Series. Ambele structuri de date sunt construite pe partea de sus a NumPy. Series este o structură de date unidimensională și cea mai simplă, în timp ce DataFrame este bidimensional. O altă etichetă de axă cunoscută sub numele de „Panel” este o structură de date tridimensională și include elemente precum axa_major și axa_minor.
Sursă
Întrebarea 3 – Explicați seria în panda.
Series este o matrice unidimensională care poate conține valori de date de orice tip (șir, float, întreg, obiecte Python etc.). Este cel mai simplu tip de structură de date din Pandas; aici, etichetele axei datelor sunt numite index.
Întrebarea 4 – Definiți cadrul de date în Pandas.
Un DataFrame este o matrice bidimensională în care datele sunt aliniate într-o formă tabelară cu rânduri și coloane. Cu această structură, puteți efectua o operație aritmetică pe rânduri și coloane.
Întrebarea 5 – Cum puteți crea un cadru de date gol în Pandas?
Pentru a crea un DataFrame gol în Pandas, tastați
importa panda ca pd
ab = pd.DataFrame()
Întrebarea 6 – Care sunt cele mai importante caracteristici ale bibliotecii Pandas?
Caracteristicile importante ale bibliotecii panda sunt:
- Alinierea datelor
- Fuzionați și alăturați-vă
- Memorie eficientă
- Serii de timp
- Remodelarea
Citiți: Dataframe în Apache PySpark: Tutorial cuprinzător
Întrebarea 7 – Cum veți explica reindexarea în Pandas?
A reindexa înseamnă a modifica datele pentru a se potrivi cu un anumit set de etichete de-a lungul unei anumite axe.
Pot fi realizate diferite operații folosind indexare, cum ar fi-
- Introduceți marcatori de valoare lipsă (NA) în locațiile etichetelor în care nu existau date pentru etichetă.
- Reordonați setul de date existent pentru a se potrivi cu un nou set de etichete.
Întrebarea 8 – Care sunt diferitele moduri de a crea DataFrame în panda? Explicați cu exemple.
DataFrame poate fi creat folosind liste sau Dict of nd arrays.
Exemplul 1 – Crearea unui DataFrame folosind Listă
importa panda ca pd
# o listă de șiruri
Strlist = ['Pandas', 'NumPy']
# Apelarea constructorului DataFrame din listă
list = pd.DataFrame(Strlist)
print(lista)
Exemplul 2 – Crearea unui DataFrame folosind dict de matrice
importa panda ca pd
list = {'ID': [1001, 1002, 1003],'Department':['Science', 'Comert', 'Arts',]}
list = pd.DataFrame(lista)
imprimare (lista)
Consultați: Întrebări de interviu pentru știința datelor
Întrebarea 9 – Explicați datele categorice în Pandas ?
Datele categorice se referă la date în timp real care pot fi repetitive; de exemplu, valorile datelor din categorii precum țara, sexul, codurile vor fi întotdeauna repetitive. Valorile categorice la panda pot lua, de asemenea, doar un număr limitat și fix de valori posibile.
Operațiile numerice nu pot fi efectuate pe astfel de date. Toate valorile datelor categorice din panda sunt fie în categorii, fie np.nan.
Acest tip de date poate fi util în următoarele cazuri:
Dacă o variabilă șir conține doar câteva valori diferite, conversia ei într-o variabilă categorială poate economisi ceva memorie.
Este util ca semnal pentru alte biblioteci Python, deoarece această coloană trebuie tratată ca o variabilă categorială.
O ordine lexicală poate fi convertită într-o ordine categorială pentru a fi sortată corect, ca o ordine logică.
Întrebarea 10 – Creați o serie folosind Dict în Pandas.

importa panda ca pd
import numpy ca np
ser = {'a': 1, 'b': 2, 'c': 3}
ans = pd.Series(ser)
imprimare (ans)
Întrebarea 11 – Cum se creează o copie a seriei în Pandas?
Pentru a crea o copie a seriei în panda, se folosește următoarea sintaxă:
panda.Seria.copie
Series.copy(deep=True)
* dacă valoarea deep este setată la false, nu va copia nici datele, nici indicii.
Întrebarea 12 – Cum veți adăuga un index, un rând sau o coloană la un cadru de date în Pandas?
Pentru a adăuga rânduri la un DataFrame, putem folosi .loc (), .iloc () și .ix(). .loc () este bazat pe etichetă, .iloc() este bazat pe numere întregi și .ix() este pe etichetă de cabină și pe numere întregi. Pentru a adăuga coloane la DataFrame, putem folosi din nou .loc () sau .iloc ().
Întrebarea 13 – Ce metodă veți folosi pentru a redenumi indexul sau coloanele Pandas Dataframe?
Metoda .rename poate fi folosită pentru a redenumi coloanele sau valorile index ale DataFrame
Întrebarea 14 – Cum puteți repeta peste cadrul de date în Pandas?
Pentru a itera peste DataFrame în bucla Pandas for poate fi folosit în combinație cu un apel iterrows ().
Întrebarea 15 – Ce este Pandas Numpy Array?
Numerical Python (NumPy) este definit ca un pachet încorporat în python pentru a efectua calcule numerice și procesare a elementelor de matrice multidimensionale și unidimensionale.
Matricea NumPy calculează mai rapid în comparație cu alte matrice Python.
Întrebarea 16 – Cum poate fi convertit un cadru de date într-un fișier Excel?
Pentru a converti un singur obiect într-un fișier Excel, putem specifica pur și simplu numele fișierului țintă. Cu toate acestea, pentru a converti mai multe foi, trebuie să creăm un obiect ExcelWriter împreună cu numele fișierului țintă și să specificăm foaia pe care dorim să o exportăm.
Întrebarea 17 – Ce este funcția Groupby în Pandas?
În Pandas, funcția groupby () permite programatorilor să rearanjeze datele utilizându-le pe seturi din lumea reală. Sarcina principală a funcției este de a împărți datele în diferite grupuri.
Citește și: Top 15 proiecte Python AI și Machine Learning Open Source
Concluzie
Sperăm că întrebările de interviu P andas și întrebările de interviu NumPy menționate mai sus vă vor ajuta să vă pregătiți pentru sesiunile de interviu viitoare. Dacă sunteți în căutarea unor cursuri care vă pot ajuta să vă familiarizați cu limbajul Python , upGrad poate fi cea mai bună platformă.
Dacă sunteți curios să aflați despre știința datelor, consultați programul Executive PG în știința datelor de la IIIT-B și upGrad, care este creat pentru profesioniști care lucrează și oferă peste 10 studii de caz și proiecte, ateliere practice practice, mentorat cu experți din industrie, 1 -on-1 cu mentori din industrie, peste 400 de ore de învățare și asistență profesională cu firme de top.
Biblioteca Pandas este folosită în ce scop?
Principalul motiv din spatele utilizării Pandas este analiza datelor. Pandas permite utilizatorilor să importe date din diferite formate, cum ar fi Microsoft Excel, SQL, JSON și, de asemenea, valori separate prin virgulă. Pandas este considerat a fi foarte util pentru analiza datelor, deoarece permite utilizatorilor să efectueze diferite operațiuni de manipulare a datelor, cum ar fi selectarea, remodelarea, îmbinarea și curățarea datelor. În afară de asta, Pandas oferă, de asemenea, diverse funcții de dispută de date.
În termeni simpli, putem spune că Pandas facilitează realizarea diverselor sarcini repetitive și consumatoare de timp care implică date. Sarcinile simplificate cu Pandas sunt:
1. Fuzionarea și alăturarea Statistical
2.analiză Date
3. normalizare Date
4. umplerea Datelor
5. curățarea Datelor
6. inspecție Încărcarea și salvarea datelor
7. Vizualizarea datelor
Acestea sunt doar câteva dintre sarcinile de manipulare a datelor simplificate cu Pandas. Oamenii de știință de date votează Pandas drept cel mai bun instrument disponibil pentru analiza și manipularea datelor.
Care sunt unele dintre caracteristicile esențiale oferite de Python Pandas?
Pentru a valorifica adevărata putere a bibliotecii Pandas în Python, ar trebui să explorați unele dintre caracteristicile esențiale oferite utilizatorilor. Când vine vorba de analiza datelor, Pandas este considerat a fi cel mai puternic instrument cu o mulțime de funcții pentru a ușura lucrurile pentru utilizatori.
Unele dintre caracteristicile esențiale despre care ar trebui să le cunoașteți înainte de a începe utilizarea cu biblioteca Pandas sunt:
1. Manipularea datelor
2. Alinierea și indexarea datelor
3. Curățarea datelor
4. Gestionarea datelor lipsă
5. Diverse instrumente de intrare și ieșire pentru citirea și scrierea datelor
6. Suporta mai multe formate de fișiere
7. Îmbinați și alăturați seturi de date diferite
8. Optimizarea performantelor
9. Vizualizarea datelor
10. Gruparea datelor conform cerințelor
11. Efectuarea diferitelor operatii matematice asupra datelor disponibile
12. Mascarea datelor irelevante pentru a utiliza numai datele necesare
13. Scoaterea datelor unice din diverse repetări din setul de date
Care este motivul pentru importul bibliotecii Pandas în Python?
Pandas este o bibliotecă Python open-source care este cea mai utilizată pentru efectuarea diferitelor sarcini de analiză a datelor, știință a datelor și învățare automată. Pandas este cel mai popular pachet pentru disputele de date și funcționează destul de bine cu diverse alte module de știință a datelor din ecosistemul Python. Biblioteca Pandas este prima preferință pentru orice când vine vorba de date pentru fiecare profesionist în știința datelor și analiza datelor.