Top 28 de întrebări și răspunsuri la interviu pentru inginer de date pentru începători și experimentați

Publicat: 2020-03-11

Te pregătești pentru un interviu, dar nu știi cum să procedezi? Puteți începe cu lista noastră de întrebări și răspunsuri la interviu pentru inginer de date.

Interviurile inginerilor de date sunt unul dintre cele mai greu de rezolvat. Sunt atât de multe despre care ar trebui să știi. Dar nu vă faceți griji, pentru că lista noastră de întrebări la interviu vă va ajuta în acest sens. După ce ați parcurs această listă, veți ști răspunsurile la multe întrebări importante pe care le-ar putea adresa un recrutor. De asemenea, această listă vă va oferi o idee despre ceea ce ar trebui să studiați și să învățați în timp ce vă pregătiți pentru interviu.

Să începem.

Întrebări și răspunsuri de top Data Engineer interviu

Î.1 – Ce este ingineria datelor?

Ingineria datelor este o abordare de inginerie software pentru dezvoltarea și proiectarea sistemelor informaționale. Se concentrează pe colectarea și analiza datelor. În timp ce oamenii de știință de date efectuează diverse sarcini cu date mari, cineva trebuie să colecteze toate aceste date înainte, iar inginerii de date îndeplinesc această sarcină. Inginerii de date sunt responsabili și pentru dezvoltarea și întreținerea bazelor de date. Inginerii de date convertesc datele brute în date utilizabile.

Q.2 – Ce înțelegeți prin Data Modeling?

Când creați un model de date pentru un sistem de informații, astfel încât să puteți urmări datele acestuia, se numește modelare de date. Aceste modele de date devin tabele într-o DB (bază de date). De exemplu, dacă doriți să analizați comportamentul clienților dvs., fiecare client din baza dvs. de date ar fi un model de date. Este reprezentarea conceptuală a valorilor datelor asociate cu reguli.

Î.3 – Ce este Hadoop?

Hadoop este o colecție de software open-source de utilități care vă permit să utilizați o rețea de mai multe computere pentru rezolvarea problemelor legate de big data. Are diverse componente care vă permit să procesați cantități masive de date. Dezvoltatorul Hadoop este fundația Apache. Colecția sa extinsă de utilități și componente vă permite să realizați multe aplicații puternice de date mari în mod eficient.

Q.4 – Care sunt diferitele componente ale Hadoop?

Hadoop este alcătuit în principal din 4 componente și acestea sunt HDFS, MapReduce, YARN și Hadoop Common.

HDFS este sistemul de fișiere care stochează toate datele Hadoop. Are o lățime de bandă mare, deoarece este un sistem de stocare distribuit.

MapReduce procesează cantități mari de date; YARN este managementul resurselor Hadoop și alocă resursele necesare în consecință. Hadoop Common este un grup de biblioteci și utilitare pe care le puteți utiliza în Hadoop.

Î.5 – Ce înseamnă HDFS?

HDFS este o componentă Hadoop. HDFS înseamnă Hadoop Distributed File System.

Î.6 – Ce este un NameNode?

Un NameNode este o parte a stocării datelor în HDFS și urmărește diferitele fișiere prezente în clustere. NameNodes nu stochează date. Ei stochează metadatele DataNodes, unde HDFS stochează datele reale.

Q.7 – Care este diferența dintre datele nestructurate și cele structurate?

Sistemele stochează date nestructurate în structuri de fișiere negestionate, în timp ce stocarea datelor structurate este DBMS. Scalarea în schemă a datelor structurate este o provocare, dar este destul de ușor de realizat cu datele nestructurate. Veți folosi ELT (Extract, Transform, and Load) pentru date structurate. Pe de altă parte, ar trebui să efectuați procesarea în lot sau introducerea datelor.

Q.8 – Câte tipuri de scheme de proiectare sunt prezente în Data Modeling? Ce sunt ei?

Există două tipuri de scheme de proiectare în modelarea datelor, care sunt: schema Snowflake și schema Star.

Î.9 – Ce se întâmplă când Block Scanner găsește un bloc de date corupt? Explica.

Aceasta este una dintre întrebările populare ale interviului pentru inginer de date . Așa că asigurați-vă că îl pregătiți înainte ca Scannerul de blocuri să găsească un bloc de date corupt, DataNode îl raportează lui NameNode. Apoi, NameNode începe să facă o replică a blocului corupt utilizând unul dintre modelele sale existente. Dacă sistemul nu șterge blocul de date corupt, el creează atâtea replici câte factor de replicare există. Numărul de replicări trebuie să se potrivească la fel.

Q.10 – Denumiți toate fișierele de configurare XML prezente în Hadoop.

Fișierele de configurare XML prezente în Hadoop sunt HDFS-site, Mapred-site, Yarn-site și Core-site.

Î.11 – Ce este un bloc în HDFS? Ce este un scaner de blocuri?

În Hadoop, un bloc este cea mai mică unitate de date. Un scaner de blocuri este o componentă care verifică și verifică blocurile prezente pe un DataNode. Hadoop împarte fișierele mari de date în blocuri mici de date pentru a ușura stocarea.

Q.12- Ce mesaje trimite un DataNode către NameNode?

DataNodes trimit semnale către NameNodes pentru a-i informa că funcționează. Numele acestor semnale este Heartbeat. Și dacă un DataNodes nu reușește să trimită o bătăi de inimă, NameNode determină că a murit și a încetat să funcționeze.

Q.13 – Indicați V-urile centrale ale Big Data.

Cele patru V-uri centrale ale datelor mari sunt Viteza, Varietatea, Volumul și Verabilitatea.

Î.14 – Ce se înțelege prin COSHH?

COSHH înseamnă Classification and Optimization-based Schedule for Heterogeneous Hadoop systems.

Q.15 – Puteți descrie Schema Stelară?

Schema stelelor are o structură asemănătoare unei stele; de aceea își poartă numele. Centrul stelei ar putea avea un tabel de fapte cu diferite tabele de dimensiuni asociate cu acesta. Inginerii de date îl folosesc pentru a interoga seturi substanțiale de date.

Q.16 – Ce este Snowflake Schema?

O schemă fulg de zăpadă este o formă de schemă Star. Singura diferență este că are dimensiuni suplimentare și își trage numele din structura sa asemănătoare fulgilor de zăpadă. Are tabele de dimensiuni normalizate, datorită cărora are alte tabele.

Q.17- Care sunt metodele de bază ale unui reductor în Hadoop?

Există mai multe metode de bază în Reducer. Prima este setup () care configurează parametrii, cleanup () curățează seturile de date temporare, iar Reducer rulează metoda reduce () cu fiecare sarcină redusă.

Q.18 – Ce este FSCK?

FSCK înseamnă File System Check. Este o comandă a HDFS și folosește această comandă pentru a detecta problemele și inconsecvențele dintr-un fișier.

Q.19 – Are Hadoop mai multe moduri? Dacă da, care sunt acestea?

Da, Hadoop are trei moduri distincte. Acestea sunt: modul autonom, modul complet distribuit și modul pseudodistribuit.

Î.20 – Ce înseamnă YARN?

YARN înseamnă Yet Another Resource Negotiator.

Q.21 – Cum securizați Hadoop?

În acest scop, veți activa mai întâi criptarea în repaus și în tranzit. Va trebui să utilizați versiunile securizate ale protocoalelor pe care le utilizați în Hadoop. Veți permite SASL să protejeze datele RPC. Puteți activa SASL prin proprietatea hadoop.rpc.protection.

Veți securiza și canalul de autentificare. Clientul poate folosi marcajul de timp al canalului de autentificare pentru a obține un bilet de serviciu, pe care apoi îl puteți utiliza pentru auto-autentificare.

Q.22 – Puteți detalia despre HDFS (Hadoop Distributed File System)?

Hadoop este capabil să lucreze cu sisteme de fișiere distribuite, cum ar fi FS, HFTP și S3. Sistemul de fișiere Google este baza pentru HDFS și poate rula pe un grup mare de sisteme mici.

Q.23 – Care sunt diferențele dintre Snowflake și Star Schema?

În schema Star, aveți o șansă mai mare de redundanță a datelor, ceea ce nu este cazul cu schema Snowflake. Designul DB al schemei Star este mai simplu decât Snowflake. Unirea complexă a schemei Snowflake încetinește procesarea cubului, ceea ce nu se întâmplă cu schema Star.

Q.24 – Ce este un Heartbeat în Hadoop?

În Hadoop, există două tipuri de noduri, NameNode și DataNode. NameNode are responsabilitatea de a stoca metadatele DataNodes și de a ține evidența stării acestora. DataNodes trimit semnale către NameNode pentru a-i informa că sunt în viață și funcționează. Acest semnal este Bătăile Inimii.

Q.25 – Ce înțelegeți prin Big Data?

Când aveți cantități uriașe de date nestructurate și structurate pe care nu le puteți procesa cu metode convenționale, se numește date mari. Big data este domeniul de analiză și utilizare a seturi de date extrem de complexe pentru culegerea de informații. Metodele tradiționale de analiză a datelor nu funcționează bine cu cantități atât de mari de date complexe. În big data, inginerii de date au sarcina de a analiza datele brute și de a le converti în date utilizabile.

Q.26 – Ce subiecte și limbaje de programare ar trebui să cunoască un inginer de date?

Un inginer de date ar trebui să cunoască analiza tendințelor, învățarea automată, SQL, Hive QL, probabilitatea, regresia și algebra liniară. Un inginer de date ar putea cunoaște multe alte subiecte, dar acestea sunt obligatorii.

Q.27 – Care sunt diferențele dintre DAS și NAS în Hadoop?

Aceasta este una dintre cele mai populare întrebări de interviu pentru inginer de date, așa că acordați o atenție deosebită răspunsului său. DAS înseamnă Direct Attached Storage, iar NAS înseamnă Network Attached Storage. Capacitatea de stocare a NAS este de la 10^9 la 10^12 în octet. Pe de altă parte, DAS are o capacitate de stocare de 10^9 octeți. Costurile de gestionare ale NAS sunt mult mai mici decât DAS.

Q.28 – Ce se înțelege prin distanța dintre noduri în Hadoop? Cum l-ai calcula?

În Hadoop, distanța dintre două noduri este egală cu suma lungimii până la nodurile lor cele mai apropiate. Puteți folosi getDistance() pentru a găsi distanța dintre două noduri în Hadoop.

Învață cursuri de știință a datelor de la cele mai bune universități din lume. Câștigă programe Executive PG, programe avansate de certificat sau programe de master pentru a-ți accelera cariera.

Concluzie

Cu ajutorul acestor întrebări de interviu, suntem siguri că te vei pregăti destul de ușor. Interviurile de inginerie a datelor nu trebuie să fie stresante. Asigurați-vă că dormi suficient înainte de întâlnire, mulți oameni devin prea anxioși.

Și dacă aveți întrebări legate de ingineria datelor sau de interviuri, nu ezitați să ne întrebați. Ne-ar plăcea să vă ajutăm.

Care sunt sarcinile și responsabilitățile inginerilor de date?

Pentru inginerii de date, responsabilitatea lor principală este să pregătească datele în scopuri analitice sau operaționale. Ca parte a industriei IT, acești ingineri creează conducte de date care conectează date din mai multe sisteme sursă. Acestea combină, consolidează și purifică datele înainte de a le structura pentru a fi utilizate în aplicații de analiză. Majoritatea echipelor de analiză ale companiilor sunt formate din ingineri de date și oameni de știință ai datelor care fac datele mai accesibile și maximizează mediul de date mari al companiei. Inginerii oferă date în formate utilizabile oamenilor de știință de date, care folosesc informațiile pentru a efectua interogări și algoritmi pentru analiză predictivă, învățare automată și aplicații de data mining.

Care sunt abilitățile necesare pentru a lucra ca inginer de date?

Cunoașterea dezvoltării și gestionării sistemelor de baze de date este o necesitate pentru inginerii de date. Ar trebui să cunoască fluent limbaje de programare precum SQL, Python, R etc. și ar trebui să aibă o înțelegere de bază a învățării automate și a algoritmilor. Inginerii de date ar trebui să cunoască, de asemenea, soluțiile de depozitare și instrumentele ETL (Extract, Transfer, Load). Știința datelor este o disciplină foarte colaborativă, iar inginerii de date colaborează cu o varietate de părți interesate, de la analiști de date la directori tehnologici. Prin urmare, abilitățile soft, cum ar fi abilitățile bune de comunicare și abilitățile înalte de cooperare, ar trebui să facă parte din setul de abilități al fiecărui inginer de date.

Este ingineria datelor o cale de carieră bună? Cât câștigă în medie un inginer de date?

Potrivit Dice 2020 Tech Job Report, ingineria datelor este opțiunea de carieră cu cea mai rapidă creștere în tehnologie în 2019, cu o creștere de 50% de la an la an a numărului de oportunități disponibile. Câștigă semnificație în lumea tehnologică și a devenit o opțiune de carieră profitabilă pe măsură ce cererea de management al informațiilor crește. Cu un salariu de bază de 4.57.532 INR, salariile inginerilor de date cresc odată cu creșterea anilor de experiență. Inginerii de date cu 1-4 ani de experiență câștigă un salariu mediu de 7.20.395 ₹, în timp ce inginerii de date la mijlocul carierei cu 5-9 ani de experiență și inginerii de date cu experiență cu 10-19 ani de experiență câștigă un venit total mediu de ₹ 12.94.336 și, respectiv, 18.67.992 INR.