35 de întrebări și răspunsuri pentru interviul Big Data 2022: pentru cei proaspăt și cu experiență
Publicat: 2021-01-05Să participi la un interviu de date mari și să te întrebi care sunt toate întrebările și discuțiile prin care vei trece? Înainte de a participa la un interviu de date mari, este mai bine să aveți o idee despre tipul de întrebări ale interviului de date mari, astfel încât să puteți pregăti mental răspunsuri pentru ele.
Pentru a vă ajuta, am creat ghidul de întrebări și răspunsuri de top pentru interviul Big Data pentru a înțelege profunzimea și intenția reală a întrebărilor interviului Big Data.
Nu veți crede cum acest program a schimbat cariera studenților
Suntem în era Big Data și a analizei. Cu datele care alimentează totul în jurul nostru, a existat o creștere bruscă a cererii de profesioniști calificați în domeniul datelor. Organizațiile sunt mereu în căutarea unor persoane cu calificare superioară, care să le ajute să înțeleagă grămezile lor de date.
Cuvântul cheie aici este „supravegheat” și, prin urmare, interviurile Big Data nu sunt cu adevărat un cakewalk. Există câteva întrebări esențiale pentru interviul Big Data pe care trebuie să le cunoașteți înainte de a participa la unul. Acestea vă vor ajuta să vă găsiți drumul.
Întrebările au fost aranjate într-o ordine care vă va ajuta să treceți de la elementele de bază și să ajungeți la un nivel oarecum avansat.
Întrebări și răspunsuri la interviu Big Data
1. Definiți Big Data și explicați Vs-ul Big Data.

Aceasta este una dintre cele mai introductive, dar importante întrebări de interviu pentru Big Data. Răspunsul la aceasta este destul de simplu:
Big Data poate fi definită ca o colecție de seturi complexe de date nestructurate sau semi-structurate, care au potențialul de a oferi informații utile.
Cele patru Vs ale Big Data sunt:
Volum – Vorbește despre cantitatea de date
Varietate – Vorbește despre diferitele formate de date
Viteză – Vorbește despre viteza din ce în ce mai mare cu care cresc datele
Veracitate – Vorbește despre gradul de acuratețe al datelor disponibile
Tutorial Big Data pentru începători: tot ce trebuie să știți
2. Cum este Hadoop legat de Big Data?
Când vorbim despre Big Data, vorbim despre Hadoop. Deci, aceasta este o altă întrebare de interviu Big Data pe care cu siguranță te vei confrunta într-un interviu.
Hadoop este un cadru open-source pentru stocarea, procesarea și analiza seturilor complexe de date nestructurate pentru a obține informații și informații.
3. Definiți HDFS și YARN și vorbiți despre componentele lor respective.
Acum că ne aflăm în zona Hadoop, următoarea întrebare de interviu Big Data cu care te-ai putea confrunta se va învârti în jurul aceleiași.
HDFS este unitatea de stocare implicită a Hadoop și este responsabil pentru stocarea diferitelor tipuri de date într-un mediu distribuit.
HDFS are următoarele două componente:
NameNode – Acesta este nodul principal care are informațiile de metadate pentru toate blocurile de date din HDFS.
DataNode – Acestea sunt nodurile care acționează ca noduri slave și sunt responsabile pentru stocarea datelor.
YARN, prescurtare pentru Yet Another Resource Negotiator , este responsabil pentru gestionarea resurselor și furnizarea unui mediu de execuție pentru procesele menționate.
Cele două componente principale ale YARN sunt:
ResourceManager – Responsabil cu alocarea resurselor către respectivii NodeManagers în funcție de nevoi.
NodeManager – Execută sarcini pe fiecare DataNode.
7 proiecte interesante de date mari de care trebuie să fii atent
4. Ce înțelegeți prin hardware de bază?
Aceasta este încă o altă întrebare pentru interviul Big Data pe care este cel mai probabil să o întâlniți în orice interviu la care participați.
Commodity Hardware se referă la resursele hardware minime necesare pentru a rula cadrul Apache Hadoop. Orice hardware care acceptă cerințele minime Hadoop este cunoscut sub numele de „Hardware de marfă”.
5. Definiți și descrieți termenul FSCK.
FSCK înseamnă Filesystem Check. Este o comandă folosită pentru a rula un raport rezumat Hadoop care descrie starea HDFS. Verifică doar erorile și nu le corectează. Această comandă poate fi executată fie pe întregul sistem, fie pe un subset de fișiere.
6. Care este scopul comenzii JPS în Hadoop?
Comanda JPS este folosită pentru a testa funcționarea tuturor demonilor Hadoop. Testează în mod special demoni precum NameNode, DataNode, ResourceManager, NodeManager și multe altele.
(În orice interviu Big Data, este posibil să găsiți o întrebare despre JPS și importanța acesteia.)
Big Data: trebuie să cunoașteți instrumentele și tehnologiile
7. Denumiți diferitele comenzi pentru pornirea și închiderea Hadoop Daemons.
Aceasta este una dintre cele mai importante întrebări de interviu Big Data pentru a ajuta intervievatorul să vă evalueze cunoștințele despre comenzi.
Pentru a porni toți demonii:
./sbin/start-all.sh
Pentru a închide toți demonii:
./sbin/stop-all.sh
8. De ce avem nevoie de Hadoop pentru Big Data Analytics?
Aceste întrebări de interviu Hadoop vă testează gradul de conștientizare cu privire la aspectele practice ale Big Data și Analytics.
În cele mai multe cazuri, Hadoop ajută la explorarea și analiza seturi de date mari și nestructurate. Hadoop oferă capabilități de stocare, procesare și colectare a datelor care ajută la analiză.
9. Explicați diferitele caracteristici ale Hadoop.
Listată în multe întrebări și răspunsuri la interviu Big Data, cel mai bun răspuns la aceasta este:
Open-Source – Hadoop este o platformă open-source. Permite rescrierea sau modificarea codului în funcție de cerințele utilizatorului și de analiză.
Scalabilitate – Hadoop acceptă adăugarea de resurse hardware la noile noduri.
Recuperarea datelor – Hadoop urmează replicarea care permite recuperarea datelor în cazul oricărei defecțiuni.
Localitatea datelor – Aceasta înseamnă că Hadoop mută calculul către date și nu invers. În acest fel, întregul proces se accelerează.
10. Definiți numerele de port pentru NameNode, Task Tracker și Job Tracker.
NameNode – Port 50070
Task Tracker – Port 50060
Job Tracker – Port 50030
11. Ce vrei să spui prin indexare în HDFS?
HDFS indexează blocurile de date în funcție de dimensiunile acestora. Sfârșitul unui bloc de date indică adresa unde este stocată următoarea bucată de blocuri de date. DataNodes stochează blocurile de date, în timp ce NameNode stochează aceste blocuri de date.
Aplicații de date mari în cultura pop
12. Ce sunt nodurile Edge în Hadoop?
Nodurile Edge se referă la nodurile gateway care acționează ca o interfață între clusterul Hadoop și rețeaua externă. Aceste noduri rulează aplicații client și instrumente de gestionare a clusterelor și sunt folosite și ca zone intermediare. Capacitățile de stocare de clasă întreprindere sunt necesare pentru nodurile Edge, iar un singur nod de margine este de obicei suficient pentru mai multe clustere Hadoop.
13. Care sunt unele dintre instrumentele de gestionare a datelor utilizate cu Edge Nodes în Hadoop?
Această întrebare de interviu Big Data își propune să vă testeze gradul de conștientizare cu privire la diferite instrumente și cadre.
Oozie, Ambari, Pig și Flume sunt cele mai comune instrumente de gestionare a datelor care funcționează cu Edge Nodes în Hadoop.
14. Explicați metodele de bază ale unui Reductor.
Există trei metode de bază ale unui reductor. Sunt-
setup() – Acesta este folosit pentru a configura diferiți parametri, cum ar fi dimensiunea heap-ului, cache-ul distribuit și datele de intrare.
reduce() – Un parametru care este apelat o dată pe tastă cu sarcina de reducere în cauză
cleanup() – Șterge toate fișierele temporare și apelează numai la sfârșitul unei sarcini de reducere.
15. Vorbiți despre diferiții markeri de pietre funerare utilizate în scopuri de ștergere în HBase.
Această întrebare de interviu Big Data se scufundă în cunoștințele dvs. despre HBase și funcționarea acestuia.
Există trei markeri principali pentru pietre funerare utilizate pentru ștergere în HBase. Sunt-
Family Delete Marker – Pentru marcarea tuturor coloanelor unei familii de coloane.
Versiune Delete Marker – Pentru marcarea unei singure versiuni a unei singure coloane.
Column Delete Marker – Pentru marcarea tuturor versiunilor unei singure coloane.
Ingineri de date mari: mituri vs. realități
16. Cum pot Big Data să adauge valoare afacerilor?
Una dintre cele mai frecvente întrebări din interviul Big Data. În scenariul actual, Big Data este totul. Dacă aveți date, aveți la dispoziție cel mai puternic instrument. Big Data Analytics ajută companiile să transforme datele brute în perspective semnificative și acționabile care le pot modela strategiile de afaceri. Cea mai importantă contribuție a Big Data la afaceri sunt deciziile de afaceri bazate pe date. Big Data face posibil ca organizațiile să își bazeze deciziile pe informații și perspective tangibile.
În plus, Predictive Analytics permite companiilor să creeze recomandări personalizate și strategii de marketing pentru diferite persoane de cumpărător. Împreună, instrumentele și tehnologiile Big Data ajută la creșterea veniturilor, la eficientizarea operațiunilor de afaceri, la creșterea productivității și la creșterea satisfacției clienților. De fapt, oricine nu folosește Big Data astăzi pierde un ocean de oportunități.
17. Cum implementați o soluție Big Data?
Puteți implementa o soluție Big Data în trei pași:
- Ingestie de date – Acesta este primul pas în implementarea unei soluții Big Data. Începeți prin a colecta date din mai multe surse, fie că este vorba de platforme de rețele sociale, fișiere jurnal, documente de afaceri, orice este relevant pentru afacerea dvs. Datele pot fi extrase fie prin streaming în timp real, fie prin loturi.
- Stocarea datelor – Odată extrase datele, trebuie să stocați datele într-o bază de date. Poate fi HDFS sau HBase. În timp ce stocarea HDFS este perfectă pentru acces secvenţial, HBase este ideală pentru acces aleatoriu de citire/scriere.
- Procesarea datelor – Ultimul pas în implementarea soluției este procesarea datelor. De obicei, procesarea datelor se face prin cadre precum Hadoop, Spark, MapReduce, Flink și Pig, pentru a numi câteva.
18. Prin ce diferă NFS de HDFS?
Network File System (NFS) este unul dintre cele mai vechi sisteme de stocare a fișierelor distribuite, în timp ce Hadoop Distributed File System (HDFS) a ajuns în centrul atenției abia recent după creșterea Big Data.
Tabelul de mai jos evidențiază unele dintre cele mai notabile diferențe dintre NFS și HDFS:
NFS | HDFS |
Poate stoca și procesa volume mici de date. | Este conceput în mod explicit pentru a stoca și procesa Big Data. |
Datele sunt stocate în hardware dedicat. | Datele sunt împărțite în blocuri de date care sunt distribuite pe unitățile locale ale hardware-ului. |
În cazul unei defecțiuni a sistemului, nu puteți accesa datele. | Datele pot fi accesate chiar și în cazul unei defecțiuni a sistemului. |
Deoarece NFS rulează pe o singură mașină, nu există nicio șansă pentru redundanța datelor. | HDFS rulează pe un cluster de mașini și, prin urmare, protocolul de replicare poate duce la date redundante. |
19. Listați diferitele permisiuni ale fișierelor din HDFS pentru fișiere sau niveluri de director.
Una dintre întrebările frecvente ale interviului Big Data. Sistemul de fișiere distribuit Hadoop (HDFS) are permisiuni specifice pentru fișiere și directoare. Există trei niveluri de utilizator în HDFS - Proprietar, Grup și Alții. Pentru fiecare dintre nivelurile de utilizator, există trei permisiuni disponibile:
- citeste (r)
- scrie (w)
- executa (x).
Aceste trei permisiuni funcționează unic pentru fișiere și directoare.
Pentru fișiere -
- Permisiunea r este pentru citirea unui fișier
- Permisiunea w este pentru scrierea unui fișier.
Deși există o permisiune de execuție (x), nu puteți executa fișiere HDFS.
Pentru directoare -
- Permisiunea r listează conținutul unui anumit director.
- Permisiunea w creează sau șterge un director.
- Permisiunea X este pentru accesarea unui director copil.
20. Detaliați procesele care suprascriu factorii de replicare în HDFS.

În HDFS, există două moduri de a suprascrie factorii de replicare – pe bază de fișier și pe bază de director.
Pe bază de fișier
În această metodă, factorul de replicare se modifică în funcție de fișierul folosind Hadoop FS shell. Pentru aceasta este folosită următoarea comandă:
$hadoop fs – setrep –w2/my/test_file
Aici, test_file se referă la numele fișierului al cărui factor de replicare va fi setat la 2.
Pe baza de director
Această metodă modifică factorul de replicare în funcție de director, ca atare, factorul de replicare pentru toate fișierele dintr-un anume director, se modifică. Pentru aceasta este folosită următoarea comandă:
$hadoop fs –setrep –w5/my/test_dir
Aici, test_dir se referă la numele directorului pentru care factorul de replicare și toate fișierele conținute vor fi setate la 5.
21. Numiți cele trei moduri în care puteți rula Hadoop.
Una dintre cele mai frecvente întrebări în orice interviu de date mari. Cele trei moduri sunt:
- Modul de sine stătător – Acesta este modul implicit al Hadoop care utilizează sistemul de fișiere local atât pentru operațiunile de intrare, cât și pentru operațiunile de ieșire. Scopul principal al modului independent este depanarea. Nu acceptă HDFS și, de asemenea, nu are configurația personalizată necesară pentru fișierele mapred-site.xml, core-site.xml și hdfs-site.xml.
- Modul pseudo-distribuit – Cunoscut și ca cluster cu un singur nod, modul pseudo-distribuit include atât NameNode, cât și DataNode în cadrul aceleiași mașini. În acest mod, toți demonii Hadoop vor rula pe un singur nod și, prin urmare, nodurile Master și Slave sunt aceleași.
- Modul complet distribuit – Acest mod este cunoscut sub numele de cluster cu mai multe noduri, în care mai multe noduri funcționează simultan pentru a executa joburi Hadoop . Aici, toți demonii Hadoop rulează pe noduri diferite. Deci, nodurile Master și Slave rulează separat.
22. Explicați „Suprafitting”.
Supraajustarea se referă la o eroare de modelare care apare atunci când o funcție este strânsă (influențată) de un set limitat de puncte de date. Supraadaptarea are ca rezultat un model prea complex care face și mai dificilă explicarea particularităților sau idiosincraziilor din datele respective. Deoarece afectează negativ capacitatea de generalizare a modelului, devine dificil să se determine coeficientul predictiv al modelelor supraadaptate. Aceste modele nu reușesc să funcționeze atunci când sunt aplicate la date externe (date care nu fac parte din datele eșantionului) sau la seturi de date noi.
Supraadaptarea este una dintre cele mai frecvente probleme în Machine Learning. Un model este considerat a fi supraadaptat atunci când are performanțe mai bune pe setul de antrenament, dar eșuează lamentabil pe setul de testare. Cu toate acestea, există multe metode pentru a preveni problema supraajustării, cum ar fi validarea încrucișată, tăierea, oprirea timpurie, regularizarea și asamblarea.
23. Ce este Selectarea caracteristicilor?
Selectarea caracteristicilor se referă la procesul de extragere numai a caracteristicilor necesare dintr-un anumit set de date. Când datele sunt extrase din surse disparate, nu toate datele sunt utile în orice moment – nevoile diferite ale afacerii necesită informații diferite despre date. Aici intervine selecția caracteristicilor pentru a identifica și selecta doar acele caracteristici care sunt relevante pentru o anumită cerință de afaceri sau etapă de prelucrare a datelor.
Scopul principal al selecției caracteristicilor este de a simplifica modelele ML pentru a ușura analiza și interpretarea acestora. Selectarea caracteristicilor îmbunătățește abilitățile de generalizare ale unui model și elimină problemele de dimensionalitate, prevenind astfel posibilitățile de supraadaptare. Astfel, selecția caracteristicilor oferă o mai bună înțelegere a datelor studiate, îmbunătățește performanța de predicție a modelului și reduce semnificativ timpul de calcul.
Selectarea caracteristicilor se poate face prin trei tehnici:
- Metoda filtrelor
În această metodă, caracteristicile selectate nu depind de clasificatorii desemnați. O tehnică de clasificare a variabilelor este utilizată pentru a selecta variabilele în scopul ordonării. În timpul procesului de clasificare, tehnica de clasificare a variabilelor ia în considerare importanța și utilitatea unei caracteristici. Testul Chi-Pătrat, Pragul de variație și Câștigul de informații sunt câteva exemple ale metodei filtrelor.
- Metoda învelișurilor
În această metodă, algoritmul utilizat pentru selecția subsetului de caracteristici există ca un „înveliș” în jurul algoritmului de inducție. Algoritmul de inducție funcționează ca o „Cutie Neagră” care produce un clasificator care va fi folosit în continuare în clasificarea caracteristicilor. Dezavantajul sau limitarea majoră a metodei wrapper-urilor este că pentru a obține subsetul de caracteristici, trebuie să efectuați o muncă grea de calcul. Algoritmii genetici, selecția secvențială a caracteristicilor și eliminarea caracteristicilor recursive sunt exemple de metoda wrappers.
- Metoda încorporată
Metoda încorporată combină tot ce este mai bun din ambele lumi – include cele mai bune caracteristici ale metodelor de filtre și învelișuri. În această metodă, selecția variabilelor se face în timpul procesului de antrenament, permițându-vă astfel să identificați caracteristicile care sunt cele mai precise pentru un anumit model. Tehnica de regularizare L1 și Regresia Ridge sunt două exemple populare ale metodei încorporate.
24. Definiți „Valori abere”.
Un outlier se referă la un punct de date sau o observație care se află la o distanță anormală de alte valori dintr-un eșantion aleatoriu. Cu alte cuvinte, valorile aberante sunt valorile care sunt departe de grup; nu aparțin niciunui cluster sau grup specific din setul de date. Prezența valorilor aberante afectează de obicei comportamentul modelului – acestea pot induce în eroare procesul de antrenament al algoritmilor ML. Unele dintre efectele negative ale valorii aberante includ timp de antrenament mai lung, modele inexacte și rezultate slabe.
Cu toate acestea, valorile aberante pot conține uneori informații valoroase. Acesta este motivul pentru care acestea trebuie investigate amănunțit și tratate în consecință.
25. Numiți câteva tehnici de detectare a valorii aberante.
Din nou, una dintre cele mai importante întrebări de interviu de date mari. Iată șase metode de detectare a valorii aberante:
- Analiza valorii extreme – Această metodă determină cozile statistice ale distribuției datelor. Metodele statistice precum „scorurile z” pe date univariate sunt un exemplu perfect de analiză a valorilor extreme.
- Modele probabilistice și statistice – Această metodă determină „instanțele improbabile” dintr-un „model probabilistic” de date. Un bun exemplu este optimizarea modelelor de amestec gaussiene folosind „maximizarea așteptărilor”.
- Modele liniare – Această metodă modelează datele în dimensiuni mai mici. Modele bazate pe proximitate – În această abordare, instanțele de date care sunt izolate din grupul de date sunt determinate de cluster, densitate sau de analiza celui mai apropiat vecin.
- Modele teoretice informaționale – Această abordare urmărește să detecteze valori aberante ca instanțele de date proaste care cresc complexitatea setului de date.
- High-Dimensional Outlier Detection – Această metodă identifică subspațiile pentru valori aberante în funcție de măsurarea distanței în dimensiuni mai mari.
26. Explicați conștientizarea rack-ului în Hadoop.
Rack Awareness este una dintre întrebările populare ale interviurilor de date mari. Conștientizarea Rach este un algoritm care identifică și selectează DataNodes mai aproape de NameNode pe baza informațiilor lor de rack. Se aplică la NameNode pentru a determina cum vor fi plasate blocurile de date și replicile acestora. În timpul procesului de instalare, presupunerea implicită este că toate nodurile aparțin aceluiași rack.
Conștientizarea rackului ajută la:
- Îmbunătățiți fiabilitatea și accesibilitatea datelor.
- Îmbunătățiți performanța clusterului.
- Îmbunătățiți lățimea de bandă a rețelei.
- Păstrați fluxul vrac în rack cât și atunci când este posibil.
- Preveniți pierderea datelor în cazul unei defecțiuni complete a rack-ului.
27. Puteți recupera un NameNode când este oprit? Dacă da, cum?
Da, este posibil să recuperați un NameNode atunci când este oprit. Iată cum o poți face:
- Utilizați FsImage (replica metadatelor sistemului de fișiere) pentru a lansa un nou NameNode.
- Configurați DataNodes împreună cu clienții, astfel încât aceștia să poată recunoaște și să se refere la NameNode nou început.
- Când NameNode nou creat completează încărcarea ultimului punct de control al procesului de încărcare FsImage (care a primit acum suficiente rapoarte de blocare de la DataNodes), acesta va fi gata să înceapă să servească clientul.
Cu toate acestea, procesul de recuperare a unui NameNode este fezabil numai pentru clustere mai mici. Pentru clusterele mari Hadoop, procesul de recuperare consumă, de obicei, o perioadă substanțială de timp, ceea ce îl face o sarcină destul de dificilă.
28. Denumiți parametrii de configurare ai unui framework MapReduce.
Parametrii de configurare din cadrul MapReduce includ:
- Formatul de intrare al datelor.
- Formatul de ieșire al datelor.
- Locația de intrare a joburilor în sistemul de fișiere distribuit.
- Locația de ieșire a joburilor în sistemul de fișiere distribuit.
- Clasa care conține funcția map
- Clasa care conține funcția reduce
- Fișierul JAR care conține clasele mapper, reductor și driver.
29. Ce este un cache distribuit? Care sunt beneficiile sale?
Orice ghid de întrebări și răspunsuri pentru interviul Big Data nu se va completa fără această întrebare. Cache-ul distribuit în Hadoop este un serviciu oferit de cadrul MapReduce utilizat pentru stocarea în cache a fișierelor. Dacă un fișier este stocat în cache pentru o anumită sarcină, Hadoop îl pune la dispoziție pe noduri de date individuale atât în memorie, cât și în sistem, în care sarcinile de hartă și de reducere sunt executate simultan. Acest lucru vă permite să accesați și să citiți rapid fișierele stocate în cache pentru a popula orice colecție (cum ar fi matrice, hărți hash, etc.) într-un cod.
Cache-ul distribuit oferă următoarele beneficii:
- Distribuie fișiere text/date simple, numai pentru citire și alte tipuri complexe, cum ar fi borcane, arhive etc.
- Acesta urmărește marcajele de timp ale modificării fișierelor cache, care evidențiază fișierele care nu ar trebui modificate până când un job este executat cu succes.
30. Ce este un SequenceFile în Hadoop?
În Hadoop, un SequenceFile este un fișier plat care conține perechi binare cheie-valoare. Este folosit cel mai frecvent în formatele MapReduce I/O. Ieșirile hărții sunt stocate intern ca un SequenceFile care furnizează clasele de cititor, scriitor și sortator.
Există trei formate SequenceFile:
- Înregistrări cheie-valoare necomprimate
- Înregistrați înregistrările cheie-valoare comprimate (numai „valorile” sunt comprimate).
- Blocați înregistrările cheie-valoare comprimate (aici, atât cheile, cât și valorile sunt colectate în „blocuri” separat și apoi comprimate).
31. Explicați rolul unui JobTracker.
Una dintre întrebările frecvente ale interviului Big Data. Funcția principală a JobTracker este gestionarea resurselor, ceea ce înseamnă în esență gestionarea TaskTrackers. În afară de aceasta, JobTracker urmărește și disponibilitatea resurselor și se ocupă de gestionarea ciclului de viață al sarcinilor (urmăriți progresul sarcinilor și toleranța lor la erori).
Câteva caracteristici esențiale ale JobTracker sunt:
- Este un proces care rulează pe un nod separat (nu pe un DataNode).
- Acesta comunică cu NameNode pentru a identifica locația datelor.
- Acesta urmărește execuția sarcinilor de lucru MapReduce.
- Acesta alocă noduri TaskTracker pe baza sloturilor disponibile.
- Monitorizează fiecare TaskTracker și trimite clientului raportul general de lucru.
- Găsește cele mai bune noduri TaskTracker pentru a executa sarcini specifice pe anumite noduri.
32. Denumiți formatele de intrare comune în Hadoop.
Hadoop are trei formate de intrare comune:
- Format de introducere text – Acesta este formatul de intrare implicit în Hadoop.
- Sequence File Input Format – Acest format de intrare este folosit pentru a citi fișiere într-o secvență.
- Format de intrare cheie-valoare – Acest format de introducere este folosit pentru fișierele text simplu (fișierele împărțite în linii).
33. Care este nevoie de Data Locality în Hadoop?
Una dintre întrebările importante ale interviului Big Data. În HDFS, seturile de date sunt stocate ca blocuri în DataNodes din clusterul Hadoop. Când se execută un job MapReduce, Mapper-ul individual procesează blocurile de date (Input Splits). Dacă datele nu sunt prezente în același nod în care Mapper-ul execută jobul, datele trebuie copiate din DataNode unde se află prin rețea în Mapper DataNode.
Când un job MapReduce are peste o sută de cartografi și fiecare DataNode Mapper încearcă să copieze simultan datele dintr-un alt DataNode din cluster, va duce la congestionarea rețelei, având astfel un impact negativ asupra performanței generale a sistemului. Aici intră în scenariu Data Locality. În loc să mute o bucată mare de date la calcul, Data Locality mută calculul de date aproape de locul unde se află datele reale pe DataNode. Acest lucru ajută la îmbunătățirea performanței generale a sistemului, fără a provoca întârzieri inutile.
34. Care sunt pașii pentru a obține securitatea în Hadoop?
În Hadoop, Kerberos – un protocol de autentificare a rețelei – este utilizat pentru a obține securitatea. Kerberos este conceput pentru a oferi autentificare robustă pentru aplicațiile client/server prin criptografia cu cheie secretă.
Când utilizați Kerberos pentru a accesa un serviciu, trebuie să parcurgeți trei pași, fiecare dintre acestea implicând un schimb de mesaje cu un server. Pașii sunt următorii:
- Autentificare – Acesta este primul pas în care clientul este autentificat prin serverul de autentificare, după care un TGT (Ticket Granting Ticket) marcat de timp este dat clientului.
- Autorizare – În a doua etapă, clientul folosește TGT pentru a solicita un bilet de serviciu de la TGS (Ticket Granting Server).
- Solicitare de servicii – În ultimul pas, clientul folosește biletul de serviciu pentru a se autentifica pe server.
35. Cum poți gestiona valorile lipsă în Big Data?
Întrebarea finală din ghidul nostru de întrebări și răspunsuri pentru interviul de date mari. Valorile lipsă se referă la valorile care nu sunt prezente într-o coloană. Apare atunci când nu există o valoare a datelor pentru o variabilă într-o observație. Dacă valorile lipsă nu sunt gestionate corespunzător, este obligat să conducă la date eronate care, la rândul lor, vor genera rezultate incorecte. Astfel, este foarte recomandat să tratați corect valorile lipsă înainte de a procesa seturile de date. De obicei, dacă numărul de valori lipsă este mic, datele sunt eliminate, dar dacă există o mare parte de valori lipsă, imputarea datelor este modalitatea de acțiune preferată.
În Statistică, există diferite moduri de a estima valorile lipsă. Acestea includ regresia, imputarea datelor multiple, ștergerea listwise/pairwise, estimarea probabilității maxime și bootstrap Bayesian aproximativ.
Concluzie
Sperăm că ghidul nostru de întrebări și răspunsuri pentru Big Data este de ajutor. Vom actualiza ghidul în mod regulat pentru a vă ține la curent.
Dacă sunteți interesat să aflați mai multe despre Big Data, consultați programul nostru PG Diploma în Dezvoltare Software Specializare în Big Data, care este conceput pentru profesioniști care lucrează și oferă peste 7 studii de caz și proiecte, acoperă 14 limbaje și instrumente de programare, practică practică. ateliere de lucru, peste 400 de ore de învățare riguroasă și asistență pentru plasarea unui loc de muncă cu firme de top.
Învață cursuri de dezvoltare software online de la cele mai bune universități din lume. Câștigați programe Executive PG, programe avansate de certificat sau programe de master pentru a vă accelera cariera.
