35 Domande e risposte per l'intervista sui Big Data da conoscere 2022: per neofiti ed esperti
Pubblicato: 2021-01-05Partecipare a un'intervista sui big data e chiedersi quali sono tutte le domande e le discussioni che affronterai? Prima di partecipare a un'intervista sui big data, è meglio avere un'idea del tipo di domande dell'intervista sui big data in modo da poter preparare mentalmente le risposte per loro.
Per aiutarti, ho creato la guida alle migliori domande e risposte per le interviste sui big data per comprendere la profondità e le reali intenzioni delle domande delle interviste sui big data.
Non crederai a come questo programma abbia cambiato la carriera degli studenti
Siamo nell'era dei Big Data e dell'analisi. Con i dati che alimentano tutto ciò che ci circonda, c'è stato un improvviso aumento della domanda di professionisti dei dati qualificati. Le organizzazioni sono sempre alla ricerca di persone qualificate che possano aiutarle a dare un senso ai loro cumuli di dati.
La parola chiave qui è "qualificato" e quindi le interviste sui Big Data non sono davvero un gioco da ragazzi. Ci sono alcune domande essenziali dell'intervista sui Big Data che devi conoscere prima di parteciparvi. Questi ti aiuteranno a trovare la tua strada.
Le domande sono state disposte in un ordine che ti aiuterà a riprendere le basi e raggiungere un livello un po' avanzato.
Domande e risposte per interviste sui Big Data
1. Definisci i Big Data e spiega i V dei Big Data.

Questa è una delle domande più introduttive ma importanti dell'intervista sui Big Data. La risposta a questo è abbastanza semplice:
I big data possono essere definiti come una raccolta di set di dati complessi non strutturati o semi-strutturati che hanno il potenziale per fornire informazioni utili.
Le quattro V dei Big Data sono –
Volume: parla della quantità di dati
Varietà: parla dei vari formati di dati
Velocity: parla della velocità sempre crescente con cui i dati crescono
Veracità: parla del grado di accuratezza dei dati disponibili
Tutorial sui Big Data per principianti: tutto ciò che devi sapere
2. In che modo Hadoop è correlato ai Big Data?
Quando si parla di Big Data si parla di Hadoop. Quindi, questa è un'altra domanda dell'intervista sui Big Data che dovrai sicuramente affrontare in un'intervista.
Hadoop è un framework open source per l'archiviazione, l'elaborazione e l'analisi di set di dati complessi non strutturati per ricavare informazioni e intelligence.
3. Definire HDFS e YARN e parlare dei rispettivi componenti.
Ora che siamo nella zona di Hadoop, la prossima domanda dell'intervista sui Big Data che potresti dover affrontare ruoterà attorno allo stesso.
L'HDFS è l'unità di archiviazione predefinita di Hadoop ed è responsabile della memorizzazione di diversi tipi di dati in un ambiente distribuito.
HDFS ha i seguenti due componenti:
NameNode – Questo è il nodo master che contiene le informazioni sui metadati per tutti i blocchi di dati nell'HDFS.
DataNode – Questi sono i nodi che fungono da nodi slave e sono responsabili della memorizzazione dei dati.
YARN, abbreviazione di Yet Another Resource Negotiator , è responsabile della gestione delle risorse e della fornitura di un ambiente di esecuzione per i suddetti processi.
I due componenti principali di YARN sono:
ResourceManager: responsabile dell'allocazione delle risorse ai rispettivi NodeManager in base alle esigenze.
NodeManager – Esegue attività su ogni DataNode.
7 progetti di Big Data interessanti a cui prestare attenzione
4. Cosa intendi per hardware di base?
Questa è l'ennesima domanda dell'intervista sui Big Data che è più probabile che incontrerai in qualsiasi intervista a cui ti siedi.
Commodity Hardware si riferisce alle risorse hardware minime necessarie per eseguire il framework Apache Hadoop. Qualsiasi hardware che supporti i requisiti minimi di Hadoop è noto come "Commodity Hardware".
5. Definire e descrivere il termine FSCK.
FSCK sta per Filesystem Check. È un comando utilizzato per eseguire un rapporto di riepilogo Hadoop che descrive lo stato di HDFS. Controlla solo gli errori e non li corregge. Questo comando può essere eseguito sull'intero sistema o su un sottoinsieme di file.
6. Qual è lo scopo del comando JPS in Hadoop?
Il comando JPS viene utilizzato per testare il funzionamento di tutti i demoni Hadoop. Testa specificamente demoni come NameNode, DataNode, ResourceManager, NodeManager e altri.
(In qualsiasi intervista sui Big Data, è probabile che trovi una domanda su JPS e la sua importanza.)
Big Data: strumenti e tecnologie da conoscere
7. Assegna un nome ai diversi comandi per l'avvio e l'arresto di Hadoop Daemons.
Questa è una delle domande più importanti dell'intervista sui Big Data per aiutare l'intervistatore a valutare la tua conoscenza dei comandi.
Per avviare tutti i demoni:
./sbin/start-all.sh
Per spegnere tutti i demoni:
./sbin/stop-all.sh
8. Perché abbiamo bisogno di Hadoop per Big Data Analytics?
Queste domande del colloquio di Hadoop mettono alla prova la tua consapevolezza riguardo agli aspetti pratici di Big Data e Analytics.
Nella maggior parte dei casi, Hadoop aiuta nell'esplorazione e nell'analisi di set di dati di grandi dimensioni e non strutturati. Hadoop offre funzionalità di archiviazione, elaborazione e raccolta dati che aiutano nell'analisi.
9. Spiega le diverse caratteristiche di Hadoop.
Elencato in molte domande e risposte per interviste sui Big Data, la migliore risposta a questo è:
Open-Source – Hadoop è una piattaforma open source. Consente di riscrivere o modificare il codice in base alle esigenze dell'utente e di analisi.
Scalabilità: Hadoop supporta l'aggiunta di risorse hardware ai nuovi nodi.
Recupero dati – Hadoop segue la replica che consente il ripristino dei dati in caso di guasto.
Località dati – Ciò significa che Hadoop sposta il calcolo sui dati e non viceversa. In questo modo, l'intero processo accelera.
10. Definire i numeri di porta per NameNode, Task Tracker e Job Tracker.
NameNode – Porta 50070
Task Tracker – Porta 50060
Job Tracker – Porta 50030
11. Cosa intendi per indicizzazione in HDFS?
HDFS indicizza i blocchi di dati in base alle loro dimensioni. La fine di un blocco di dati punta all'indirizzo in cui viene archiviato il blocco successivo di blocchi di dati. I DataNode memorizzano i blocchi di dati mentre NameNode memorizza questi blocchi di dati.
Applicazioni Big Data nella cultura pop
12. Cosa sono i nodi Edge in Hadoop?
I nodi perimetrali si riferiscono ai nodi gateway che fungono da interfaccia tra il cluster Hadoop e la rete esterna. Questi nodi eseguono applicazioni client e strumenti di gestione dei cluster e vengono utilizzati anche come aree di staging. Per i nodi edge sono necessarie funzionalità di storage di classe enterprise e un singolo nodo edge in genere è sufficiente per più cluster Hadoop.
13. Quali sono alcuni degli strumenti di gestione dei dati utilizzati con Edge Nodes in Hadoop?
Questa domanda del colloquio sui Big Data mira a testare la tua consapevolezza riguardo a vari strumenti e framework.
Oozie, Ambari, Pig e Flume sono gli strumenti di gestione dei dati più comuni che funzionano con Edge Nodes in Hadoop.
14. Spiegare i metodi fondamentali di un riduttore.
Ci sono tre metodi principali di un riduttore. Loro sono-
setup() – Viene utilizzato per configurare diversi parametri come la dimensione dell'heap, la cache distribuita e i dati di input.
reduce() – Un parametro che viene chiamato una volta per chiave con l'attività di riduzione in questione
cleanup() – Cancella tutti i file temporanei e li chiama solo alla fine di un'attività di riduzione.
15. Parla dei diversi marker di lapide utilizzati per l'eliminazione in HBase.
Questa domanda di intervista sui Big Data approfondisce la tua conoscenza di HBase e del suo funzionamento.
Ci sono tre principali indicatori di lapide utilizzati per l'eliminazione in HBase. Loro sono-
Indicatore di eliminazione famiglia: per contrassegnare tutte le colonne di una famiglia di colonne.
Indicatore di eliminazione versione: per contrassegnare una singola versione di una singola colonna.
Indicatore di eliminazione colonna: per contrassegnare tutte le versioni di una singola colonna.
Big Data Engineers: miti contro realtà
16. In che modo i Big Data possono aggiungere valore alle aziende?
Una delle domande più comuni dell'intervista sui big data. Nello scenario attuale, i Big Data sono tutto. Se hai dati, hai lo strumento più potente a tua disposizione. Big Data Analytics aiuta le aziende a trasformare i dati grezzi in informazioni significative e fruibili che possono modellare le loro strategie aziendali. Il contributo più importante dei Big Data al business sono le decisioni aziendali basate sui dati. I Big Data consentono alle organizzazioni di basare le proprie decisioni su informazioni e approfondimenti tangibili.
Inoltre, Predictive Analytics consente alle aziende di creare raccomandazioni personalizzate e strategie di marketing per diversi acquirenti. Insieme, gli strumenti e le tecnologie per i Big Data aiutano ad aumentare i ricavi, a semplificare le operazioni aziendali, ad aumentare la produttività e a migliorare la soddisfazione dei clienti. In effetti, chiunque non sfrutti i Big Data oggi sta perdendo un oceano di opportunità.
17. Come si implementa una soluzione Big Data?
Puoi distribuire una soluzione Big Data in tre passaggi:
- Ingestione di dati : questo è il primo passaggio nell'implementazione di una soluzione Big Data. Inizi raccogliendo dati da più fonti, che si tratti di piattaforme di social media, file di registro, documenti aziendali, qualsiasi cosa rilevante per la tua attività. I dati possono essere estratti tramite streaming in tempo reale o in processi batch.
- Archiviazione dei dati : una volta estratti i dati, è necessario archiviarli in un database. Può essere HDFS o HBase. Mentre lo storage HDFS è perfetto per l'accesso sequenziale, HBase è ideale per l'accesso in lettura/scrittura casuale.
- Elaborazione dei dati : l'ultimo passaggio nell'implementazione della soluzione è l'elaborazione dei dati. Di solito, l'elaborazione dei dati viene eseguita tramite framework come Hadoop, Spark, MapReduce, Flink e Pig, solo per citarne alcuni.
18. In che modo NFS è diverso da HDFS?
Il Network File System (NFS) è uno dei più antichi sistemi di archiviazione di file distribuiti, mentre Hadoop Distributed File System (HDFS) è salito alla ribalta solo di recente dopo l'ascesa dei Big Data.
La tabella seguente evidenzia alcune delle differenze più notevoli tra NFS e HDFS:
NFS | HDFS |
Può sia archiviare che elaborare piccoli volumi di dati. | È espressamente progettato per archiviare ed elaborare Big Data. |
I dati sono archiviati in hardware dedicato. | I dati sono suddivisi in blocchi di dati che vengono distribuiti sui drive locali dell'hardware. |
In caso di guasto del sistema, non è possibile accedere ai dati. | È possibile accedere ai dati anche in caso di guasto del sistema. |
Poiché NFS viene eseguito su una singola macchina, non c'è alcuna possibilità di ridondanza dei dati. | HDFS viene eseguito su un cluster di macchine e, di conseguenza, il protocollo di replica può portare a dati ridondanti. |
19. Elenca i diversi permessi dei file in HDFS per i file oi livelli di directory.
Una delle domande più comuni dell'intervista sui big data. Il file system distribuito Hadoop (HDFS) dispone di autorizzazioni specifiche per file e directory. Ci sono tre livelli utente in HDFS: Proprietario, Gruppo e Altri. Per ciascuno dei livelli utente, sono disponibili tre autorizzazioni:
- leggi (r)
- scrivi (w)
- eseguire(x).
Queste tre autorizzazioni funzionano in modo univoco per file e directory.
Per i file –
- L'autorizzazione r è per leggere un file
- L'autorizzazione w serve per scrivere un file.
Sebbene sia disponibile un'autorizzazione di esecuzione(x), non è possibile eseguire file HDFS.
Per le directory –
- L'autorizzazione r elenca il contenuto di una directory specifica.
- L'autorizzazione w crea o elimina una directory.
- L'autorizzazione X serve per accedere a una directory figlio.
20. Elaborare i processi che sovrascrivono i fattori di replica in HDFS.
In HDFS, ci sono due modi per sovrascrivere i fattori di replica: su file e su directory.

In base all'archivio
In questo metodo, il fattore di replica cambia in base al file utilizzando la shell Hadoop FS. Per questo viene utilizzato il seguente comando:
$hadoop fs – setrep –w2/my/file_test
Qui, file_test si riferisce al nome del file il cui fattore di replica sarà impostato su 2.
In base alla directory
Questo metodo modifica il fattore di replica in base alla directory, pertanto il fattore di replica per tutti i file in una directory particolare cambia. Per questo viene utilizzato il seguente comando:
$hadoop fs –setrep –w5/my/test_dir
Qui test_dir si riferisce al nome della directory per la quale il fattore di replica e tutti i file contenuti all'interno verranno impostati su 5.
21. Assegna un nome alle tre modalità in cui puoi eseguire Hadoop.
Una delle domande più frequenti in qualsiasi intervista sui big data. Le tre modalità sono:
- Modalità autonoma : questa è la modalità predefinita di Hadoop che utilizza il file system locale sia per le operazioni di input che per quelle di output. Lo scopo principale della modalità standalone è il debug. Non supporta HDFS e manca anche la configurazione personalizzata richiesta per i file mapred-site.xml, core-site.xml e hdfs-site.xml.
- Modalità pseudodistribuita: nota anche come cluster a nodo singolo, la modalità pseudodistribuita include NameNode e DataNode all'interno della stessa macchina. In questa modalità, tutti i demoni Hadoop verranno eseguiti su un singolo nodo e, quindi, i nodi Master e Slave sono gli stessi.
- Modalità completamente distribuita : questa modalità è nota come cluster multinodo in cui più nodi funzionano contemporaneamente per eseguire lavori Hadoop . Qui, tutti i demoni Hadoop girano su nodi diversi. Quindi, i nodi Master e Slave funzionano separatamente.
22. Spiega "Sovradattamento".
L'overfitting si riferisce a un errore di modellazione che si verifica quando una funzione è strettamente adatta (influenzata) da un insieme limitato di punti dati. L'overfitting si traduce in un modello eccessivamente complesso che rende ulteriormente difficile spiegare le peculiarità o le idiosincrasie dei dati in questione. Poiché influisce negativamente sulla capacità di generalizzazione del modello, diventa difficile determinare il quoziente predittivo di modelli overfitted. Questi modelli non funzionano se applicati a dati esterni (dati che non fanno parte dei dati di esempio) o nuovi set di dati.
L'overfitting è uno dei problemi più comuni in Machine Learning. Un modello è considerato sovradimensionato quando si comporta meglio sul set di allenamento ma fallisce miseramente sul set di prova. Tuttavia, esistono molti metodi per prevenire il problema dell'overfitting, come la convalida incrociata, la potatura, l'arresto anticipato, la regolarizzazione e l'assemblaggio.
23. Che cos'è la selezione delle funzioni?
La selezione delle funzionalità si riferisce al processo di estrazione solo delle funzionalità richieste da un set di dati specifico. Quando i dati vengono estratti da fonti disparate, non tutti i dati sono utili in ogni momento: esigenze aziendali diverse richiedono informazioni dettagliate sui dati diverse. È qui che entra in gioco la selezione delle funzionalità per identificare e selezionare solo le funzionalità che sono rilevanti per un particolare requisito aziendale o fase di elaborazione dei dati.
L'obiettivo principale della selezione delle funzionalità è semplificare i modelli ML per semplificarne l'analisi e l'interpretazione. La selezione delle caratteristiche migliora le capacità di generalizzazione di un modello ed elimina i problemi di dimensionalità, prevenendo così le possibilità di overfitting. Pertanto, la selezione delle caratteristiche fornisce una migliore comprensione dei dati in studio, migliora le prestazioni di previsione del modello e riduce significativamente il tempo di calcolo.
La selezione delle funzioni può essere effettuata tramite tre tecniche:
- Metodo dei filtri
In questo metodo, le caratteristiche selezionate non dipendono dai classificatori designati. Una tecnica di classificazione variabile viene utilizzata per selezionare le variabili a scopo di ordinazione. Durante il processo di classificazione, la tecnica del ranking variabile prende in considerazione l'importanza e l'utilità di una caratteristica. Il test del chi quadrato, la soglia di varianza e il guadagno di informazioni sono alcuni esempi del metodo dei filtri.
- Metodo degli involucri
In questo metodo, l'algoritmo utilizzato per la selezione di sottoinsiemi di funzionalità esiste come un "wrapper" attorno all'algoritmo di induzione. L'algoritmo di induzione funziona come una "scatola nera" che produce un classificatore che verrà ulteriormente utilizzato nella classificazione delle caratteristiche. Il principale svantaggio o limite del metodo dei wrapper è che per ottenere il sottoinsieme di funzionalità è necessario eseguire un lavoro di calcolo pesante. Gli algoritmi genetici, la selezione sequenziale delle caratteristiche e l'eliminazione delle caratteristiche ricorsive sono esempi del metodo dei wrapper.
- Metodo incorporato
Il metodo incorporato combina il meglio di entrambi i mondi: include le migliori caratteristiche dei metodi filtri e wrapper. In questo metodo, la selezione delle variabili viene effettuata durante il processo di addestramento, consentendo in tal modo di identificare le caratteristiche più accurate per un determinato modello. La tecnica di regolarizzazione L1 e la regressione della cresta sono due esempi popolari del metodo incorporato.
24. Definisci "valori anomali".
Un valore anomalo si riferisce a un punto dati oa un'osservazione che si trova a una distanza anormale da altri valori in un campione casuale. In altre parole, i valori anomali sono i valori che sono molto lontani dal gruppo; non appartengono a nessun cluster o gruppo specifico nel set di dati. La presenza di valori anomali di solito influisce sul comportamento del modello: possono fuorviare il processo di addestramento degli algoritmi ML. Alcuni degli impatti negativi dei valori anomali includono tempi di formazione più lunghi, modelli imprecisi e scarsi risultati.
Tuttavia, a volte i valori anomali possono contenere informazioni preziose. Questo è il motivo per cui devono essere studiati a fondo e trattati di conseguenza.
25. Indica alcune tecniche di rilevamento anomale.
Ancora una volta, una delle domande più importanti dell'intervista sui big data. Ecco sei metodi di rilevamento dei valori anomali:
- Analisi del valore estremo : questo metodo determina le code statistiche della distribuzione dei dati. I metodi statistici come 'z-scores' su dati univariati sono un perfetto esempio di analisi di valori estremi.
- Modelli probabilistici e statistici : questo metodo determina le "istanze improbabili" da un "modello probabilistico" di dati. Un buon esempio è l'ottimizzazione dei modelli di miscele gaussiane utilizzando la "massimizzazione delle aspettative".
- Modelli lineari : questo metodo modella i dati in dimensioni inferiori. Modelli basati sulla prossimità: in questo approccio, le istanze di dati isolate dal gruppo di dati sono determinate da Cluster, Density o dall'analisi Nearest Neighbor.
- Modelli di teoria dell'informazione : questo approccio cerca di rilevare i valori anomali come le istanze di dati errate che aumentano la complessità del set di dati.
- Rilevamento di valori anomali ad alta dimensione: questo metodo identifica i sottospazi per i valori anomali in base alle misure di distanza nelle dimensioni superiori.
26. Spiega la consapevolezza del rack in Hadoop.
Rack Awareness è una delle domande più popolari dell'intervista sui big data. Rach awareness è un algoritmo che identifica e seleziona i DataNode più vicini al NameNode in base alle informazioni sui rack. Viene applicato al NameNode per determinare come verranno posizionati i blocchi di dati e le relative repliche. Durante il processo di installazione, il presupposto predefinito è che tutti i nodi appartengano allo stesso rack.
La consapevolezza del rack aiuta a:
- Migliora l'affidabilità e l'accessibilità dei dati.
- Migliora le prestazioni del cluster.
- Migliora la larghezza di banda della rete.
- Mantieni il flusso di massa nel rack come e quando possibile.
- Prevenire la perdita di dati in caso di guasto completo del rack.
27. Puoi recuperare un NameNode quando è inattivo? Se é cosi, come?
Sì, è possibile recuperare un NameNode quando è inattivo. Ecco come puoi farlo:
- Utilizzare FsImage (la replica dei metadati del file system) per avviare un nuovo NameNode.
- Configurare i DataNode insieme ai client in modo che possano riconoscere e fare riferimento al NameNode appena avviato.
- Quando il NameNode appena creato completa il caricamento dell'ultimo checkpoint del processo di caricamento di FsImage (che ora ha ricevuto abbastanza report di blocco dai DataNodes), sarà pronto per iniziare a servire il client.
Tuttavia, il processo di ripristino di un NameNode è fattibile solo per i cluster più piccoli. Per i cluster Hadoop di grandi dimensioni, il processo di ripristino di solito richiede una notevole quantità di tempo, rendendolo così un compito piuttosto impegnativo.
28. Denominare i parametri di configurazione di un framework MapReduce.
I parametri di configurazione nel framework MapReduce includono:
- Il formato di input dei dati.
- Il formato di output dei dati.
- La posizione di input dei lavori nel file system distribuito.
- Il percorso di output dei lavori nel file system distribuito.
- La classe contenente la funzione map
- La classe contenente la funzione di riduzione
- Il file JAR contenente le classi mapper, reducer e driver.
29. Che cos'è una cache distribuita? Quali sono i suoi vantaggi?
Qualsiasi guida alle domande e risposte per le interviste sui Big Data non sarà completa senza questa domanda. La cache distribuita in Hadoop è un servizio offerto dal framework MapReduce utilizzato per la memorizzazione nella cache dei file. Se un file è memorizzato nella cache per un lavoro specifico, Hadoop lo rende disponibile su singoli DataNode sia in memoria che nel sistema in cui le attività di mappa e riduzione vengono eseguite contemporaneamente. Ciò ti consente di accedere rapidamente e leggere i file memorizzati nella cache per popolare qualsiasi raccolta (come array, hashmap, ecc.) In un codice.
La cache distribuita offre i seguenti vantaggi:
- Distribuisce file di testo/dati semplici e di sola lettura e altri tipi complessi come jar, archivi, ecc.
- Tiene traccia dei timestamp di modifica dei file di cache che evidenziano i file che non devono essere modificati fino a quando un lavoro non viene eseguito correttamente.
30. Che cos'è un SequenceFile in Hadoop?
In Hadoop, un SequenceFile è un file flat che contiene coppie chiave-valore binarie. È più comunemente usato nei formati I/O di MapReduce. Gli output della mappa sono archiviati internamente come SequenceFile che fornisce le classi reader, writer e sorter.
Esistono tre formati SequenceFile:
- Record di valori-chiave non compressi
- Registra record di valori-chiave compressi (solo i "valori" vengono compressi).
- Blocca i record di valori-chiave compressi (qui, sia le chiavi che i valori vengono raccolti in "blocchi" separatamente e quindi compressi).
31. Spiega il ruolo di un JobTracker.
Una delle domande più comuni dell'intervista sui big data. La funzione principale di JobTracker è la gestione delle risorse, che essenzialmente significa gestire i TaskTracker. Oltre a questo, JobTracker tiene anche traccia della disponibilità delle risorse e gestisce la gestione del ciclo di vita delle attività (traccia lo stato di avanzamento delle attività e la loro tolleranza ai guasti).
Alcune caratteristiche cruciali di JobTracker sono:
- È un processo che viene eseguito su un nodo separato (non su un DataNode).
- Comunica con il NameNode per identificare la posizione dei dati.
- Tiene traccia dell'esecuzione dei carichi di lavoro MapReduce.
- Alloca i nodi TaskTracker in base agli slot disponibili.
- Monitora ogni TaskTracker e invia il rapporto di lavoro complessivo al cliente.
- Trova i migliori nodi TaskTracker per eseguire attività specifiche su nodi particolari.
32. Assegna un nome ai formati di input comuni in Hadoop.
Hadoop ha tre formati di input comuni:
- Formato di input del testo – Questo è il formato di input predefinito in Hadoop.
- Formato di input del file di sequenza: questo formato di input viene utilizzato per leggere i file in sequenza.
- Formato di input chiave-valore: questo formato di input viene utilizzato per file di testo normale (file suddivisi in righe).
33. Qual è la necessità di Data Locality in Hadoop?
Una delle domande importanti dell'intervista sui big data. In HDFS, i set di dati vengono archiviati come blocchi in DataNodes nel cluster Hadoop. Quando un lavoro MapReduce è in esecuzione, il singolo Mapper elabora i blocchi di dati (divisioni di input). Se i dati non sono presenti nello stesso nodo in cui il Mapper esegue il lavoro, i dati devono essere copiati dal DataNode in cui risiede sulla rete al Mapper DataNode.
Quando un processo MapReduce ha più di cento Mapper e ogni Mapper DataNode tenta di copiare simultaneamente i dati da un altro DataNode nel cluster, si verificherà una congestione della rete, con un impatto negativo sulle prestazioni complessive del sistema. È qui che Data Locality entra nello scenario. Invece di spostare una grossa porzione di dati nel calcolo, Data Locality sposta il calcolo dei dati vicino a dove risiedono i dati effettivi sul DataNode. Questo aiuta a migliorare le prestazioni complessive del sistema, senza causare inutili ritardi.
34. Quali sono i passaggi per ottenere la sicurezza in Hadoop?
In Hadoop, Kerberos, un protocollo di autenticazione di rete, viene utilizzato per ottenere la sicurezza. Kerberos è progettato per offrire un'autenticazione affidabile per applicazioni client/server tramite crittografia a chiave segreta.
Quando utilizzi Kerberos per accedere a un servizio, devi eseguire tre passaggi, ognuno dei quali prevede uno scambio di messaggi con un server. I passi sono come segue:
- Autenticazione : questo è il primo passaggio in cui il client viene autenticato tramite il server di autenticazione, dopodiché viene fornito al client un TGT (Ticket Granting Ticket) con data e ora.
- Autorizzazione – Nella seconda fase, il cliente utilizza il TGT per richiedere un ticket di servizio al TGS (Ticket Granting Server).
- Richiesta di servizio: nel passaggio finale, il client utilizza il ticket di servizio per autenticarsi sul server.
35. Come puoi gestire i valori mancanti nei Big Data?
Domanda finale nella nostra guida alle domande e risposte dell'intervista sui big data. I valori mancanti si riferiscono ai valori che non sono presenti in una colonna. Si verifica quando non esiste un valore di dati per una variabile in un'osservazione. Se i valori mancanti non vengono gestiti correttamente, è destinato a portare a dati errati che a loro volta genereranno risultati errati. Pertanto, si consiglia vivamente di trattare correttamente i valori mancanti prima di elaborare i set di dati. Di solito, se il numero di valori mancanti è piccolo, i dati vengono eliminati, ma se c'è una grande quantità di valori mancanti, l'imputazione dei dati è la linea d'azione preferita.
In Statistica, ci sono diversi modi per stimare i valori mancanti. Questi includono la regressione, l'imputazione di più dati, l'eliminazione listwise/pairwise, la stima della massima verosimiglianza e il bootstrap bayesiano approssimativo.
Conclusione
Ci auguriamo che la nostra guida Domande e risposte sui Big Data sia utile. Aggiorneremo regolarmente la guida per tenerti aggiornato.
Se sei interessato a saperne di più sui Big Data, dai un'occhiata al nostro PG Diploma in Software Development Specialization nel programma Big Data, progettato per professionisti che lavorano e fornisce oltre 7 casi di studio e progetti, copre 14 linguaggi e strumenti di programmazione, pratiche pratiche workshop, oltre 400 ore di apprendimento rigoroso e assistenza all'inserimento lavorativo con le migliori aziende.
Impara i corsi di sviluppo software online dalle migliori università del mondo. Guadagna programmi Executive PG, programmi di certificazione avanzati o programmi di master per accelerare la tua carriera.
