35 Bilmeniz Gereken Büyük Veri Mülakat Soruları ve Cevapları 2022: Yeni Başlayanlar ve Deneyimliler İçin
Yayınlanan: 2021-01-05Büyük bir veri görüşmesine katılmak ve içinden geçeceğiniz tüm soru ve tartışmaların neler olduğunu merak etmek? Büyük veri mülakatına katılmadan önce, cevapları zihinsel olarak hazırlayabilmeniz için büyük veri mülakat sorularının türü hakkında bir fikre sahip olmak daha iyidir.
Size yardımcı olmak için, büyük veri görüşme sorularının derinliğini ve gerçek amacını anlamak için en iyi büyük veri görüşme soruları ve yanıtları kılavuzunu oluşturdum.
Bu Programın Öğrencilerin Kariyerini Nasıl Değiştirdiğine inanamayacaksınız
Büyük Veri ve analitik çağındayız. Çevremizdeki her şeye güç veren verilerle birlikte, yetenekli veri uzmanlarına yönelik talepte ani bir artış oldu. Kuruluşlar her zaman, veri yığınlarını anlamlandırmalarına yardımcı olabilecek yetenekli bireyler arayışındadır.
Buradaki anahtar kelime 'yetenekli' ve bu nedenle Büyük Veri görüşmeleri gerçekten kolay değil. Birine katılmadan önce bilmeniz gereken bazı önemli Büyük Veri mülakat soruları vardır. Bunlar, yolunuzu bulmanıza yardımcı olacaktır.
Sorular, temel bilgilerden başlayıp biraz daha ileri bir düzeye ulaşmanıza yardımcı olacak bir düzende düzenlenmiştir.
Büyük Veri Mülakat Soruları ve Cevapları
1. Büyük Veriyi tanımlayın ve Büyük Verinin V'lerini açıklayın.

Bu, en giriş niteliğinde olmakla birlikte önemli Büyük Veri görüşme sorularından biridir. Bunun cevabı oldukça basittir:
Büyük Veri, eyleme geçirilebilir içgörüler sunma potansiyeline sahip, karmaşık, yapılandırılmamış veya yarı yapılandırılmış veri kümeleri topluluğu olarak tanımlanabilir.
Büyük Verinin dört V'si –
Hacim – Veri miktarı hakkında konuşur
Variety – Çeşitli veri formatları hakkında konuşur
Velocity – Verinin sürekli artan hızından bahseder
Veracity – Mevcut verilerin doğruluk derecesi hakkında konuşur
Yeni Başlayanlar için Büyük Veri Eğitimi: Bilmeniz Gereken Her Şey
2. Hadoop'un Büyük Veri ile ilişkisi nedir?
Büyük Veri hakkında konuştuğumuzda Hadoop hakkında konuşuyoruz. Bu, bir röportajda kesinlikle karşılaşacağınız başka bir Büyük Veri mülakat sorusudur.
Hadoop, içgörü ve zeka elde etmek için karmaşık yapılandırılmamış veri kümelerini depolamak, işlemek ve analiz etmek için açık kaynaklı bir çerçevedir.
3. HDFS ve YARN'ı tanımlayın ve ilgili bileşenleri hakkında konuşun.
Artık Hadoop bölgesinde olduğumuza göre, karşılaşabileceğiniz bir sonraki Büyük Veri mülakat sorusu aynı şekilde dönecektir.
HDFS, Hadoop'un varsayılan depolama birimidir ve dağıtılmış bir ortamda farklı veri türlerinin depolanmasından sorumludur.
HDFS aşağıdaki iki bileşene sahiptir:
NameNode – Bu, HDFS'deki tüm veri blokları için meta veri bilgilerine sahip ana düğümdür.
DataNode – Bunlar, bağımlı düğümler gibi davranan ve verileri depolamaktan sorumlu düğümlerdir.
Yet Another Resource Negotiator'ın kısaltması olan YARN, kaynakları yönetmekten ve söz konusu süreçler için bir yürütme ortamı sağlamaktan sorumludur.
YARN'ın iki ana bileşeni:
ResourceManager – İhtiyaçlara göre kaynakları ilgili NodeManager'lara tahsis etmekten sorumludur.
NodeManager – Görevleri her DataNode'da yürütür.
Dikkat Etmeniz Gereken 7 İlginç Büyük Veri Projesi
4. Ticari donanımdan kastınız nedir?
Bu, girdiğiniz herhangi bir röportajda büyük olasılıkla karşılaşacağınız başka bir Büyük Veri mülakat sorusudur.
Emtia Donanımı, Apache Hadoop çerçevesini çalıştırmak için gereken minimum donanım kaynaklarını ifade eder. Hadoop'un minimum gereksinimlerini destekleyen herhangi bir donanım, 'Emtia Donanımı' olarak bilinir.
5. FSCK terimini tanımlayın ve tanımlayın.
FSCK, Dosya Sistemi Kontrolü anlamına gelir. HDFS'nin durumunu açıklayan bir Hadoop özet raporu çalıştırmak için kullanılan bir komuttur. Yalnızca hataları kontrol eder ve düzeltmez. Bu komut, tüm sistemde veya bir dosya alt kümesinde yürütülebilir.
6. Hadoop'ta JPS komutunun amacı nedir?
JPS komutu, tüm Hadoop arka plan programlarının çalışmasını test etmek için kullanılır. Özellikle NameNode, DataNode, ResourceManager, NodeManager ve daha fazlası gibi cinleri test eder.
(Herhangi bir Büyük Veri röportajında, JPS ve önemi hakkında bir soru bulmanız olasıdır.)
Büyük Veri: Bilmeniz Gereken Araçlar ve Teknolojiler
7. Hadoop Daemons'ı başlatmak ve kapatmak için farklı komutları adlandırın.
Bu, görüşmecinin komutlar hakkındaki bilginizi ölçmesine yardımcı olacak en önemli Büyük Veri görüşme sorularından biridir.
Tüm cinleri başlatmak için:
./sbin/start-all.sh
Tüm cinleri kapatmak için:
./sbin/stop-all.sh
8. Büyük Veri Analitiği için neden Hadoop'a ihtiyacımız var?
Bu Hadoop mülakat soruları, Büyük Veri ve Analitiğin pratik yönleriyle ilgili farkındalığınızı test eder.
Çoğu durumda Hadoop, büyük ve yapılandırılmamış veri kümelerini keşfetmeye ve analiz etmeye yardımcı olur. Hadoop, analitikte yardımcı olan depolama, işleme ve veri toplama yetenekleri sunar.
9. Hadoop'un farklı özelliklerini açıklayın.
Birçok Büyük Veri Mülakat Sorusu ve Cevabında listelenmiştir, buna en iyi cevap –
Açık Kaynak - Hadoop açık kaynaklı bir platformdur. Kodun kullanıcı ve analitik gereksinimlerine göre yeniden yazılmasına veya değiştirilmesine izin verir.
Ölçeklenebilirlik – Hadoop, yeni düğümlere donanım kaynaklarının eklenmesini destekler.
Veri Kurtarma – Hadoop, herhangi bir arıza durumunda verilerin kurtarılmasına izin veren çoğaltmayı takip eder.
Veri Yerelliği – Bu, Hadoop'un hesaplamayı verilere değil, diğer yöne taşıması anlamına gelir. Bu şekilde tüm süreç hızlanır.
10. NameNode, Task Tracker ve Job Tracker için Port Numaralarını tanımlayın.
NameNode – Bağlantı Noktası 50070
Görev İzleyici – Bağlantı Noktası 50060
İş İzleyici – Bağlantı Noktası 50030
11. HDFS'de indeksleme ile ne demek istiyorsunuz?
HDFS, veri bloklarını boyutlarına göre indeksler. Bir veri bloğunun sonu, bir sonraki veri bloğu yığınının depolanacağı adresi gösterir. DataNode'lar veri bloklarını depolarken NameNode bu veri bloklarını depolar.
Pop-Kültürde Büyük Veri Uygulamaları
12. Hadoop'taki Kenar Düğümleri nelerdir?
Kenar düğümleri, Hadoop kümesi ile harici ağ arasında bir arabirim görevi gören ağ geçidi düğümlerini ifade eder. Bu düğümler, istemci uygulamalarını ve küme yönetimi araçlarını çalıştırır ve aynı zamanda hazırlama alanları olarak kullanılır. Edge Node'ları için kurumsal sınıf depolama yetenekleri gereklidir ve tek bir uç düğüm, genellikle birden çok Hadoop kümesi için yeterlidir.
13. Hadoop'ta Edge Nodes ile kullanılan veri yönetimi araçlarından bazıları nelerdir?
Bu Büyük Veri mülakat sorusu, çeşitli araçlar ve çerçeveler hakkındaki farkındalığınızı test etmeyi amaçlamaktadır.
Oozie, ambarı, Pig ve Flume, Hadoop'ta Uç Düğümleriyle çalışan en yaygın veri yönetimi araçlarıdır.
14. Bir Redüktörün temel yöntemlerini açıklayın.
Bir redüktörün üç temel yöntemi vardır. Onlar-
setup() – Bu, yığın boyutu, dağıtılmış önbellek ve giriş verileri gibi farklı parametreleri yapılandırmak için kullanılır.
azalt() – İlgili azaltma göreviyle anahtar başına bir kez çağrılan bir parametre
cleanup() – Tüm geçici dosyaları siler ve yalnızca bir indirgeyici görevinin sonunda çağrılır.
15. HBase'de silme amacıyla kullanılan farklı mezar taşı işaretçilerinden bahsedin.
Bu Büyük Veri mülakat sorusu, HBase ve işleyişi hakkındaki bilginize dalıyor.
HBase'de silme için kullanılan üç ana mezar taşı işareti vardır. Onlar-
Aile Silme İşaretçisi – Bir sütun ailesinin tüm sütunlarını işaretlemek için.
Sürüm Silme İşaretçisi – Tek bir sütunun tek bir sürümünü işaretlemek için.
Sütun Silme İşaretçisi – Tek bir sütunun tüm sürümlerini işaretlemek için.
Büyük Veri Mühendisleri: Mitler ve Gerçekler
16. Büyük Veri işletmelere nasıl değer katabilir?
En yaygın büyük veri görüşme sorularından biri. Mevcut senaryoda, Büyük Veri her şeydir. Verileriniz varsa, emrinizde en güçlü araca sahipsiniz. Büyük Veri Analitiği, işletmelerin ham verileri iş stratejilerini şekillendirebilecek anlamlı ve eyleme geçirilebilir içgörülere dönüştürmesine yardımcı olur. Big Data'nın iş dünyasına en önemli katkısı, veriye dayalı iş kararlarıdır. Büyük Veri, kuruluşların kararlarını somut bilgi ve içgörülere dayandırmasını mümkün kılar.
Ayrıca Predictive Analytics, şirketlerin farklı alıcı kişilikleri için özelleştirilmiş öneriler ve pazarlama stratejileri oluşturmasına olanak tanır. Büyük Veri araçları ve teknolojileri birlikte geliri artırmaya, iş operasyonlarını düzenlemeye, üretkenliği artırmaya ve müşteri memnuniyetini artırmaya yardımcı olur. Aslında, bugün Büyük Veriden yararlanmayan herkes bir fırsatlar okyanusunu kaybediyor.
17. Bir Büyük Veri çözümünü nasıl dağıtırsınız?
Bir Büyük Veri çözümünü üç adımda dağıtabilirsiniz:
- Veri Alımı – Bu, Büyük Veri çözümünün devreye alınmasındaki ilk adımdır. İster sosyal medya platformları, ister günlük dosyaları, iş belgeleri, ister işinizle ilgili herhangi bir şey olsun, birden fazla kaynaktan veri toplayarak başlarsınız. Veriler, gerçek zamanlı akış yoluyla veya toplu işlerde çıkarılabilir.
- Veri Depolama – Veriler ayıklandıktan sonra, verileri bir veritabanında saklamanız gerekir. HDFS veya HBase olabilir. HDFS depolaması sıralı erişim için mükemmel olsa da, HBase rastgele okuma/yazma erişimi için idealdir.
- Veri İşleme – Çözümün dağıtımındaki son adım veri işlemedir. Genellikle veri işleme, birkaçını saymak gerekirse, Hadoop, Spark, MapReduce, Flink ve Pig gibi çerçeveler aracılığıyla yapılır.
18. NFS'nin HDFS'den farkı nedir?
Ağ Dosya Sistemi (NFS) en eski dağıtılmış dosya depolama sistemlerinden biriyken, Hadoop Dağıtılmış Dosya Sistemi (HDFS), Büyük Veri'nin yükselişinden sonra ancak yakın zamanda gündeme geldi.
Aşağıdaki tablo, NFS ve HDFS arasındaki en önemli farklardan bazılarını vurgulamaktadır:
NFS | HDFS |
Küçük hacimli verileri hem depolayabilir hem de işleyebilir. | Açıkça Büyük Verileri depolamak ve işlemek için tasarlanmıştır. |
Veriler özel donanımda saklanır. | Veriler, donanımın yerel sürücülerine dağıtılan veri bloklarına bölünür. |
Sistem arızası durumunda verilere erişemezsiniz. | Sistem arızası durumunda bile verilere erişilebilir. |
NFS tek bir makinede çalıştığı için veri yedekleme şansı yoktur. | HDFS, bir makine kümesinde çalışır ve bu nedenle, çoğaltma protokolü fazlalık verilere yol açabilir. |
19. Dosyalar veya dizin seviyeleri için HDFS'deki farklı dosya izinlerini listeleyin.
Yaygın büyük veri görüşme sorularından biri. Hadoop dağıtılmış dosya sistemi (HDFS), dosyalar ve dizinler için belirli izinlere sahiptir. HDFS'de üç kullanıcı düzeyi vardır: Sahip, Grup ve Diğerleri. Kullanıcı düzeylerinin her biri için üç kullanılabilir izin vardır:
- (r) oku
- yaz (w)
- yürüt (x).
Bu üç izin, dosyalar ve dizinler için benzersiz şekilde çalışır.
Dosyalar için –
- r izni bir dosyayı okumak içindir
- w izni bir dosya yazmak içindir.
Yürütme(x) izni olmasına rağmen, HDFS dosyalarını yürütemezsiniz.
dizinler için -
- r izni, belirli bir dizinin içeriğini listeler.
- w izni bir dizini oluşturur veya siler.
- X izni, bir alt dizine erişmek içindir.
20. HDFS'deki çoğaltma faktörlerinin üzerine yazan süreçleri detaylandırın.

HDFS'de çoğaltma faktörlerinin üzerine yazmanın iki yolu vardır – dosya bazında ve dizin bazında.
Dosya Bazında
Bu yöntemde, çoğaltma faktörü, Hadoop FS kabuğunu kullanan dosyaya göre değişir. Bunun için aşağıdaki komut kullanılır:
$hadoop fs – setrep –w2/my/test_file
Burada test_file, çoğaltma faktörü 2 olarak ayarlanacak dosya adını ifade eder.
Dizin Bazında
Bu yöntem, dizine göre çoğaltma faktörünü değiştirir, bu nedenle belirli bir dizin altındaki tüm dosyalar için çoğaltma faktörü değişir. Bunun için aşağıdaki komut kullanılır:
$hadoop fs –setrep –w5/my/test_dir
Burada test_dir, çoğaltma faktörünün ve içerdiği tüm dosyaların 5'e ayarlanacağı dizinin adını ifade eder.
21. Hadoop'u çalıştırabileceğiniz üç modu adlandırın.
Herhangi bir büyük veri görüşmesinde en yaygın sorulardan biri. Üç mod şunlardır:
- Bağımsız mod – Bu, hem giriş hem de çıkış işlemleri için yerel dosya sistemini kullanan Hadoop'un varsayılan modudur. Bağımsız modun temel amacı hata ayıklamadır. HDFS'yi desteklemez ve ayrıca mapred-site.xml, core-site.xml ve hdfs-site.xml dosyaları için gereken özel yapılandırmadan yoksundur.
- Sözde dağıtılmış mod – Tek düğümlü küme olarak da bilinen sözde dağıtılmış mod, aynı makine içinde hem NameNode hem de DataNode'u içerir. Bu modda, tüm Hadoop arka plan programları tek bir düğüm üzerinde çalışır ve dolayısıyla Ana ve Bağımlı düğümler aynıdır.
- Tamamen dağıtılmış mod - Bu mod, birden çok düğümün Hadoop işlerini yürütmek için aynı anda çalıştığı çok düğümlü küme olarak bilinir . Burada, tüm Hadoop arka plan programları farklı düğümlerde çalışır. Böylece, Master ve Slave düğümleri ayrı ayrı çalışır.
22. "Fazla takma"yı açıklayın.
Fazla uydurma, bir fonksiyon sınırlı bir dizi veri noktası tarafından sıkı bir şekilde uydurulduğunda (etkilendiğinde) meydana gelen bir modelleme hatasına atıfta bulunur. Fazla uydurma, eldeki verilerdeki tuhaflıkları veya özellikleri açıklamayı daha da zorlaştıran aşırı karmaşık bir modelle sonuçlanır. Modelin genelleme kabiliyetini olumsuz etkilediğinden, fazla uyumlu modellerin tahmin katsayısını belirlemek zorlaşmaktadır. Bu modeller, harici verilere (örnek verilerin parçası olmayan veriler) veya yeni veri kümelerine uygulandığında başarısız olur.
Aşırı takma, Makine Öğrenimindeki en yaygın sorunlardan biridir. Bir model, eğitim setinde daha iyi performans gösterdiğinde ancak test setinde sefil bir şekilde başarısız olduğunda fazla uyumlu olarak kabul edilir. Bununla birlikte, çapraz doğrulama, budama, erken durdurma, düzenlileştirme ve montaj gibi fazla takma sorununu önlemek için birçok yöntem vardır.
23. Özellik Seçimi Nedir?
Özellik seçimi, belirli bir veri kümesinden yalnızca gerekli özelliklerin çıkarılması sürecini ifade eder. Veriler farklı kaynaklardan ayıklandığında, tüm veriler her zaman yararlı değildir - farklı iş ihtiyaçları, farklı veri içgörüleri gerektirir. Bu, yalnızca belirli bir iş gereksinimi veya veri işleme aşamasıyla ilgili özellikleri belirlemek ve seçmek için özellik seçiminin devreye girdiği yerdir.
Özellik seçiminin temel amacı, analiz ve yorumlamayı kolaylaştırmak için ML modellerini basitleştirmektir. Özellik seçimi, bir modelin genelleme yeteneklerini geliştirir ve boyutsallık problemlerini ortadan kaldırır, böylece fazla uydurma olasılıklarını önler. Böylece öznitelik seçimi, incelenen verilerin daha iyi anlaşılmasını sağlar, modelin tahmin performansını iyileştirir ve hesaplama süresini önemli ölçüde azaltır.
Özellik seçimi üç teknikle yapılabilir:
- Filtreler yöntemi
Bu yöntemde seçilen öznitelikler, belirlenen sınıflandırıcılara bağlı değildir. Sıralama amacıyla değişkenleri seçmek için bir değişken sıralama tekniği kullanılır. Sınıflandırma işlemi sırasında, değişken sıralama tekniği bir özelliğin önemini ve kullanışlılığını dikkate alır. Ki-Kare Testi, Varyans Eşiği ve Bilgi Kazanımı, filtre yönteminin bazı örnekleridir.
- sarmalayıcı yöntemi
Bu yöntemde, öznitelik alt kümesi seçimi için kullanılan algoritma, tümevarım algoritmasının etrafında bir 'sarıcı' olarak bulunur. Tümevarım algoritması, özelliklerin sınıflandırılmasında daha fazla kullanılacak bir sınıflandırıcı üreten bir 'Kara Kutu' gibi çalışır. Sarmalayıcılar yönteminin en büyük dezavantajı veya sınırlaması, özellik alt kümesini elde etmek için ağır hesaplama çalışmaları yapmanız gerekmesidir. Genetik Algoritmalar, Sıralı Özellik Seçimi ve Özyinelemeli Özellik Eliminasyonu, sarmalayıcı yönteminin örnekleridir.
- gömülü yöntem
Gömülü yöntem, her iki dünyanın en iyilerini birleştirir - filtrelerin ve sarmalayıcı yöntemlerinin en iyi özelliklerini içerir. Bu yöntemde değişken seçimi eğitim sürecinde yapılır ve böylece belirli bir model için en doğru olan özellikleri belirlemenize olanak tanır. L1 Düzenlileştirme Tekniği ve Ridge Regresyon, gömülü yöntemin iki popüler örneğidir.
24. “Aykırı Değerleri” tanımlayın.
Aykırı değer, rastgele bir örnekteki diğer değerlerden anormal bir mesafede bulunan bir veri noktasını veya gözlemi ifade eder. Başka bir deyişle, aykırı değerler gruptan çok uzak olan değerlerdir; veri kümesindeki belirli bir kümeye veya gruba ait değillerdir. Aykırı değerlerin varlığı genellikle modelin davranışını etkiler - ML algoritmalarının eğitim sürecini yanlış yönlendirebilirler. Aykırı değerlerin olumsuz etkilerinden bazıları daha uzun eğitim süresini, hatalı modelleri ve kötü sonuçları içerir.
Ancak, aykırı değerler bazen değerli bilgiler içerebilir. Bu nedenle iyice araştırılmalı ve buna göre tedavi edilmelidir.
25. Bazı aykırı değer tespit tekniklerini adlandırın.
Yine en önemli büyük veri mülakat sorularından biri. İşte altı aykırı değer algılama yöntemi:
- Aşırı Değer Analizi – Bu yöntem, veri dağılımının istatistiksel kuyruklarını belirler. Tek değişkenli veriler üzerindeki 'z puanları' gibi istatistiksel yöntemler, uç değer analizinin mükemmel bir örneğidir.
- Olasılıksal ve İstatistiksel Modeller – Bu yöntem, verilerin 'olasılıklı modelinden' 'olası olmayan örnekleri' belirler. İyi bir örnek, 'beklenti-maksimizasyon' kullanan Gauss karışım modellerinin optimizasyonudur.
- Doğrusal Modeller – Bu yöntem, verileri daha düşük boyutlara modeller. Yakınlık Tabanlı Modeller – Bu yaklaşımda, veri grubundan izole edilen veri örnekleri Küme, Yoğunluk veya En Yakın Komşu Analizi ile belirlenir.
- Bilgi-Teorik Modeller – Bu yaklaşım, veri kümesinin karmaşıklığını artıran kötü veri örnekleri olarak aykırı değerleri tespit etmeye çalışır.
- Yüksek Boyutlu Aykırı Değer Algılama – Bu yöntem, daha yüksek boyutlardaki uzaklık ölçülerine göre aykırı değerler için alt uzayları tanımlar.
26. Hadoop'ta Raf Farkındalığını açıklayın.
Raf Farkındalığı, popüler büyük veri görüşme sorularından biridir. Rach farkındalığı, raf bilgilerine göre NameNode'a daha yakın DataNode'ları tanımlayan ve seçen bir algoritmadır. Veri bloklarının ve kopyalarının nasıl yerleştirileceğini belirlemek için NameNode'a uygulanır. Kurulum işlemi sırasında varsayılan varsayım, tüm düğümlerin aynı rafa ait olmasıdır.
Raf farkındalığı şunlara yardımcı olur:
- Veri güvenilirliğini ve erişilebilirliğini iyileştirin.
- Küme performansını iyileştirin.
- Ağ bant genişliğini iyileştirin.
- Toplu akışı mümkün olduğunca ve mümkün olduğunca rafta tutun.
- Tam bir raf arızası durumunda veri kaybını önleyin.
27. Bir NameNode kapalıyken kurtarabilir misiniz? Öyleyse nasıl?
Evet, bir NameNode kapalıyken onu kurtarmak mümkündür. Bunu şu şekilde yapabilirsiniz:
- Yeni bir NameNode başlatmak için FsImage'ı (dosya sistemi meta veri kopyası) kullanın.
- DataNode'ları istemcilerle birlikte yeni başlatılan NameNode'u onaylayabilmeleri ve bunlara başvurabilmeleri için yapılandırın.
- Yeni oluşturulan NameNode, FsImage'ın (bu artık DataNodes'tan yeterli sayıda blok raporu almıştır) yükleme işleminin son kontrol noktasını yüklemeyi tamamladığında, istemciye hizmet vermeye başlamaya hazır olacaktır.
Ancak, bir NameNode'un kurtarma işlemi yalnızca daha küçük kümeler için uygundur. Büyük Hadoop kümeleri için kurtarma işlemi genellikle önemli miktarda zaman alır ve bu nedenle onu oldukça zorlu bir görev haline getirir.
28. Bir MapReduce çerçevesinin yapılandırma parametrelerini adlandırın.
MapReduce çerçevesindeki yapılandırma parametreleri şunları içerir:
- Veri giriş biçimi.
- Verilerin çıktı biçimi.
- Dağıtılmış dosya sistemindeki işlerin giriş konumu.
- Dağıtılmış dosya sistemindeki işlerin çıktı konumu.
- Harita işlevini içeren sınıf
- azaltma işlevini içeren sınıf
- Eşleştirici, indirgeyici ve sürücü sınıflarını içeren JAR dosyası.
29. Dağıtılmış Önbellek Nedir? Faydaları nelerdir?
Herhangi bir Büyük Veri Mülakat Soru ve Cevap kılavuzu bu soru olmadan tamamlanmayacaktır. Hadoop'ta dağıtılmış önbellek, dosyaları önbelleğe almak için kullanılan MapReduce çerçevesi tarafından sunulan bir hizmettir. Bir dosya belirli bir iş için önbelleğe alınırsa, Hadoop onu hem bellekte hem de harita ve azaltma görevlerinin aynı anda yürütüldüğü sistemde ayrı DataNode'larda kullanılabilir hale getirir. Bu, herhangi bir koleksiyonu (diziler, karma haritalar vb.) bir kodda doldurmak için önbelleğe alınmış dosyalara hızlı bir şekilde erişmenizi ve bunları okumanızı sağlar.
Dağıtılmış önbellek aşağıdaki avantajları sunar:
- Basit, salt okunur metin/veri dosyalarını ve kavanozlar, arşivler vb. gibi diğer karmaşık türleri dağıtır.
- Bir iş başarıyla yürütülene kadar değiştirilmemesi gereken dosyaları vurgulayan önbellek dosyalarının değişiklik zaman damgalarını izler.
30. Hadoop'ta SequenceFile nedir?
Hadoop'ta bir SequenceFile, ikili anahtar/değer çiftlerini içeren düz bir dosyadır. En yaygın olarak MapReduce I/O formatlarında kullanılır. Harita çıktıları, okuyucu, yazar ve sıralayıcı sınıflarını sağlayan bir SequenceFile olarak dahili olarak depolanır.
Üç SequenceFile formatı vardır:
- Sıkıştırılmamış anahtar/değer kayıtları
- Sıkıştırılmış anahtar/değer kayıtlarını kaydedin (yalnızca 'değerler' sıkıştırılır).
- Sıkıştırılmış anahtar/değer kayıtlarını bloklayın (burada, hem anahtarlar hem de değerler 'bloklarda' ayrı ayrı toplanır ve ardından sıkıştırılır).
31. JobTracker'ın rolünü açıklayın.
Yaygın büyük veri görüşme sorularından biri. JobTracker'ın birincil işlevi, esasen TaskTracker'ları yönetmek anlamına gelen kaynak yönetimidir. Bunun dışında, JobTracker ayrıca kaynak kullanılabilirliğini izler ve görev yaşam döngüsü yönetimini yönetir (görevlerin ilerlemesini ve hata toleranslarını takip eder).
JobTracker'ın bazı önemli özellikleri şunlardır:
- Ayrı bir düğümde (DataNode'da değil) çalışan bir işlemdir.
- Veri konumunu belirlemek için NameNode ile iletişim kurar.
- MapReduce iş yüklerinin yürütülmesini izler.
- Mevcut yuvalara göre TaskTracker düğümlerini tahsis eder.
- Her TaskTracker'ı izler ve genel iş raporunu müşteriye gönderir.
- Belirli düğümlerde belirli görevleri yürütmek için en iyi TaskTracker düğümlerini bulur.
32. Hadoop'ta yaygın giriş biçimlerini adlandırın.
Hadoop'un üç ortak giriş biçimi vardır:
- Metin Giriş Biçimi – Bu, Hadoop'taki varsayılan giriş biçimidir.
- Sıra Dosya Giriş Formatı – Bu giriş formatı, dosyaları bir sıra halinde okumak için kullanılır.
- Anahtar-Değer Giriş Formatı – Bu giriş formatı, düz metin dosyaları (satırlara bölünmüş dosyalar) için kullanılır.
33. Hadoop'ta Veri Yerelliğine ne gerek var?
Önemli büyük veri görüşme sorularından biri. HDFS'de veri kümeleri, Hadoop kümesindeki DataNode'larda bloklar olarak depolanır. Bir MapReduce işi yürütülürken, bireysel Eşleştirici veri bloklarını işler (Giriş Bölmeleri). Veriler, Eşleştirici'nin işi yürüttüğü düğümde mevcut değilse, verilerin ağ üzerinde bulunduğu DataNode'dan Eşleştirici DataNode'a kopyalanması gerekir.
Bir MapReduce işi yüzün üzerinde Eşleştiriciye sahip olduğunda ve her Eşleştirici DataNode, kümedeki başka bir DataNode'dan verileri aynı anda kopyalamaya çalıştığında, ağ tıkanıklığına yol açacak ve böylece sistemin genel performansı üzerinde olumsuz bir etkisi olacaktır. Bu, Data Locality'nin senaryoya girdiği yerdir. Data Locality, büyük bir veri yığınını hesaplamaya taşımak yerine, veri hesaplamasını gerçek verilerin DataNode'da bulunduğu yere yakın bir yere taşır. Bu, gereksiz gecikmeye neden olmadan sistemin genel performansını artırmaya yardımcı olur.
34. Hadoop'ta güvenliği sağlama adımları nelerdir?
Hadoop'ta, güvenliği sağlamak için bir ağ kimlik doğrulama protokolü olan Kerberos kullanılır. Kerberos, gizli anahtar şifreleme yoluyla istemci/sunucu uygulamaları için sağlam kimlik doğrulaması sağlamak üzere tasarlanmıştır.
Bir hizmete erişmek için Kerberos'u kullandığınızda, her biri bir sunucu ile mesaj alışverişini içeren üç adımdan geçmeniz gerekir. Adımlar aşağıdaki gibidir:
- Kimlik Doğrulama - Bu, istemcinin kimlik doğrulama sunucusu aracılığıyla kimliğinin doğrulandığı ve ardından müşteriye zaman damgalı bir TGT'nin (Bilet Verme Bileti) verildiği ilk adımdır.
- Yetkilendirme – İkinci adımda, istemci, TGS'den (Bilet Veren Sunucu) bir hizmet bileti talep etmek için TGT'yi kullanır.
- Hizmet İsteği – Son adımda, istemci, sunucuya kimlik doğrulaması yapmak için hizmet biletini kullanır.
35. Büyük Veride eksik değerleri nasıl halledebilirsiniz?
Büyük veri mülakat soruları ve cevapları kılavuzumuzun son sorusu. Eksik değerler, bir sütunda bulunmayan değerleri ifade eder. Bir gözlemdeki bir değişken için veri değeri olmadığında oluşur. Eksik değerler düzgün bir şekilde ele alınmazsa, hatalı verilere yol açması ve bunun da yanlış sonuçlara yol açması kaçınılmazdır. Bu nedenle, veri kümelerini işlemeden önce eksik değerlerin doğru bir şekilde ele alınması şiddetle tavsiye edilir. Genellikle, eksik değerlerin sayısı azsa, veriler bırakılır, ancak çok sayıda eksik değer varsa, tercih edilen eylem şekli veri yüklemesidir.
İstatistikte, eksik değerleri tahmin etmenin farklı yolları vardır. Bunlar, regresyon, çoklu veri atama, liste/çift silme, maksimum olabilirlik tahmini ve yaklaşık Bayes önyüklemesini içerir.
Çözüm
Büyük Veri Soruları ve Cevapları rehberimizin yardımcı olacağını umuyoruz. Sizi güncel tutmak için kılavuzu düzenli olarak güncelleyeceğiz.
Büyük Veri hakkında daha fazla bilgi edinmek istiyorsanız, çalışan profesyoneller için tasarlanmış ve 7+ vaka çalışması ve proje sağlayan, 14 programlama dili ve aracını kapsayan, pratik uygulamalı Büyük Veride Yazılım Geliştirme Uzmanlığı programında PG Diplomamıza göz atın çalıştaylar, en iyi firmalarla 400 saatten fazla titiz öğrenim ve işe yerleştirme yardımı.
Dünyanın En İyi Üniversitelerinden Online Yazılım Geliştirme Kursları öğrenin . Kariyerinizi hızlandırmak için Yönetici PG Programları, Gelişmiş Sertifika Programları veya Yüksek Lisans Programları kazanın.
