Yeni Başlayanlar ve Deneyimliler için En İyi 28 Veri Mühendisi Mülakat Soruları ve Cevapları

Yayınlanan: 2020-03-11

Röportaj için hazırlanıyorsunuz ama nasıl yapacağınızı bilmiyor musunuz? Veri mühendisi mülakat soruları ve cevapları listemizle başlayabilirsiniz.

Veri mühendisi görüşmeleri , kırılması en zor olanlardan biridir. Bilmen gereken çok şey var. Ama merak etmeyin, çünkü mülakat soruları listemiz bu konuda size yardımcı olacaktır. Bu listeyi gözden geçirdikten sonra, bir işe alım görevlisinin sorabileceği birçok önemli sorunun yanıtını bileceksiniz. Ayrıca bu liste, mülakata hazırlanırken nelere çalışmanız ve öğrenmeniz gerektiği konusunda size bir fikir verecektir.

Başlayalım.

En İyi Veri Mühendisi Mülakat Soruları ve Cevapları

S.1 – Veri Mühendisliği Nedir?

Veri mühendisliği, bilgi sistemlerini geliştirmeye ve tasarlamaya yönelik bir yazılım mühendisliği yaklaşımıdır. Verilerin toplanması ve analizine odaklanır. Veri bilimcileri büyük verilerle çeşitli görevleri yerine getirirken, birilerinin bu verileri daha önce toplaması gerekiyor ve veri mühendisleri bu görevi yerine getiriyor. Veri mühendisleri, veritabanlarının geliştirilmesinden ve bakımından da sorumludur. Veri mühendisleri, ham verileri kullanılabilir verilere dönüştürür.

S.2 – Veri Modellemeden ne anlıyorsunuz?

Bir bilgi sistemi için verilerini takip edebilmek için bir veri modeli oluşturduğunuzda, buna veri modelleme denir. Bu veri modelleri, bir DB'de (veritabanı) tablolar haline gelir. Örneğin, müşteri davranışlarınızı analiz etmek istiyorsanız, veritabanınızdaki her müşteri bir veri modeli olacaktır. Kurallarla ilişkili veri değerlerinin kavramsal temsilidir.

S.3 – Hadoop nedir?

Hadoop, büyük verilerle ilgili sorunları çözmek için birden çok bilgisayardan oluşan bir ağ kullanmanıza izin veren açık kaynaklı bir yardımcı program koleksiyonudur. Çok miktarda veriyi işlemenize izin veren çeşitli bileşenlere sahiptir. Hadoop'un geliştiricisi Apache temelidir. Kapsamlı yardımcı program ve bileşen koleksiyonu, birçok güçlü büyük veri uygulamasını verimli bir şekilde gerçekleştirmenize olanak tanır.

S.4 – Hadoop'un farklı bileşenleri nelerdir?

Hadoop temel olarak 4 bileşenden oluşur ve bunlar HDFS, MapReduce, YARN ve Hadoop Common'dır.

HDFS, Hadoop'un tüm verilerini depolayan dosya sistemidir. Dağıtılmış bir depolama sistemi olarak yüksek bir bant genişliğine sahiptir.

MapReduce büyük miktarda veriyi işler; YARN, Hadoop'un kaynak yönetimidir ve gerekli kaynakları buna göre tahsis eder. Hadoop Common, Hadoop'ta kullanabileceğiniz bir grup kitaplık ve yardımcı programdır.

S.5 – HDFS ne anlama geliyor?

HDFS bir Hadoop bileşenidir. HDFS, Hadoop Dağıtılmış Dosya Sistemi anlamına gelir.

S.6 – NameNode nedir?

NameNode, HDFS'deki veri depolamanın bir parçasıdır ve kümelerde bulunan farklı dosyaları izler. NameNode'lar veri depolamaz. HDFS'nin gerçek verilerini depoladığı DataNodes meta verilerini depolarlar.

S.7 – Yapılandırılmamış ve yapılandırılmış veriler arasındaki fark nedir?

Sistemler, yapılandırılmamış verileri yönetilmeyen dosya yapılarında depolarken, yapılandırılmış veriler için depolama alanı DBMS'dir. Yapılandırılmış verilerin şema ölçeklendirilmesi zordur, ancak yapılandırılmamış verilerle yapmak oldukça kolaydır. Yapılandırılmış veriler için ELT'yi (Ayıkla, Dönüştür ve Yükle) kullanırsın. Öte yandan, toplu işleme veya veri girişi yapmanız gerekir.

S.8 – Veri Modellemede kaç tür tasarım şeması vardır? Onlar neler?

Veri modellemede iki tür tasarım şeması vardır: Kar tanesi şeması ve Yıldız şeması.

S.9 – Blok Tarayıcı bozuk bir veri bloğu bulduğunda ne olur? İzah etmek.

Bu, popüler veri mühendisi mülakat sorularından biridir. Bu nedenle, Blok Tarayıcı bozuk bir veri bloğu bulduğunda, DataNode bunu NameNode'a bildirmeden önce hazırladığınızdan emin olun. Ardından NameNode, mevcut modellerinden birini kullanarak bozuk bloğun bir kopyasını oluşturmaya başlar. Sistem bozuk veri bloğunu silmezse, çoğaltma faktörü kadar çoğaltma oluşturur. Çoğaltma sayısı aynı olmalıdır.

S.10 – Hadoop'ta bulunan tüm XML yapılandırma dosyalarını adlandırın.

Hadoop'ta bulunan XML yapılandırma dosyaları, HDFS-sitesi, Mapred-sitesi, Yarn-sitesi ve Core-sitesidir.

S.11 – HDFS'de Blok Nedir? Blok Tarayıcı Nedir?

Hadoop'ta blok, en küçük veri birimidir. Blok tarayıcı, DataNode'da bulunan blokları kontrol eden ve doğrulayan bir bileşendir. Hadoop, depolama kolaylığı için büyük veri dosyalarını küçük veri bloklarına böler.

S.12- Bir DataNode NameNode'a hangi mesajları gönderir?

DataNode'lar, çalıştıklarını bildirmek için NameNodes'a sinyaller gönderir. Bu sinyallerin adı Kalp Atışı'dır. Ve bir DataNodes sinyal gönderemezse, NameNode onun öldüğünü ve çalışmayı durdurduğunu belirler.

S.13 – Büyük Verinin merkezi V'lerini belirtin.

Büyük verinin dört merkezi V'si Velocity, Variety, Volume ve Veracity'dir.

S.14 – COSHH ile ne kastedilmektedir?

COSHH, Heterojen Hadoop sistemleri için Sınıflandırma ve Optimizasyona Dayalı Çizelge anlamına gelir.

S.15 – Yıldız Şemasını tarif edebilir misiniz?

Yıldız şeması yıldıza benzer bir yapıya sahiptir; bu yüzden adı var. Yıldızın merkezi, kendisiyle ilişkili çeşitli boyut tabloları olan bir olgu tablosuna sahip olabilir. Veri mühendisleri, önemli veri kümelerini sorgulamak için kullanır.

S.16 – Kar Tanesi Şeması Nedir?

Bir kar tanesi şeması, bir Yıldız şeması biçimidir. Tek farkı ek boyutları olması ve adını kar tanesi benzeri yapısından almasıdır. Diğer tabloları olduğu için normalize edilmiş ölçü tablolarına sahiptir.

S.17- Hadoop'ta bir Redüktörün temel yöntemleri nelerdir?

Redüktör'de birkaç temel yöntem vardır. İlki, parametreleri yapılandıran setup(), temizleme() geçici veri kümelerini temizleyen ve Redüktör, azaltılan her görevde azaltma() yöntemini çalıştırır.

S.18 – FSCK nedir?

FSCK, Dosya Sistemi Kontrolü anlamına gelir. Bu bir HDFS komutudur ve bir dosyadaki sorunları ve tutarsızlıkları tespit etmek için bu komutu kullanır.

S.19 – Hadoop'un birden fazla modu var mı? Eğer öyleyse, bunlar nelerdir?

Evet, Hadoop'un üç farklı modu vardır. Bunlar: Bağımsız mod, Tam dağıtılmış mod ve Sözde dağıtılmış mod.

S.20 – İPLİK ne anlama geliyor?

YARN, Yet Another Resource Negotiator anlamına gelir.

S.21 – Hadoop'un güvenliğini nasıl sağlıyorsunuz?

Bu amaçla, önce beklemede ve aktarım sırasında şifrelemeyi etkinleştireceksiniz. Hadoop'ta kullandığınız protokollerin güvenli sürümlerini kullanmanız gerekecek. SASL'nin RPC verilerini korumasına izin vereceksiniz. SASL'yi hadoop.rpc.protection özelliği aracılığıyla etkinleştirebilirsiniz.

Kimlik doğrulama kanalını da güvence altına alacaksınız. İstemci, bir hizmet bileti almak için kimlik doğrulama kanalının zaman damgasını kullanabilir ve bunu kendi kendine kimlik doğrulama için kullanabilirsiniz.

S.22 – HDFS (Hadoop Dağıtılmış Dosya Sistemi) hakkında ayrıntılı bilgi verebilir misiniz?

Hadoop, FS, HFTP ve S3 gibi dağıtılmış dosya sistemleriyle çalışabilir. Google Dosya Sistemi, HDFS'nin temelidir ve büyük bir küçük sistem kümesinde çalışabilir.

S.23 – Kar Tanesi ve Yıldız Şeması arasındaki farklar nelerdir?

Star şemasında, Snowflake şemasında olmayan daha yüksek bir veri fazlalığı şansınız vardır. Star şemasının DB tasarımı, Snowflake'den daha basittir. Kar Tanesi şemasının karmaşık birleşimi, Yıldız şemasında olmayan küp işlemeyi yavaşlatır.

S.24 – Hadoop'ta Kalp Atışı nedir?

Hadoop'ta NameNode ve DataNode olmak üzere iki tür düğüm vardır. NameNode, DataNodes'un meta verilerini depolama ve durumlarını takip etme sorumluluğuna sahiptir. DataNode'lar, hayatta olduklarını ve çalıştıklarını bildirmek için NameNode'a sinyaller gönderir. Bu sinyal Kalp Atışıdır.

S.25 – Büyük Veriden ne anlıyorsunuz?

Geleneksel yöntemlerle işleyemeyeceğiniz çok miktarda yapılandırılmamış ve yapılandırılmış veriye sahip olduğunuzda buna büyük veri denir. Büyük veri, bilgi toplamak için oldukça karmaşık veri kümelerini analiz etme ve kullanma alanıdır. Geleneksel veri analizi yöntemleri, bu kadar yüksek miktarda karmaşık verilerle iyi çalışmaz. Büyük verilerde, veri mühendislerinin görevi ham verileri analiz etme ve bunları kullanılabilir verilere dönüştürme görevidir.

S.26 – Bir veri mühendisi hangi konuları ve programlama dillerini bilmelidir?

Bir veri mühendisi trend analizi, makine öğrenimi, SQL, Hive QL, olasılık, regresyon ve lineer cebir bilmelidir. Bir veri mühendisi diğer birçok konuyu bilebilir, ancak bunlar bir zorunluluktur.

S.27 – Hadoop'ta DAS ve NAS arasındaki farklar nelerdir?

Bu, en popüler veri mühendisi mülakat sorularından biridir, bu nedenle cevabına özellikle dikkat edin. DAS, Doğrudan Bağlı Depolama anlamına gelir ve NAS, Ağa Bağlı Depolama anlamına gelir. NAS'ın depolama kapasitesi bayt olarak 10^9 ila 10^12'dir. Öte yandan DAS, 10^9 bayt depolama kapasitesine sahiptir. NAS'ın yönetim maliyetleri de DAS'tan çok daha düşüktür.

S.28 – Hadoop'taki düğümler arasındaki mesafe ile ne kastedilmektedir? Nasıl hesaplarsın?

Hadoop'ta iki düğüm arasındaki mesafe, en yakın düğümlerin uzunluklarının toplamına eşittir. Hadoop'ta iki düğüm arasındaki mesafeyi bulmak için getDistance()'ı kullanabilirsiniz.

Dünyanın en iyi Üniversitelerinden veri bilimi derslerini öğrenin . Kariyerinizi hızlandırmak için Yönetici PG Programları, Gelişmiş Sertifika Programları veya Yüksek Lisans Programları kazanın.

Çözüm

Bu mülakat soruları sayesinde oldukça kolay bir şekilde hazırlanacağınızdan eminiz. Veri mühendisliği görüşmelerinin stresli olması gerekmez. Toplantıdan önce yeterince uyuduğunuzdan emin olun, birçok insan çok endişelenir.

Veri mühendisliği veya röportajlarla ilgili herhangi bir sorunuz varsa, bize sormaktan çekinmeyin. Size yardım etmeyi çok isteriz.

Veri mühendislerinin görev ve sorumlulukları nelerdir?

Veri mühendisleri için birincil sorumlulukları, verileri analitik veya operasyonel amaçlar için hazırlamaktır. BT endüstrisinin bir parçası olarak bu mühendisler, çeşitli kaynak sistemlerden gelen verileri birbirine bağlayan veri boru hatları oluşturur. Analitik uygulamalarında kullanım için yapılandırmadan önce verileri birleştirir, birleştirir ve arındırırlar. Şirketlerin çoğu analitik ekibi, verileri daha erişilebilir hale getiren ve şirketlerinin büyük veri ortamını en üst düzeye çıkaran veri mühendisleri ve veri bilimcilerinden oluşur. Mühendisler, verileri tahmine dayalı analitik, makine öğrenimi ve veri madenciliği uygulamaları için sorgular ve algoritmalar gerçekleştirmek için kullanan veri bilimcilerine kullanılabilir biçimlerde verir.

Veri mühendisi olarak çalışmak için gereken beceriler nelerdir?

Veritabanı sistemlerinin geliştirilmesi ve yönetimi bilgisi, veri mühendisleri için bir zorunluluktur. SQL, Python, R vb. programlama dillerinde akıcı olmalı ve temel makine öğrenimi ve algoritma anlayışlarına sahip olmalıdırlar. Veri mühendisleri ayrıca depolama çözümleri ve ETL (Ayıkla, Aktar, Yükle) araçları hakkında da bilgi sahibi olmalıdır. Veri bilimi, işbirlikçi bir disiplindir ve veri mühendisleri, veri analistlerinden Baş Teknoloji Sorumlularına kadar çeşitli paydaşlarla işbirliği yapar. Bu nedenle, iyi iletişim becerileri ve yüksek işbirliği becerileri gibi yumuşak beceriler, her veri mühendisinin beceri setinin bir parçası olmalıdır.

Veri mühendisliği iyi bir kariyer yolu mu? Bir veri mühendisi ortalama olarak ne kadar kazanır?

Dice 2020 Tech Job Report'a göre veri mühendisliği, mevcut fırsatların sayısında yıldan yıla %50 artışla 2019'da teknolojide en hızlı büyüyen kariyer seçeneğidir. Teknolojik dünyada önem kazanıyor ve bilgi yönetimi talebi arttıkça kazançlı bir kariyer seçeneği haline geldi. 4.57.532 ₹ giriş seviyesi maaşıyla, veri mühendislerinin maaşları, yılların deneyimiyle birlikte artıyor. 1-4 yıllık deneyime sahip veri mühendisleri ortalama ₹7,20.395 maaş alırken, 5-9 yıllık deneyime sahip kariyer ortası veri mühendisleri ve 10-19 yıllık deneyime sahip deneyimli veri mühendisleri ortalama ₹ toplam gelir elde etmektedir. sırasıyla 12,94,336 ve 18,67,992 yen.