20 Veri Madenciliği Mülakat Sorusu

Yayınlanan: 2020-02-10

Bu, AI ve ML'de çok sayıda iş kapsamı olacağı ve Veri Madenciliği her ikisinin de ayrılmaz bir parçası olduğu için, Veri Madenciliğinde sağlam bir temel oluşturmanız gerektiği anlamına gelir. Veri Madenciliği, ham verileri işletmeler ve kuruluşlar tarafından kullanılabilecek anlamlı içgörülere dönüştürmek için kullanılan tekniği ifade eder. Veri Madenciliğinin temel yönlerinden bazıları, veri ve veritabanı yönetimi, veri ön işleme, veri doğrulama, çevrimiçi güncelleme ve karmaşık veri kümelerinde saklı değerli kalıpların keşfini içerir. Temel olarak, Veri Madenciliği, gizli eğilimleri ve içgörüleri çıkarmak için büyük hacimli verilerin otomatik analizine odaklanır. İşte tam da bu nedenle, hayalinizdeki işi AI/ML'ye yerleştirmek istiyorsanız, görüşmecinin önünüze koyduğu herhangi bir Veri Madenciliği sorusunu yanıtlamaya hazır olmalısınız.

Dünyanın en iyi Üniversitelerinden veri bilimi sertifika kursunu öğrenin . Kariyerinizi hızlandırmak için Yönetici PG Programları, Gelişmiş Sertifika Programları veya Yüksek Lisans Programları kazanın.

Bu gönderide, en sık sorulan Veri Madenciliği mülakat sorularının bir listesini derledik. Her AI/ML adayının bilmesi gereken tüm Veri Madenciliği görüşme sorularını ve kavramlarını (hem temel hem de ileri düzey) kapsar.

O halde, daha fazla gecikmeden, hemen konuya girelim!

Farklı Veri Madenciliği tekniklerini adlandırın ve Veri Madenciliğinin kapsamını açıklayın.

Farklı Veri Madenciliği teknikleri şunlardır:

Tahmin – Bağımsız ve bağımlı örnekler arasındaki ilişkiyi keşfeder. Örneğin, satış verilerini değerlendirirken, gelecekteki karı tahmin etmek istiyorsanız, satış bağımsız bir örnek olarak hareket ederken, kâr bağımlı bir örnektir. Buna göre, satışların ve kârın tarihsel verilerine dayanarak, ilgili kâr tahmin edilen değerdir.
Karar ağaçları – Bir karar ağacının kökü, birden çok yanıtı olan bir koşul/soru olarak işlev görür. Her cevap, verilere dayalı olarak nihai kararın belirlenmesine yardımcı olan belirli verilere yol açar.
Sıralı kalıplar – İşlem verilerinde veya düzenli olaylarda aynı kalıpları keşfetmek için kullanılan kalıp analizine atıfta bulunur. Örneğin, müşterilerin geçmiş verileri, bir markanın geçen yıl gerçekleşen işlemlerdeki kalıpları tanımlamasına yardımcı olur.
Kümeleme analizi – Bu teknikte, otomatik olarak benzer özelliklere sahip bir nesne kümesi oluşturulur. Kümeleme yöntemi, sınıfları tanımlar ve ardından her sınıfa uygun nesneleri yerleştirir.
Sınıflandırma analizi – Bu ML tabanlı yöntemde, belirli bir kümedeki her öğe önceden tanımlanmış gruplara sınıflandırılır. Doğrusal programlama, sinir ağları, karar ağaçları vb. gibi gelişmiş teknikleri kullanır.
Birliktelik kuralı öğrenme – Bu yöntem, tek bir işlemdeki öğelerin ilişkisine dayalı bir model oluşturur.

Veri Madenciliğinin kapsamı:

Trendleri ve davranışları tahmin edin – Veri Madenciliği, büyük veri kümelerinde/veritabanlarında tahmine dayalı bilgileri tanımlama sürecini otomatikleştirir.
Daha önce bilinmeyen kalıpları keşfedin – Veri Madenciliği araçları, önceden gizlenmiş eğilimleri belirlemek için geniş ve çeşitli veritabanlarını süpürür ve sıyırır. Bu, bir örüntü keşif sürecinden başka bir şey değildir.

Veri Madenciliği türleri nelerdir?

Veri Madenciliği aşağıdaki türlere ayrılabilir:

Entegrasyon
seçim
Veri temizleme
Desen değerlendirmesi
Veri dönüşümü
Bilgi temsili

Veri Temizleme Nedir?

Veri Temizleme, veritabanı yönetim sistemlerinde çok önemli bir prosedürdür. İlgili verilerin bir veritabanında tutulmasına yardımcı olur. Satır ve sütunların gereksiz NULL değerlerini ortadan kaldırarak veya silerek gereksiz verileri temizleme işlemini ifade eder. Veritabanına yeni veri yüklemeniz gerektiğinde, öncelikle alakasız verileri temizlemek esastır.

Veritabanının sık sık Veri Temizleme ile, önemli miktarda veritabanı belleği kaplayan gereksiz verilerden kurtulabilir, böylece veritabanının performansını yavaşlatabilirsiniz.

Veri Ambarı ve Veri Madenciliği arasındaki temel fark nedir?

Veri Ambarı, farklı kaynaklardan veri çıkarmak için kullanılan tekniktir. Daha sonra temizlenir ve ileride kullanılmak üzere saklanır. Öte yandan, Veri Madenciliği, sorguları kullanarak çıkarılan verileri keşfetme ve ardından sonuçları veya sonuçları analiz etme sürecidir. Raporlamada, strateji planlamada ve verilerdeki değerli içgörüleri görselleştirmede esastır.

Veri Madenciliğinin farklı aşamalarını açıklayın.

Veri Madenciliğinin üç ana aşaması vardır:

Keşif – Bu aşama öncelikle birden fazla kaynaktan veri toplamaya ve bu verileri temizleme ve dönüştürme gibi diğer faaliyetler için hazırlamaya odaklanır. Veriler temizlenip dönüştürüldüğünde, içgörüler için analiz edilebilir.

Model Oluşturma ve doğrulama – Bu aşama, verilere farklı modeller uygulayarak ve sonuçları en iyi performans için karşılaştırarak doğrulamayı içerir. Bu adım aynı zamanda kalıp tanımlama olarak da adlandırılır. Kullanıcının, kolay tahminler için hangi kalıbın en uygun olduğunu manuel olarak belirlemesi gerektiğinden, zaman alıcı bir süreçtir.

Dağıtım – Tahmin için en uygun model belirlendikten sonra, tahmini tahminleri veya sonuçları elde etmek için veri kümesine uygulanır.

Veri Madenciliği sorgularının kullanımı nedir?

Veri Madenciliği sorguları, tekli veya çoklu sonuçlar elde etmek için modelin yeni verilere uygulanmasını kolaylaştırmaya yardımcı olur. Sorgular, belirli bir kalıba uyan vakaları daha etkili bir şekilde alabilir. Eğitim verilerinin istatistiksel hafızasını çıkarırlar ve modelde bir kalıbı temsil eden tipik durum kuralı ile birlikte tam kalıbın elde edilmesine yardımcı olurlar. Ayrıca sorgular, kalıpları açıklamak için regresyon formüllerini ve diğer hesaplamaları çıkarabilir. Ayrıca, bir modelde kullanılan tek tek vakalarla ilgili ayrıntıları da alabilirler.

Veri Madenciliğinde “Ayrık” ve “Sürekli” veriler nelerdir?

Veri Madenciliğinde ayrık veriler, sonlu olan ve kendisine bir anlam yüklenen verilerdir. Cinsiyet, ayrık verilerin klasik bir örneğidir. Sürekli veriler ise iyi yapılandırılmış bir şekilde değişmeye devam eden verilerdir. Yaş, sürekli verilerin mükemmel bir örneğidir.

OLAP nedir? OLTP'den farkı nedir?

OLAP (Çevrimiçi Analitik İşleme), karmaşık analitik hesaplamalar içeren birçok İş Zekası uygulamasında kullanılan bir teknolojidir. OLAP, karmaşık hesaplamaların yanı sıra trend analizi ve gelişmiş veri modelleme için kullanılır. OLAP sistemlerini kullanmanın birincil amacı, aynı anda raporlamanın etkinliğini artırırken sorgu yanıt süresini en aza indirmektir. OLAP veritabanı, toplu geçmiş verileri çok boyutlu bir şemada depolar. Çok boyutlu bir veritabanı olan OLAP, kullanıcının verilerin farklı kaynaklardan nasıl geldiğini anlamasını sağlar.

OLTP, Çevrimiçi İşlem ve İşleme anlamına gelir. Toplu işlemler ve büyük hacimli veriler içeren uygulamalarda kullanıldığından, doğası gereği OLAP'tan farklıdır. Bu uygulamalar öncelikle BFSI sektöründe bulunur. OLTP mimarisi, ağlar arası işlemleri destekleyebilen bir istemci-sunucu mimarisidir.

OLAP'ta bulunan farklı depolama modellerini adlandırın?

OLAP'ta bulunan farklı depolama modelleri şunlardır:

MOLAP (Çok Boyutlu Çevrimiçi Analitik İşleme) – Bu, verilerin standart ilişkisel veritabanları yerine çok boyutlu küplerde depolandığı bir veri depolama türüdür. Sorgu performansını mükemmel yapan bu özelliktir.
ROLAP (İlişkisel Çevrimiçi Analitik İşleme) – Bu veri depolamada, veriler ilişkisel veritabanlarında depolanır ve bu nedenle çok büyük miktarda veriyi işleyebilir.
HOLAP (Hibrit Çevrimiçi Analitik İşleme) – Bu, MOLAP ve ROLAP'ın bir birleşimidir. HOLAP, küpten özetlenmiş bilgileri çıkarmak için MOLAP modelini kullanırken, detaya inme yetenekleri için ROLAP modelini kullanır.

"Küp" nedir?

Veri Madenciliğinde "küp" terimi, verilerin depolandığı bir veri depolama alanını ifade eder. Verileri bir küpte depolamak, veri analizi sürecini hızlandırmaya yardımcı olur. Esasen küpler, çok boyutlu verilerin mantıksal temsilidir. Küpün kenarında boyut üyeleri bulunurken, küpün gövdesi veri değerlerini içerir.

Bir şirketin çalışan verilerini (kayıtlarını) bir küpte sakladığını varsayalım. Çalışan performansını haftalık veya aylık bazda değerlendirmek istendiğinde, hafta/ay küpün boyutları olur.

Veri Toplama ve Genelleme Nedir?

Veri Toplama, veri analizi için bir küp oluşturmak üzere verilerin birleştirildiği veya bir araya toplandığı süreçtir. Genelleme, verilerin genelleştirilebilmesi ve anlamlı içgörüler üretebilmesi için düşük düzeyli verilerin üst düzey kavramlarla değiştirilmesi işlemidir.

Karar Ağacı ve Zaman Serisi algoritmalarını açıklar.

Karar Ağacı algoritmasında her düğüm ya bir yaprak düğümdür ya da bir karar düğümüdür. Algoritmada bir nesneyi her girdiğinizde, bir karar üretir. Verilerin düzenlilikleri kullanılarak bir Karar Ağacı oluşturulur. Kök düğümü yaprak düğüme bağlayan tüm yollara 'VE' veya 'VEYA' veya 'BOTH' kullanılarak ulaşılır. Karar Ağacının Otomatik Veri Hazırlamadan etkilenmediğini belirtmek önemlidir.

Zaman Serisi algoritması, değerleri zamana bağlı olarak sürekli değişen veri türleri için kullanılır (örneğin, bir kişinin yaşı). Algoritmayı eğitip veri kümesini tahmin edecek şekilde ayarladığınızda, sürekli verileri başarıyla takip edebilir ve doğru tahminler yapabilir. Zaman Serisi algoritması, orijinal veri kümesine dayalı olarak verilerin gelecekteki eğilimlerini tahmin edebilen belirli bir model oluşturur.

kümeleme nedir?

Veri Madenciliğinde kümeleme, soyut nesneleri benzer nesneler içeren sınıflar halinde gruplamak için kullanılan süreçtir. Burada, bir veri nesnesi kümesi tek bir grup olarak ele alınır. Böylece, analiz işlemi sırasında, veri bölümü, daha sonra aynı verilere dayalı olarak etiketlenen gruplar halinde gerçekleşir. Küme analizi, yüksek düzeyde ölçeklenebilir ve boyutsal olduğu için Veri Madenciliği için çok önemlidir ve ayrıca farklı nitelikler, yorumlanabilirlik ve dağınık verilerle de başa çıkabilir.

Veri kümeleme, görüntü işleme, örüntü tanıma, dolandırıcılık tespiti ve pazar araştırması dahil olmak üzere çeşitli uygulamalarda kullanılır.

Veri Madenciliği sırasında karşılaşılan yaygın sorunlar nelerdir?

Veri Madenciliği işlemi sırasında aşağıdaki sorunlarla karşılaşabilirsiniz:

belirsizlik yönetimi
Eksik değerlerle başa çıkmak
Gürültülü verilerle başa çıkmak
Algoritmaların verimliliği
Alan bilgisinin dahil edilmesi
Verilerin boyutu ve karmaşıklığı
Veri seçimi
Veri ve keşfedilen bilgi arasındaki tutarsızlık.

İlginçlik Ölçüleri Belirtimi, Örüntü Sunumu ve Görselleştirme Belirtimi ve Görevle İlgili Veri Belirtimi için sözdizimini belirtin.

İlginçlik Ölçüleri Belirtiminin sözdizimi şöyledir:

<interest_measure_name> eşiği ile = eşik_değeri

Model Sunumu ve Görselleştirme Belirtimi için sözdizimi şöyledir:

<result_form> olarak göster

Görevle İlgili Veri Belirtimi sözdizimi şöyledir:

veritabanı veritabanı_adı kullan

veya

veri ambarı data_warehouse_name kullan

att_or_dim_list ile alakalı olarak

ilişki(ler)den/küp(ler)den [nerede koşul] order_list'e göre sırala

grouping_list'e göre gruplandır

Veri Madenciliğinde farklı analiz düzeylerini adlandırın?

Veri Madenciliğinde çeşitli analiz seviyeleri şunlardır:

kural tümevarım
Veri goruntuleme
genetik algoritmalar
yapay sinir ağı
En yakın komşu yöntemi

STİNG nedir?

STING, İstatistiksel Bilgi Izgarası anlamına gelir. Tüm nesnelerin dikdörtgen hücrelerde bulunduğu ızgara tabanlı, çok çözünürlüklü bir kümeleme yöntemidir. Hücreler çeşitli çözünürlük seviyelerinde tutulurken, bu seviyeler ayrıca hiyerarşik bir yapıda düzenlenir.

ETL nedir? En iyi ETL araçlarından bazılarını adlandırın.

ETL, Çıkarma, Dönüştürme ve Yükleme anlamına gelir. Belirtilen veri kaynağından verileri okuyabilen ve istenen bir veri alt kümesini çıkarabilen bir yazılımdır. Bundan sonra, kuralları ve arama tablolarını kullanarak verileri dönüştürür ve istenen forma dönüştürür. Son olarak, elde edilen verileri hedef veritabanına yüklemek için load işlevini kullanır.

En iyi ETL araçları şunlardır:

kehanet
Ab Initio
Veri Aşaması
bilişim
Veri Kavşağı
Depo Oluşturucusu

Meta Veri nedir?

Basit bir deyişle, meta veriler, daha büyük veri kümesine yol açan özetlenmiş verilerdir. Meta veriler, kullanılan sütun sayısı, alanların sırası, alanların veri türleri, sabit genişlik ve sınırlı genişlik vb. gibi önemli bilgileri içerir.

Veri Madenciliğinin avantajları nelerdir?

Veri Madenciliğinin dört temel avantajı vardır:

Ham verileri anlamlandırmaya ve verilerde saklı kalıpları keşfetmeye, tanımlamaya ve anlamaya yardımcı olur.
Büyük veritabanlarında tahmine dayalı bilgileri bulma sürecini otomatikleştirmeye yardımcı olur, böylece önceden gizlenmiş kalıpları hemen tanımlamaya yardımcı olur.
Verileri taramaya ve doğrulamaya ve nereden geldiğini anlamaya yardımcı olur.
Daha hızlı ve daha iyi karar vermeyi teşvik ederek işletmelerin gelirlerini artırmak ve işletme maliyetlerini düşürmek için gerekli önlemleri almasına yardımcı olur.

Bunlar, Veri Madenciliğinin pazarlama, reklamcılık, BT/ITES, iş zekası ve hatta devlet zekası dahil olmak üzere çok sayıda endüstrinin ayrılmaz bir parçası haline gelmesinin nedenleridir.

Bu Veri Madenciliği mülakat sorularının ve cevaplarının Veri Madenciliği ile buzları kırmanıza yardımcı olacağını umuyoruz. Bunlar bilmeniz gereken birkaç temel seviye soru olsa da, akışa girmenize ve konuyu daha derine inmenize yardımcı olacaktır.

Veri bilimi hakkında bilgi edinmek istiyorsanız, IIIT-B & upGrad'ın çalışan profesyoneller için oluşturulmuş ve 10'dan fazla vaka çalışması ve proje, uygulamalı uygulamalı atölye çalışmaları, endüstri uzmanlarıyla mentorluk, 1 Endüstri danışmanlarıyla bire bir, en iyi firmalarla 400+ saat öğrenim ve iş yardımı.

Karar ağacı algoritması kullanmanın sakıncaları nelerdir?

Verilerdeki küçük bir değişiklik bile karar ağacının yapısında önemli bir değişikliğe neden olarak kararsızlığa neden olabilir. Diğer algoritmalarla karşılaştırıldığında, bir karar ağacının hesaplanması bazen oldukça karmaşık olabilir. Karar ağacı eğitimi, gereken karmaşıklık ve zaman nedeniyle nispeten pahalıdır. Karar Ağacı tekniği, regresyon uygulamak ve sürekli değerleri tahmin etmek söz konusu olduğunda başarısız olur.

Veri madenciliği kümeleme ve sınıflandırma arasındaki fark nedir?

Kümeleme, denetimsiz öğrenme tekniğidir, sınıflandırma ise denetimli öğrenmenin bir yoludur. Kümeleme, ortak noktalarına göre veri noktalarını kümeler halinde gruplandırma sürecidir. Sınıflandırma, girdi verilerinin çıktı değişkeninin sınıf etiketlerinden biriyle etiketlenmesini gerektirir. Kümeleme, veri kümesini alt gruplara bölerek benzer işlevselliğe sahip örneklerin birlikte gruplandırılmasına olanak tanır. Etiketlenmiş verilere veya çalışmak için bir eğitim setine dayanmaz. Sınıflandırma ise eğitim setinden elde edilen gözlemlere dayalı olarak yeni verileri sınıflandırır.

Veri madenciliğinin dezavantajları var mı?

Veri madenciliği kullanıldığında birçok gizlilik sorunu ortaya çıkar. Veri madenciliği kendi yolunda basit veri toplama yolunu açmış olmasına rağmen. Kesinlik söz konusu olduğunda, hala belirli sınırları vardır. Elde edilen veriler yanlış olabilir ve karar vermede sorunlar yaratabilir. Veri madenciliği için veri toplama prosedürü çok fazla teknoloji kullanır. Oluşturulan her veri parçası kendi depolama ve bakımını gerektirir. Bunun bir sonucu olarak uygulama maliyeti fırlayabilir.