20 個數據挖掘面試題

已發表: 2020-02-10

這意味著 AI 和 ML 將有大量的工作範圍，並且由於數據挖掘是兩者不可或缺的一部分，因此您必須在數據挖掘方面打下堅實的基礎。數據挖掘是指用於將原始數據轉換為可供企業和組織使用的有意義的見解的技術。數據挖掘的一些基本方麵包括數據和數據庫管理、數據預處理、數據驗證、在線更新以及發現隱藏在復雜數據集中的有價值的模式。從本質上講，數據挖掘專注於對大量數據的自動分析，以從中提取隱藏的趨勢和見解。這正是為什麼如果你想在 AI/ML 中找到夢想的工作，你必須準備好回答面試官提出的任何數據挖掘問題。

學習世界頂尖大學的數據科學認證課程。 獲得行政 PG 課程、高級證書課程或碩士課程，以加快您的職業生涯。

在這篇文章中，我們整理了一份最常見的數據挖掘面試問題列表。它涵蓋了每個 AI/ML 有志者必須了解的所有級別的數據挖掘面試問題和概念（基礎和高級）。

所以，事不宜遲，讓我們開始吧！

命名不同的數據挖掘技術並解釋數據挖掘的範圍。

不同的數據挖掘技術是：

預測——它發現獨立實例和依賴實例之間的關係。例如，在考慮銷售數據時，如果您希望預測未來的利潤，則銷售充當獨立實例，而利潤則是依賴實例。因此，根據銷售和利潤的歷史數據，相關利潤為預測值。
決策樹——決策樹的根用作具有多個答案的條件/問題。每個答案都會導致特定的數據，這些數據有助於根據數據確定最終決定。
順序模式——指用於在交易數據或常規事件中發現相同模式的模式分析。例如，客戶的歷史數據有助於品牌識別過去一年發生的交易模式。
聚類分析——在這種技術中，自動形成具有相似特徵的對象集群。聚類方法定義類，然後在每個類中放置合適的對象。
分類分析——在這種基於 ML 的方法中，特定集合中的每個項目都被分類到預定義的組中。它使用先進的技術，如線性規劃、神經網絡、決策樹等。
關聯規則學習——此方法基於單個事務中項目的關係創建模式。

數據挖掘的範圍是：

預測趨勢和行為——數據挖掘自動化了在大型數據集/數據庫中識別預測信息的過程。
發現以前未知的模式- 數據挖掘工具掃描和抓取廣泛而多樣的數據庫，以識別以前隱藏的趨勢。這不過是一個模式發現過程。

數據挖掘的類型有哪些？

數據挖掘可以分為以下幾種類型：

一體化
選擇
數據清洗
模式評估
數據轉換
知識表示

什麼是數據清除？

數據清除是數據庫管理系統中的一個關鍵過程。它有助於在數據庫中維護相關數據。它是指通過消除或刪除行和列的不必要的NULL值來清理垃圾數據的過程。每當您需要在數據庫中加載新數據時，首先必須清除不相關的數據。

通過對數據庫進行頻繁的數據清理，可以擺脫佔用大量數據庫內存的垃圾數據，從而降低數據庫的性能。

數據倉庫和數據挖掘之間的根本區別是什麼？

數據倉庫是用於從不同來源提取數據的技術。然後將其清潔並儲存以備將來使用。另一方面，數據挖掘是使用查詢探索提取的數據，然後分析結果或結果的過程。它對於報告、戰略規劃和可視化數據中的寶貴見解至關重要。

解釋數據挖掘的不同階段。

數據挖掘的三個主要階段：

探索——這個階段主要集中於從多個來源收集數據，並為進一步的活動（如清理和轉換）做準備。一旦數據被清理和轉換，就可以對其進行分析以獲得洞察力。

模型構建和驗證——這個階段涉及通過應用不同的模型來驗證數據並比較結果以獲得最佳性能。此步驟也稱為模式識別。這是一個耗時的過程，因為用戶必須手動識別哪種模式最適合輕鬆預測。

部署——一旦確定了最適合的預測模式，就會將其應用於數據集以獲得估計的預測或結果。

數據挖掘查詢有什麼用？

數據挖掘查詢有助於將模型應用於新數據，以生成單個或多個結果。查詢可以更有效地檢索符合特定模式的案例。它們提取訓練數據的統計記憶，並幫助獲得準確的模式以及代表模型中模式的典型案例的規則。此外，查詢可以提取回歸公式和其他計算來解釋模式。他們還可以檢索有關模型中使用的各個案例的詳細信息。

什麼是數據挖掘中的“離散”和“連續”數據？

在數據挖掘中，離散數據是有限的並且具有附加意義的數據。性別是離散數據的典型例子。另一方面，連續數據是以結構良好的方式持續變化的數據。年齡是連續數據的完美示例。

什麼是 OLAP？ 它與 OLTP 有何不同？

OLAP（在線分析處理）是一種用於許多涉及復雜分析計算的商業智能應用程序的技術。除了複雜的計算，OLAP 還用於趨勢分析和高級數據建模。使用 OLAP 系統的主要目的是最小化查詢響應時間，同時提高報告的有效性。 OLAP 數據庫將聚合的歷史數據存儲在多維模式中。作為一個多維數據庫，OLAP 允許用戶了解數據是如何通過不同來源的。

OLTP 代表在線交易和處理。它本質上不同於 OLAP，因為它用於涉及批量事務和大量數據的應用程序。這些應用主要存在於 BFSI 領域。 OLTP 架構是一種客戶端-服務器架構，可以支持跨網絡事務。

說出 OLAP 中可用的不同存儲模型？

OLAP 中可用的不同存儲模型有：

MOLAP（多維在線分析處理）——這是一種數據存儲類型，其中數據存儲在多維立方體中，而不是標準的關係數據庫中。正是這個特性使得查詢性能非常出色。
ROLAP（關係在線分析處理）——在這種數據存儲中，數據存儲在關係數據庫中，因此它能夠處理大量數據。
HOLAP（混合在線分析處理）——這是 MOLAP 和 ROLAP 的組合。 HOLAP 使用 MOLAP 模型從多維數據集中提取匯總信息，而對於向下鑽取功能，它使用 ROLAP 模型。

什麼是“立方體”？

在數據挖掘中，術語“立方體”是指存儲數據的數據存儲空間。將數據存儲在多維數據集中有助於加快數據分析過程。本質上，多維數據集是多維數據的邏輯表示。多維數據集的邊緣具有維度成員，而多維數據集的主體包含數據值。

假設一家公司將其員工數據（記錄）存儲在一個多維數據集中。當它希望基於每週或每月評估員工績效時，那麼週/月就成為立方體的維度。

什麼是數據聚合和泛化？

數據聚合是將數據組合或聚合在一起以創建用於數據分析的多維數據集的過程。泛化是用高級概念替換低級數據的過程，以便數據可以被泛化並產生有意義的見解。

解釋決策樹和時間序列算法。

在決策樹算法中，每個節點要么是葉節點，要么是決策節點。每次你在算法中輸入一個對象，它都會產生一個決定。使用數據的規律性創建決策樹。通過使用“AND”或“OR”或“BOTH”可以到達將根節點連接到葉節點的所有路徑。需要注意的是，決策樹不受自動數據準備的影響。

時間序列算法用於值隨時間不斷變化的數據類型（例如，一個人的年齡）。當您訓練算法並對其進行調整以預測數據集時，它可以成功地跟踪連續數據並做出準確的預測。時間序列算法創建一個特定的模型，可以根據原始數據集預測數據的未來趨勢。

什麼是聚類？

在數據挖掘中，聚類是用於將抽像對象分組為包含相似對象的類的過程。在這裡，一組數據對像被視為一個組。因此，在分析過程中，數據分區發生在組中，然後根據相同的數據進行標記。聚類分析是數據挖掘的關鍵，因為它具有高度的可擴展性和維度，並且它還可以處理不同的屬性、可解釋性和混亂的數據。

數據聚類用於多種應用，包括圖像處理、模式識別、欺詐檢測和市場研究。

數據挖掘過程中常見的問題有哪些？

在數據挖掘過程中，您可能會遇到以下問題：

不確定性處理
處理缺失值
處理嘈雜的數據
算法的效率
結合領域知識
數據的大小和復雜性
數據選擇
數據與發現的知識之間的不一致。

指定語法——興趣度量規範、模式表示和可視化規範以及任務相關數據規範。

興趣度量規範的語法是：

<interest_measure_name> 閾值 = 閾值

模式表示和可視化規範的語法是：

顯示為 <result_form>

任務相關數據規範的語法是：

使用數據庫 database_name

要么

使用數據倉庫 data_warehouse_name

與 att_or_dim_list 相關

從關係/多維數據集 [where 條件] order by order_list

按 grouping_list 分組

說出數據挖掘中不同級別的分析？

數據挖掘中的各種分析級別是：

規則歸納
數據可視化
遺傳算法
人工神經網絡
最近鄰法

什麼是 STING？

STING 代表統計信息網格。它是一種基於網格的多分辨率聚類方法，其中所有對像都包含在矩形單元中。雖然單元保持在不同級別的分辨率中，但這些級別進一步排列在層次結構中。

什麼是 ETL？ 列舉一些最好的 ETL 工具。

ETL 代表提取、轉換和加載。它是一種可以從指定數據源讀取數據並提取所需數據子集的軟件。在此之後，它使用規則和查找表轉換數據並將其轉換為所需的形式。最後，它使用 load 函數將結果數據加載到目標數據庫中。

最好的 ETL 工具是：

甲骨文
從頭算起
數據階段
信息學
數據連接
倉庫建設者

什麼是元數據？

簡而言之，元數據是導致更大數據集的匯總數據。元數據包含重要信息，如使用的列數、字段的順序、字段的數據類型、固定寬度和限制寬度等。

數據挖掘的優勢是什麼？

數據挖掘有四個核心優勢：

它有助於理解原始數據並探索、識別和理解隱藏在數據中的模式。
它有助於自動化在大型數據庫中查找預測信息的過程，從而有助於及時識別以前隱藏的模式。
它有助於篩选和驗證數據並了解數據的來源。
它促進更快、更好的決策制定，從而幫助企業採取必要的行動來增加收入和降低運營成本。

這就是為什麼數據挖掘已成為眾多行業不可或缺的一部分的原因，包括營銷、廣告、IT/ITES、商業智能，甚至政府情報。

我們希望這些數據挖掘面試問題及其答案能幫助您打破數據挖掘的僵局。雖然這些只是您必須知道的幾個基本問題，但它們將幫助您進入流程並更深入地研究主題。

如果您想了解數據科學，請查看 IIIT-B 和 upGrad 的數據科學執行 PG 計劃，該計劃是為在職專業人士創建的，提供 10 多個案例研究和項目、實用的實踐研討會、與行業專家的指導、1與行業導師一對一，400 多個小時的學習和頂級公司的工作協助。

使用決策樹算法有什麼缺點？

即使數據的微小變化也可能導致決策樹結構發生重大變化，從而導致不穩定。與其他算法相比，決策樹的計算有時可能相當複雜。由於所需的複雜性和時間，決策樹訓練相對昂貴。決策樹技術在應用回歸和預測連續值時失敗了。

數據挖掘聚類和分類有什麼區別？

聚類是一種無監督學習的技術，而分類是一種監督學習的方式。聚類是根據數據點的共性將數據點分組為聚類的過程。分類需要使用輸出變量的類別標籤之一來標記輸入數據。聚類將數據集拆分為子組，允許將具有相似功能的示例組合在一起。它不依賴標記數據或訓練集來工作。另一方面，分類是根據來自訓練集的觀察對新數據進行分類。

數據挖掘有什麼缺點嗎？

使用數據挖掘時會出現許多隱私問題。儘管數據挖掘以自己的方式為簡單的數據收集開闢了道路。在精度方面，它仍然有一定的局限性。獲得的數據可能不正確，從而產生決策問題。數據挖掘的數據收集過程使用了大量的技術。創建的每條數據都需要自己的存儲和維護。因此，實施成本可能會飆升。