你應該知道的 10 個最常見的數據挖掘算法
已發表: 2019-12-02數據挖掘是在大型數據集中尋找模式和重複的過程,是計算機科學的一個領域。 數據挖掘技術和算法在人工智能和數據科學中得到了廣泛的應用。 有很多算法,但讓我們討論數據挖掘算法列表中的前 10 種算法。
目錄
十大數據挖掘算法
1. C4.5算法
C4.5 是頂級數據挖掘算法之一,由 Ross Quinlan 開發。 C4.5 用於從一組已經分類的數據中生成決策樹形式的分類器。 這裡的分類器是指一種數據挖掘工具,它獲取我們需要分類的數據,並嘗試預測新數據的類別。
每個數據點都有自己的屬性。 C4.5 創建的決策樹提出了一個關於屬性值的問題,並根據這些值對新數據進行分類。 訓練數據集用 lasses 標記,使 C4.5 成為監督學習算法。 與其他數據挖掘算法相比,決策樹總是易於解釋和解釋,這使得 C4.5 快速且流行。
無需編碼經驗。 360° 職業支持。 來自 IIIT-B 和 upGrad 的機器學習和人工智能 PG 文憑。2. K-mean算法
作為最常見的聚類算法之一,k-means 的工作原理是根據對象之間的相似性從一組對像中創建 ak 數量的組。 不能保證組成員完全相似,但組成員與非組成員相比會更相似。 根據標準實現,k-means 是一種無監督學習算法,因為它在沒有任何外部信息的情況下自行學習集群。
3. 支持向量機
在任務方面,支持向量機 (SVM) 的工作原理類似於 C4.5 算法,只是 SVM 根本不使用任何決策樹。 SVM 學習數據集並定義超平面以將數據分為兩類。 超平面是看起來像“ y = mx + b”的直線的方程。 SVM 誇大將您的數據投影到更高維度。 投影后,SVM 定義了最好的超平面來將數據分成兩類。
4. Apriori 算法
Apriori 算法通過學習關聯規則來工作。 關聯規則是一種數據挖掘技術,用於學習數據庫中變量之間的相關性。 一旦學習了關聯規則,就會將其應用於包含大量事務的數據庫。 Apriori 算法用於發現有趣的模式和相互關係,因此被視為一種無監督學習方法。 認為該算法效率很高,它消耗大量內存,佔用大量磁盤空間並花費大量時間。
5. 期望最大化算法
期望最大化 (EM) 被用作聚類算法,就像用於知識發現的 k-means 算法一樣。 EM 算法在迭代中工作以優化查看觀察數據的機會。 接下來,它用未觀察到的變量估計統計模型的參數,從而生成一些觀察到的數據。 期望最大化(EM)算法又是無監督學習,因為我們使用它時沒有提供任何標記的類信息
6. PageRank算法
PageRank 常被 Google 等搜索引擎使用。 它是一種鏈接分析算法,用於確定在對象網絡中鏈接的對象的相對重要性。 鏈接分析是一種探索對象之間關聯的網絡分析。 谷歌搜索通過了解網頁之間的反向鏈接來使用此算法。

這是谷歌用來確定網頁的相對重要性並在谷歌搜索引擎上排名更高的方法之一。 PageRank 商標是 Google 的專利,PageRank 算法是斯坦福大學的專利。 PageRank 被視為一種無監督學習方法,因為它僅通過考慮鏈接來確定相對重要性,並且不需要任何其他輸入。
7. Adaboost 算法
AdaBoost 是一種用於構建分類器的提升算法。 分類器是一種數據挖掘工具,它根據輸入數據預測數據的類別。 Boosting算法是一種集成學習算法,它運行多種學習算法並將它們組合起來。
Boosting 算法採用一組弱學習器並將它們組合成一個強學習器。 弱學習器對數據的分類精度較低。 弱算法的最好例子是決策樹樁算法,它基本上是一個單步決策樹。 Adaboost 是完美的監督學習,因為它在迭代中工作,並且在每次迭代中,它使用標記數據集訓練較弱的學習者。 Adaboost 是一種簡單且非常直接的算法,可以實現。
在用戶指定輪數後,每次連續的 AdaBoost 迭代都會重新定義每個最佳學習器的權重。 這使得 Adaboost 成為一種超級優雅的自動調整分類器的方法。 Adaboost 靈活、通用且優雅,因為它可以整合大多數學習算法,並且可以處理大量數據。
閱讀:最常見的數據挖掘示例
8.kNN算法
kNN 是一種惰性學習算法,用作分類算法。 一個懶惰的學習者在訓練過程中除了存儲訓練數據外不會做任何事情。 懶惰的學習者只有在新的未標記數據作為輸入時才開始分類。 另一方面,C4.5、SVN 和 Adaboost 是急切的學習者,它們在訓練過程中開始構建分類模型。 由於 kNN 被給定一個帶標籤的訓練數據集,因此它被視為一種監督學習算法。
9. 樸素貝葉斯算法
樸素貝葉斯不是一個單一的算法,儘管它可以被看作是一個單一的算法有效地工作。 樸素貝葉斯是一堆分類算法放在一起。 該系列算法使用的假設是,被分類數據的每個特徵都獨立於該類中給出的所有其他特徵。 樸素貝葉斯提供了一個帶標籤的訓練數據集來構建表格。 因此它被視為一種監督學習算法。
數據科學高級認證、250 多個招聘合作夥伴、300 多個學習小時、0% EMI10. 購物車算法
CART 代表分類和回歸樹。 它是一種決策樹學習算法,可以將回歸樹或分類樹作為輸出。 在 CART 中,決策樹節點恰好有 2 個分支。 就像 C4.5 一樣,CART 也是一個分類器。 回歸或分類樹模型是使用用戶提供的標記訓練數據集構建的。 因此,它被視為一種監督學習技術
結論
所以這裡是數據挖掘算法列表中的前 10 個數據。 我們希望這篇文章能夠在這些算法的基礎上有所啟發。
如果您想了解有關數據科學的更多信息,請查看 IIIT-B 和 upGrad 的數據科學執行 PG 計劃,該計劃旨在讓在職專業人士在不離職的情況下提升自己的技能。 該課程提供一對一的行業導師、Easy EMI 選項、IIIT-B 校友身份等等。 查看以了解更多信息。
使用 CART 算法進行數據挖掘有哪些限制?
毫無疑問,CART 是最常用的數據挖掘算法之一,但它確實有一些缺點。 如果數據集發生微小變化,樹結構就會變得不穩定,從而由於結構不穩定而導致方差。 如果類不平衡,則決策樹學習器會創建欠擬合樹。 這就是為什麼在將數據集與決策樹擬合之前強烈建議平衡數據集的原因。
k-means 算法中的“K”到底是什麼意思?
在使用 k-mean 算法進行數據挖掘過程時,您必須找到一個目標數,即“k”,它是您在數據集中需要的質心數。 實際上,該算法試圖將一些未標記的點分組到“k”個簇中。 因此,“k”代表您最終需要的集群數量。
在KNN算法中,欠擬合是什麼意思?
顧名思義,欠擬合意味著模型不適合,或者換句話說,無法準確預測數據。 過度擬合或欠擬合確實取決於您選擇的“K”值。 在大型數據集的情況下選擇較小的“K”值會增加過度擬合的機會。