알아야 할 가장 일반적인 10가지 데이터 마이닝 알고리즘

게시 됨: 2019-12-02

데이터 마이닝은 대규모 데이터 세트에서 패턴과 반복을 찾는 프로세스이며 컴퓨터 과학의 한 분야입니다. 데이터 마이닝 기술 및 알고리즘은 인공 지능 및 데이터 과학에서 광범위하게 사용됩니다. 많은 알고리즘이 있지만 데이터 마이닝 알고리즘 목록의 상위 10개에 대해 논의해 보겠습니다.

상위 10개 데이터 마이닝 알고리즘
- 1. C4.5 알고리즘
- 2. K-평균 알고리즘
- 3. 벡터 머신 지원
- 4. 선험적 알고리즘
- 5. 기대 최대화 알고리즘
- 6. PageRank 알고리즘
- 7. 아다부스트 알고리즘
- 8. kNN 알고리즘
- 9. 나이브 베이즈 알고리즘
- 10. 카트 알고리즘
결론
데이터 마이닝에 CART 알고리즘을 사용할 때의 제한 사항은 무엇입니까?
k-means 알고리즘에서 'K'는 정확히 무엇을 의미합니까?
KNN 알고리즘에서 underfitting이란 무엇을 의미합니까?

상위 10개 데이터 마이닝 알고리즘

1. C4.5 알고리즘

C4.5는 최고의 데이터 마이닝 알고리즘 중 하나이며 Ross Quinlan이 개발했습니다. C4.5는 이미 분류된 데이터 집합에서 결정 트리 형태의 분류기를 생성하는 데 사용됩니다. 여기서 분류기는 분류해야 할 데이터를 가져와 새로운 데이터의 클래스를 예측하는 데이터 마이닝 도구를 말합니다.

모든 데이터 포인트에는 고유한 속성이 있습니다. C4.5에서 생성한 의사 결정 트리는 속성 값에 대한 질문을 제기하고 해당 값에 따라 새 데이터가 분류됩니다. 훈련 데이터 세트는 C4.5를 지도 학습 알고리즘으로 만드는 lasses로 레이블이 지정됩니다. 의사 결정 트리는 다른 데이터 마이닝 알고리즘에 비해 C4.5를 빠르고 대중적으로 만드는 것을 항상 해석하고 설명하기 쉽습니다.

코딩 경험이 필요하지 않습니다. 360° 경력 지원. IIIT-B 및 upGrad에서 기계 학습 및 AI PG 디플로마.

2. K-평균 알고리즘

가장 일반적인 클러스터링 알고리즘 중 하나인 k-means는 객체 간의 유사성을 기반으로 객체 세트에서 k개의 그룹을 생성하여 작동합니다. 그룹 구성원이 완전히 유사하다고 보장할 수는 없지만 그룹 구성원은 비그룹 구성원에 비해 더 유사합니다. 표준 구현에 따라 k-means는 외부 정보 없이 클러스터를 자체적으로 학습하는 비지도 학습 알고리즘입니다.

3. 벡터 머신 지원

작업 측면에서 SVM(Support Vector Machine)은 SVM이 의사 결정 트리를 전혀 사용하지 않는다는 점을 제외하고는 C4.5 알고리즘과 유사하게 작동합니다. SVM은 데이터 세트를 학습하고 초평면을 정의하여 데이터를 두 가지 클래스로 분류합니다. 초평면은 " y = mx + b" 와 같이 보이는 선에 대한 방정식입니다 . SVM은 데이터를 더 높은 차원으로 투영하기 위해 과장합니다. 일단 투영되면 SVM은 데이터를 두 클래스로 분리하기 위한 최상의 초평면을 정의했습니다.

4. 선험적 알고리즘

Apriori 알고리즘은 연관 규칙을 학습하여 작동합니다. 연관 규칙은 데이터베이스의 변수 간의 상관 관계를 학습하는 데 사용되는 데이터 마이닝 기술입니다. 연관 규칙이 학습되면 많은 수의 트랜잭션이 포함된 데이터베이스에 적용됩니다. Apriori 알고리즘은 흥미로운 패턴과 상호 관계를 발견하는 데 사용되므로 비지도 학습 접근 방식으로 취급됩니다. 알고리즘이 매우 효율적이라고 생각하고 많은 메모리를 소비하고 많은 디스크 공간을 사용하며 많은 시간이 걸립니다.

5. 기대 최대화 알고리즘

EM(Expectation-Maximization)은 지식 발견을 위한 k-means 알고리즘과 마찬가지로 클러스터링 알고리즘으로 사용됩니다. EM 알고리즘은 관찰된 데이터를 볼 가능성을 최적화하기 위해 반복적으로 작동합니다. 다음으로, 관측되지 않은 변수로 통계 모델의 매개변수를 추정하여 일부 관측 데이터를 생성합니다. EM(Expectation-Maximization) 알고리즘은 레이블이 지정된 클래스 정보를 제공하지 않고 사용하기 때문에 다시 비지도 학습입니다.

6. PageRank 알고리즘

PageRank는 일반적으로 Google과 같은 검색 엔진에서 사용됩니다. 객체 네트워크 내에서 연결된 객체의 상대적 중요도를 결정하는 링크 분석 알고리즘입니다. 링크 분석은 객체 간의 연관성을 탐색하는 네트워크 분석 유형입니다. Google 검색은 웹 페이지 간의 백링크를 이해하여 이 알고리즘을 사용합니다.

그것은 구글이 웹페이지의 상대적 중요성을 결정하고 구글 검색 엔진에서 더 높은 순위를 매기기 위해 사용하는 방법 중 하나입니다. PageRank 상표는 Google의 소유이며 PageRank 알고리즘은 Stanford University에서 특허를 받았습니다. PageRank는 링크를 고려하여 상대적 중요성을 결정하고 다른 입력이 필요하지 않기 때문에 비지도 학습 접근 방식으로 처리됩니다.

7. 아다부스트 알고리즘

AdaBoost는 분류기를 구성하는 데 사용되는 부스팅 알고리즘입니다. 분류기는 입력을 기반으로 데이터의 클래스를 예측하는 데이터를 가져오는 데이터 마이닝 도구입니다. 부스팅 알고리즘은 여러 학습 알고리즘을 실행하고 결합하는 앙상블 학습 알고리즘입니다.

부스팅 알고리즘은 약한 학습자 그룹을 취하여 단일 강력한 학습자를 만들기 위해 결합합니다. 약한 학습자는 정확도가 낮은 데이터를 분류합니다. 약한 알고리즘의 가장 좋은 예는 기본적으로 1단계 결정 트리인 결정 스텀프 알고리즘입니다. Adaboost는 반복에서 작동하고 각 반복에서 레이블이 지정된 데이터 세트로 약한 학습자를 훈련하므로 완벽한 지도 학습입니다. Adaboost는 구현하기에 간단하고 매우 간단한 알고리즘입니다.

사용자가 라운드 수를 지정한 후 각각의 연속적인 AdaBoost 반복은 최고의 학습자 각각에 대한 가중치를 재정의합니다. 이것은 Adaboost를 분류기를 자동 조정하는 매우 우아한 방법으로 만듭니다. Adaboost는 대부분의 학습 알고리즘을 통합할 수 있고 다양한 데이터를 처리할 수 있으므로 유연하고 다재다능하며 우아합니다.

읽기: 데이터 마이닝의 가장 일반적인 예

8. kNN 알고리즘

kNN은 분류 알고리즘으로 사용되는 지연 학습 알고리즘입니다. 게으른 학습자는 훈련 데이터를 저장하는 것 외에는 훈련 과정에서 아무 것도 하지 않습니다. 게으른 학습자는 레이블이 지정되지 않은 새로운 데이터가 입력으로 제공될 때만 분류를 시작합니다. 반면에 C4.5, SVN 및 Adaboost는 학습 자체 중에 분류 모델을 구축하기 시작하는 열성 학습자입니다. kNN에는 레이블이 지정된 학습 데이터 세트가 제공되므로 지도 학습 알고리즘으로 처리됩니다.

9. 나이브 베이즈 알고리즘

Naive Bayes는 단일 알고리즘으로 효율적으로 작동하는 것으로 볼 수 있지만 단일 알고리즘은 아닙니다. Naive Bayes는 분류 알고리즘의 묶음입니다. 알고리즘 제품군에서 사용하는 가정은 분류되는 데이터의 모든 기능이 클래스에 제공된 다른 모든 기능과 독립적이라는 것입니다. Naive Bayes는 테이블을 구성하기 위해 레이블이 지정된 훈련 데이터 세트와 함께 제공됩니다. 따라서 지도 학습 알고리즘으로 취급됩니다.

데이터 과학 고급 인증, 250명 이상의 고용 파트너, 300시간 이상의 학습, 0% EMI

10. 카트 알고리즘

CART는 분류 및 회귀 트리를 나타냅니다. 회귀 또는 분류 트리를 출력으로 제공하는 의사결정 트리 학습 알고리즘입니다. CART에서 의사결정 트리 노드는 정확히 2개의 분기를 갖습니다. C4.5와 마찬가지로 CART도 분류기입니다. 회귀 또는 분류 트리 모델은 사용자가 제공한 레이블이 지정된 훈련 데이터 세트를 사용하여 구성됩니다. 따라서 지도 학습 기법으로 취급됩니다.

결론

다음은 데이터 마이닝 알고리즘 목록의 상위 10개 데이터입니다. 우리는 이 기사가 이러한 알고리즘을 기반으로 하는 약간의 빛을 발산하기를 바랍니다.

데이터 과학에 대해 자세히 알아보려면 IIIT-B 및 upGrad의 데이터 과학 이그 제 큐 티브 PG 프로그램을 확인하십시오. 이 프로그램은 일하는 전문가가 직장을 떠나지 않고 자신의 기술을 향상시킬 수 있도록 고안되었습니다. 이 과정은 업계 멘토와 일대일, Easy EMI 옵션, IIIT-B 동문 자격 등을 제공합니다. 자세히 알아보려면 확인하세요.

데이터 마이닝에 CART 알고리즘을 사용할 때의 제한 사항은 무엇입니까?

CART가 사용되는 최고의 데이터 마이닝 알고리즘 중 하나라는 데는 의심의 여지가 없지만 몇 가지 단점이 있습니다. 트리 구조는 데이터셋에 약간의 변경이 발생하면 불안정해지며, 불안정한 구조로 인한 편차가 발생합니다. 클래스의 균형이 맞지 않으면 의사 결정 트리 학습자가 underfit 트리를 생성합니다. 그렇기 때문에 데이터 세트를 의사 결정 트리에 맞추기 전에 데이터 세트의 균형을 맞추는 것이 좋습니다.

k-means 알고리즘에서 'K'는 정확히 무엇을 의미합니까?

데이터 마이닝 프로세스에 k-mean 알고리즘을 사용하는 동안 'k'인 대상 번호를 찾아야 하며 이는 데이터 세트에서 필요한 중심의 수입니다. 실제로 이 알고리즘은 레이블이 지정되지 않은 포인트를 'k'개의 클러스터로 그룹화하려고 시도합니다. 따라서 'k'는 끝에 필요한 클러스터 수를 나타냅니다.

KNN 알고리즘에서 underfitting이란 무엇을 의미합니까?

이름에서 알 수 있듯이 underfitting은 모델이 적합하지 않거나 데이터를 정확하게 예측할 수 없는 경우를 의미합니다. 과적합 또는 과소적합은 선택한 'K' 값에 따라 다릅니다. 큰 데이터 세트의 경우 작은 값 'K'를 선택하면 과적합 가능성이 높아집니다.