클러스터링 대 분류: 클러스터링과 분류의 차이점
게시 됨: 2020-12-01목차
소개
기계 학습 알고리즘은 일반적으로 출력 변수의 유형과 해결해야 하는 문제 유형에 따라 분류됩니다. 이러한 알고리즘은 크게 회귀(Regression), 클러스터링(Clustering) 및 분류(Classification)의 세 가지 유형으로 나뉩니다. 회귀 및 분류는 지도 학습 알고리즘 유형이고 클러스터링은 비지도 알고리즘 유형입니다.
출력 변수가 연속적이면 회귀 문제이고 이산 값을 포함하면 분류 문제입니다. 클러스터링 알고리즘은 일반적으로 데이터 포인트의 특성을 기반으로 클러스터를 생성해야 할 때 사용됩니다. 이 기사는 클러스터링, 분류에 대한 간략한 소개를 제공하고 둘 사이의 몇 가지 차이점을 나열하는 데 중점을 둡니다.
코딩 경험이 필요하지 않습니다. 360° 경력 지원. IIIT-B 및 upGrad에서 기계 학습 및 AI PG 디플로마.분류
분류는 지도 머신 러닝 알고리즘의 한 유형입니다. 주어진 입력에 대해 분류 알고리즘은 출력 변수의 클래스를 예측하는 데 도움이 됩니다. 이진 분류, 다중 클래스 분류 등과 같은 여러 유형의 분류가 있을 수 있습니다. 이는 출력 변수의 클래스 수에 따라 다릅니다.
분류 알고리즘의 유형
로지스틱 회귀 : – 분류에 사용할 수 있는 선형 모델 중 하나입니다. Sigmoid 함수를 사용하여 특정 이벤트가 발생할 확률을 계산합니다. 이진 변수의 분류에 이상적인 방법입니다.
K-Nearest Neighbors(kNN) : – 유클리드 거리, 맨해튼 거리 등과 같은 거리 메트릭을 사용하여 다른 모든 데이터 포인트에서 한 데이터 포인트의 거리를 계산합니다. 출력을 분류하기 위해 각 데이터 포인트의 k개의 가장 가까운 이웃으로부터 다수결을 취합니다.
의사 결정 트리 : – 로지스틱 회귀와 같은 선형 알고리즘의 몇 가지 단점을 극복한 비선형 모델입니다. 노드와 잎을 포함하는 트리 구조의 형태로 분류 모델을 구축합니다. 이 알고리즘은 구조를 더 작은 구조로 분해하고 최종 결과를 제공하는 데 도움이 되는 여러 if-else 문을 포함합니다. 회귀 및 분류 문제에 사용할 수 있습니다.
Random Forest : – 목표 변수의 결과를 예측하기 위해 여러 개의 의사 결정 트리를 포함하는 앙상블 학습 방법입니다. 각 의사 결정 트리는 고유한 결과를 제공합니다. 분류 문제의 경우 최종 결과를 분류하기 위해 이러한 다중 결정 트리의 과반수 투표가 필요합니다. 회귀 문제의 경우 의사 결정 트리에서 예측한 값의 평균을 취합니다.
Naive Bayes : – Bayes의 정리를 기반으로 하는 알고리즘입니다. 특정 기능이 다른 기능의 포함과 무관하다고 가정합니다. 즉, 서로 상관 관계가 없습니다. 대부분의 데이터 세트에서 기능 간에 일종의 관계가 있기 때문에 일반적으로 이 가정으로 인해 복잡한 데이터에서는 잘 작동하지 않습니다.
Support Vector Machine : – 다차원 공간에서 데이터 포인트를 나타냅니다. 그런 다음 이러한 데이터 포인트는 초평면을 사용하여 클래스로 분리됩니다. 데이터 세트의 n개 기능에 대한 n차원 공간을 그린 다음 최대 여백으로 데이터 포인트를 나누는 초평면을 생성하려고 시도합니다.
읽기: 데이터 마이닝의 일반적인 예.
애플리케이션
- 이메일 스팸 탐지.
- 얼굴 인식.
- 고객이 이탈할지 여부를 식별합니다.
- 은행 대출 승인.
클러스터링
클러스터링은 일종의 비지도 머신 러닝 알고리즘입니다. 클러스터와 유사한 특성을 가진 데이터 포인트를 그룹화하는 데 사용됩니다. 이상적으로는 동일한 클러스터의 데이터 포인트는 유사한 속성을 나타내야 하고 다른 클러스터의 포인트는 가능한 한 유사하지 않아야 합니다.
클러스터링은 하드 클러스터링과 소프트 클러스터링의 두 그룹으로 나뉩니다. 하드 클러스터링에서는 데이터 포인트가 클러스터 중 하나에만 할당되지만 소프트 클러스터링에서는 데이터 포인트가 각 클러스터에 있을 확률을 제공합니다.
클러스터링 알고리즘의 유형
K-Means Clustering : – 미리 정의된 k 개의 클러스터를 초기화하고 거리 메트릭을 사용하여 각 클러스터의 중심에서 각 데이터 포인트의 거리를 계산합니다. 거리에 따라 k 클러스터 중 하나에 데이터 포인트를 할당합니다.
Agglomerative Hierarchical Clustering (Bottom-Up Approach) : – 각 데이터 포인트를 클러스터로 간주하고 거리 메트릭과 이러한 클러스터를 연결하는 데 사용되는 기준을 기반으로 이러한 데이터 포인트를 병합합니다.
Divisive Hierarchical Clustering (Top-Down Approach) : – 모든 데이터 포인트를 하나의 클러스터로 초기화하고 거리 메트릭과 기준에 따라 이러한 데이터 포인트를 분할합니다. 응집 및 분할 군집화는 덴드로그램과 이를 참조하여 선택할 군집의 수로 나타낼 수 있습니다.

DBSCAN(Density-based Spatial Clustering of Applications with Noise) : – 밀도 기반 클러스터링 방법입니다. K-Means와 같은 알고리즘은 상당히 분리된 클러스터에서 잘 작동하고 모양이 구형인 클러스터를 생성합니다. DBSCAN은 데이터가 임의의 형태일 때 사용되며 이상치에 덜 민감합니다. 특정 반경 내에 인접 데이터 포인트가 많은 데이터 포인트를 그룹화합니다.
OPTICS(Ordering Points to 식별 클러스터링 구조) : – 밀도 기반 클러스터링 방법의 또 다른 유형이며 몇 가지 매개변수를 더 고려한다는 점을 제외하고는 DBSCAN과 프로세스가 유사합니다. 그러나 DBSCAN보다 계산적으로 더 복잡합니다. 또한 데이터 포인트를 클러스터로 분리하지 않지만 클러스터 생성 해석에 도움이 될 수 있는 도달 가능성 플롯을 생성합니다.
BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies) : – 데이터 요약을 생성하여 클러스터를 생성합니다. 먼저 데이터를 요약한 다음 이를 사용하여 클러스터를 생성하므로 거대한 데이터 세트와 잘 작동합니다. 그러나 공간에서 표현할 수 있는 숫자 속성만 처리할 수 있습니다.
더 읽어보기: 알아야 할 데이터 마이닝 알고리즘
애플리케이션
- 시장에서 소비자 기반의 세분화.
- 소셜 네트워크 분석.
- 이미지 분할.
- 추천 시스템.
클러스터링과 분류의 차이점 - 2020 - 다른 사람
- 유형 : – 클러스터링은 비지도 학습 방법인 반면 분류는 지도 학습 방법입니다.
- 프로세스 : – 클러스터링에서 데이터 포인트는 유사성에 따라 클러스터로 그룹화됩니다. 분류에는 입력 데이터를 출력 변수의 클래스 레이블 중 하나로 분류하는 작업이 포함됩니다.
- 예측 : – 분류는 모델 구축을 기반으로 입력 변수의 예측을 포함합니다. 클러스터링은 일반적으로 데이터를 분석하고 더 나은 의사 결정을 위해 데이터에서 추론하는 데 사용됩니다.
- 데이터 분할 : – 분류 알고리즘은 모델을 예측하고 평가하기 위해 데이터를 훈련 및 테스트 데이터로 분할해야 합니다. 클러스터링 알고리즘은 사용을 위해 데이터 분할이 필요하지 않습니다.
- 데이터 레이블 : – 분류 알고리즘은 레이블이 지정된 데이터를 처리하는 반면 클러스터링 알고리즘은 레이블이 지정되지 않은 데이터를 처리합니다.
- 단계 : – 분류 프로세스에는 교육 및 테스트의 두 단계가 포함됩니다. 클러스터링 프로세스에는 데이터 그룹화만 포함됩니다.
- 복잡성 : – 분류가 더 많은 단계를 다루기 때문에 분류 알고리즘의 복잡성은 데이터를 그룹화하는 것이 목적인 클러스터링 알고리즘보다 높습니다.
결론
분류 및 클러스터링 방법이 다르고 알고리즘에서 기대하는 결과도 다릅니다. 간단히 말해서 분류와 클러스터링은 서로 다른 문제를 해결하는 데 사용됩니다. 이 기사에서는 분류 및 클러스터링에 대한 간략한 소개를 제공했습니다.
우리는 또한 몇 가지 응용 프로그램과 함께 각 경우에 사용되는 다양한 유형의 알고리즘에 대해 약간 읽었습니다. 이 문서에 나열된 알고리즘은 완전하지 않습니다. 즉, 완전한 목록이 아니며 이러한 문제를 해결하는 데 사용할 수 있는 다른 알고리즘이 많이 있습니다.
데이터 과학을 배우고 싶다면 10개 이상의 사례 연구 및 프로젝트, 실용적인 실습 워크샵, 업계 전문가와의 멘토링, 업계와 1:1을 제공하는 실무 전문가를 위해 만들어진 데이터 과학 PG 디플로마를 확인하십시오. 멘토, 400시간 이상의 학습 및 최고의 기업에서의 취업 지원.
클러스터링의 다양한 방법과 응용 프로그램은 무엇입니까?
클러스터는 동일한 클래스에 속하는 개체 그룹이라고 할 수 있습니다. 간단히 말해서 클러스터는 유사한 속성을 가진 객체의 그룹이라고 말할 수 있습니다. 클러스터링은 머신 러닝에서 분석을 위한 중요한 프로세스로 알려져 있습니다.
다양한 클러스터링 방법
1. 파티셔닝 기반 클러스터링
2. 계층 기반 클러스터링
3. 밀도 기반 클러스터링
4. 그리드 기반 클러스터링
5. 모델 기반 클러스터링
클러스터링의 다양한 응용
1. 추천 엔진
2. 시장 및 고객 세분화
3. 소셜 네트워크 분석(SNA)
4. 검색결과 클러스터링
5. 생물학적 데이터 분석
6. 의료 영상 분석
7. 암세포 식별
이것들은 가장 널리 사용되는 방법이자 클러스터링의 가장 인기 있는 응용 프로그램 중 일부입니다.
분류의 다양한 분류기 및 응용 프로그램은 무엇입니까?
분류 기술은 데이터를 고유한 수의 클래스로 분류하여 만든 모든 클래스에 레이블을 지정하는 데 사용됩니다.
분류기는 2가지 유형이 될 수 있습니다.
1. 이진 분류기 – 여기에서 분류는 2개의 가능한 결과 또는 2개의 고유한 클래스로만 수행됩니다. 예를 들어, 남성과 여성의 분류, 스팸 이메일과 스팸이 아닌 이메일 등.
2. 다중 클래스 분류기 – 여기에서 분류는 2개 이상의 개별 클래스로 수행됩니다. 예를 들어, 토양의 종류 분류, 음악 분류 등.
분류 적용은 다음과 같습니다.
1. 문서 분류
생체 인식
필기 인식
음성 인식
이것들은 분류의 일부에 불과합니다. 이것은 다양한 산업 분야의 여러 곳에서 유용한 개념입니다.
기계 학습에서 가장 일반적인 분류 알고리즘은 무엇입니까?
분류는 기계 학습 알고리즘에 완전히 의존하는 자연어 처리 작업입니다. 모든 알고리즘은 특정 문제를 해결하는 데 사용됩니다. 따라서 모든 알고리즘은 요구 사항에 따라 다른 위치에서 사용됩니다.
데이터 세트에 사용할 수 있는 분류 알고리즘이 많이 있습니다. 통계에서 분류 연구는 매우 방대하며 특정 알고리즘의 사용은 작업 중인 데이터 세트에 완전히 의존합니다. 다음은 분류를 위한 기계 학습에서 가장 일반적인 알고리즘입니다.
1. 벡터 머신 지원
2. 나이브 베이즈
3. 의사결정나무
4. K-가장 가까운 이웃
5. 로지스틱 회귀
이러한 분류 알고리즘은 사람이 수행하는 데 수백 시간이 걸릴 수 있는 여러 분석 작업을 쉽고 효율적으로 만드는 데 사용됩니다.