클러스터링이란 무엇이며 클러스터링 방법의 다른 유형
게시 됨: 2020-12-01자신이 조직의 최고 마케팅 책임자(CMO)와 대화 중이라고 생각하십시오. 조직은 비즈니스 목표에 도움이 되고 고객에게 더 나은 경험을 제공할 수 있도록 데이터를 통해 고객을 더 잘 이해하기를 원합니다. 이제 이것은 클러스터링이 구출되는 시나리오 중 하나입니다.
목차
클러스터링이란 무엇입니까?
클러스터링은 일종의 기계 학습 비지도 학습 방법입니다. 비지도 학습 방법에서는 레이블이 지정된 출력 변수를 포함하지 않는 데이터 세트에서 추론을 가져옵니다. 다변수 데이터 세트를 분석할 수 있는 탐색적 데이터 분석 기술입니다.
클러스터링은 클러스터에 속한 데이터 포인트가 유사한 특성을 갖도록 데이터 세트를 특정 수의 클러스터로 나누는 작업입니다. 클러스터는 클러스터 내의 데이터 포인트 사이의 거리가 최소가 되도록 데이터 포인트를 그룹화하는 것에 불과합니다.
즉, 클러스터는 유사한 데이터 포인트의 밀도가 높은 영역입니다. 일반적으로 데이터 세트의 분석, 방대한 데이터 세트 중에서 통찰력 있는 데이터를 찾고 추론을 도출하는 데 사용됩니다. 일반적으로 클러스터는 구형으로 보이지만 클러스터는 어떤 모양이든 될 수 있으므로 필요하지 않습니다. 데이터 과학 온라인 과정에서 클러스터링 및 더 많은 데이터 과학 개념에 대해 알아보세요.
클러스터 생성 방법을 결정하는 알고리즘 유형에 따라 다릅니다. 좋은 클러스터링에 대한 기준이 없기 때문에 데이터 세트에서 도출해야 하는 추론도 사용자에 따라 다릅니다.
클러스터링 방법의 유형은 무엇입니까?
클러스터링 자체는 두 가지 유형으로 분류할 수 있습니다. 하드 클러스터링 및 소프트 클러스터링. 하드 클러스터링에서 하나의 데이터 포인트는 하나의 클러스터에만 속할 수 있습니다. 그러나 소프트 클러스터링에서 제공되는 출력은 미리 정의된 클러스터 수 각각에 속하는 데이터 포인트의 확률 가능성입니다.
밀도 기반 클러스터링
이 방법에서 클러스터는 데이터 공간에 표시되는 데이터 포인트의 밀도를 기반으로 생성됩니다. 해당 영역에 있는 엄청난 수의 데이터 포인트로 인해 밀집된 영역은 클러스터로 간주됩니다.
희소 영역(데이터 요소가 매우 적은 영역)의 데이터 요소는 노이즈 또는 이상값으로 간주됩니다. 이러한 방법으로 생성된 클러스터는 임의의 모양일 수 있습니다. 다음은 밀도 기반 클러스터링 알고리즘의 예입니다.
DBSCAN(노이즈가 있는 응용 프로그램의 밀도 기반 공간 클러스터링)
DBSCAN은 데이터 포인트의 최소 수에 대한 기준 및 거리 메트릭을 기반으로 데이터 포인트를 함께 그룹화합니다. 두 개의 매개변수( eps 및 minimum point)가 필요합니다. Eps는 데이터 포인트가 이웃으로 간주되어야 하는 거리를 나타냅니다. 해당 영역을 밀집 영역으로 간주하려면 최소 포인트 기준을 완료해야 합니다.
OPTICS(클러스터링 구조를 식별하기 위한 순서 지정 포인트)
DBSCAN과 프로세스가 유사하지만 임의 밀도의 데이터에서 클러스터를 형성할 수 없는 전자 알고리즘의 단점 중 하나에 주의합니다. 핵심 거리와 도달 가능성 거리라는 두 가지 매개변수를 더 고려합니다. 코어 거리는 최소값을 설정하여 고려 중인 데이터 포인트가 코어인지 여부를 나타냅니다.
도달 거리는 코어 거리의 최대값이며 두 데이터 포인트 간의 거리를 계산하는 데 사용되는 거리 메트릭 값입니다. 도달 가능 거리에 대해 고려해야 할 한 가지는 데이터 포인트 중 하나가 핵심 포인트인 경우 해당 값이 정의되지 않은 상태로 유지된다는 것입니다.
HDBSCAN(노이즈가 있는 응용 프로그램의 계층적 밀도 기반 공간 클러스터링)
HDBSCAN은 DBSCAN 방법론을 계층적 클러스터링 알고리즘으로 변환하여 확장한 밀도 기반 클러스터링 방법입니다.
계층적 클러스터링
계층적 클러스터링은 거리 메트릭을 기반으로 클러스터를 그룹화하거나(Agglomerative 또는 상향식 접근법이라고도 함) 클러스터를 나눕니다(Divisive 또는 하향식 접근법이라고도 함). 응집 클러스터링에서 각 데이터 포인트는 처음에 클러스터 역할을 하고 클러스터를 하나씩 그룹화합니다.
Divisive는 Agglomerative의 반대이며 모든 포인트를 하나의 클러스터로 시작하여 더 많은 클러스터를 생성하기 위해 분할합니다. 이러한 알고리즘은 기존의 모든 클러스터의 거리 행렬을 생성하고 연결 기준에 따라 클러스터 간의 연결을 수행합니다. 데이터 포인트의 클러스터링은 덴드로그램을 사용하여 표현됩니다. 다양한 유형의 연결이 있습니다. –
영형 단일 연결 : – 단일 연결에서 두 군집 사이의 거리는 두 군집의 점 사이의 최단 거리입니다.
영형 완전 연결 : – 완전 연결에서 두 군집 사이의 거리는 두 군집의 점 사이의 가장 먼 거리입니다.
영형 Average Linkage : – 평균 연결에서 두 군집 사이의 거리는 다른 군집의 모든 점과 군집의 모든 점의 평균 거리입니다.
읽기: 데이터 마이닝의 일반적인 예.
퍼지 클러스터링
퍼지 클러스터링에서 클러스터의 데이터 포인트 할당은 결정적이지 않습니다. 여기에서 하나의 데이터 포인트는 둘 이상의 클러스터에 속할 수 있습니다. 각 클러스터에 속하는 데이터 포인트의 확률로 결과를 제공합니다. 퍼지 클러스터링에 사용되는 알고리즘 중 하나는 퍼지 c-means 클러스터링입니다.

이 알고리즘은 K-Means 클러스터링과 프로세스가 유사하며 퍼지기 및 구성원 값과 같이 계산에 관련된 매개변수가 다릅니다.
파티셔닝 클러스터링
이 방법은 분석가가 클러스터를 생성하기 위해 가장 많이 선택하는 방법 중 하나입니다. 분할 클러스터링에서 클러스터는 데이터 포인트의 특성에 따라 분할됩니다. 이 클러스터링 방법에 대해 생성할 클러스터 수를 지정해야 합니다. 이러한 클러스터링 알고리즘은 거리를 기반으로 클러스터 간에 데이터 포인트를 재할당하는 반복 프로세스를 따릅니다. 이 범주에 속하는 알고리즘은 다음과 같습니다. –
영형 K-평균 클러스터링: – K-평균 클러스터링은 가장 널리 사용되는 알고리즘 중 하나입니다. 클러스터링에 사용된 거리 메트릭을 기반으로 데이터 포인트를 k개의 클러스터로 분할합니다. 'k'의 값은 사용자가 정의해야 합니다. 거리는 데이터 포인트와 클러스터의 중심 사이에서 계산됩니다.
클러스터의 중심에 가장 가까운 데이터 포인트가 해당 클러스터에 할당됩니다. 반복 후에는 해당 클러스터의 중심을 다시 계산하고 미리 정의된 반복 횟수가 완료될 때까지 또는 클러스터의 중심이 반복 후에 변경되지 않을 때까지 프로세스가 계속됩니다.
각 반복에서 모든 클러스터의 중심을 사용하여 모든 데이터 포인트의 거리를 계산하므로 계산 비용이 매우 많이 드는 알고리즘입니다. 이것은 거대한 데이터 세트에 대해 동일한 것을 구현하기 어렵게 만듭니다.
PAM(메도이드 주변 분할)
이 알고리즘은 k-medoid 알고리즘이라고도 합니다. 또한 클러스터의 중심 할당에 차이가 있다는 점에서 K-means 클러스터링 알고리즘과 프로세스가 유사합니다. PAM에서 클러스터의 메도이드는 입력 데이터 포인트여야 하지만 클러스터의 모든 데이터 포인트의 평균이 입력 데이터 포인트에 속하지 않을 수 있으므로 K-평균 클러스터링의 경우 그렇지 않습니다.
영형 CLARA(Clustering Large Applications) : – CLARA는 대규모 데이터 세트에 대해 더 나은 성능을 제공하기 위해 계산 시간이 단축된 PAM 알고리즘의 확장입니다. 이를 위해 전체 데이터 세트 중 임의의 데이터 일부를 실제 데이터를 대표하는 것으로 선택합니다. PAM 알고리즘을 데이터의 여러 샘플에 적용하고 여러 반복에서 최상의 클러스터를 선택합니다.
더 읽어보기: 알아야 할 데이터 마이닝 알고리즘
그리드 기반 클러스터링
그리드 기반 클러스터링에서 데이터 세트는 그리드(셀이라고도 함)로 구성된 그리드 구조로 표현됩니다. 이 방법의 알고리즘에 대한 전반적인 접근 방식은 나머지 알고리즘과 다릅니다.
그들은 데이터 포인트 자체보다 데이터 포인트를 둘러싼 가치 공간에 더 관심이 있습니다. 이러한 알고리즘의 가장 큰 장점 중 하나는 계산 복잡성을 줄이는 것입니다. 따라서 방대한 데이터 세트를 처리하는 데 적합합니다.
데이터 세트를 셀로 분할한 후 클러스터를 식별하는 데 도움이 되는 셀의 밀도를 계산합니다. 그리드 기반 클러스터링을 기반으로 하는 몇 가지 알고리즘은 다음과 같습니다.
영형 STING(Statistical Information Grid Approach) : – STING에서 데이터 세트는 계층적 방식으로 재귀적으로 분할됩니다. 각 셀은 더 많은 수의 셀로 세분화됩니다. 그것은 짧은 시간에 쿼리에 응답하는 데 도움이 셀의 통계 측정을 캡처합니다.
영형 WaveCluster : – 이 알고리즘에서 데이터 공간은 웨이블릿 형태로 표현됩니다. 데이터 공간은 클러스터를 식별하는 데 도움이 되는 n차원 신호를 구성합니다. 주파수가 낮고 진폭이 높은 신호 부분은 데이터 포인트가 집중되어 있음을 나타냅니다. 이러한 영역은 알고리즘에 의해 클러스터로 식별됩니다. 주파수가 높은 신호 부분은 클러스터의 경계를 나타냅니다. 자세한 내용은 이 문서 를 참조하십시오 .
영형 CLIQUE(Clustering in Quest) : – CLIQUE는 밀도 기반 및 그리드 기반 클러스터링 알고리즘의 조합입니다. 데이터 공간을 분할하고 Apriori 원리를 사용하여 하위 공간을 식별합니다. 셀의 밀도를 계산하여 클러스터를 식별합니다.
끝 메모
이 기사에서 우리는 클러스터링이 무엇인지와 클러스터링의 다양한 방법에 대한 개요를 예제와 함께 보았습니다. 이 문서는 클러스터링을 시작하는 데 도움이 되도록 작성되었습니다.
이러한 클러스터링 방법에는 특정 데이터 세트에만 적합하도록 제한하는 고유한 장단점이 있습니다. 데이터 세트에 대한 분석을 수행할 때 그림에 나타나는 것은 알고리즘뿐 아니라 기계의 하드웨어 사양, 알고리즘의 복잡성 등과 같은 많은 다른 요소가 있습니다.
분석가는 어떤 알고리즘을 선택하고 주어진 상황에서 더 나은 결과를 제공할지 결정해야 합니다. 모든 머신 러닝 문제에 맞는 하나의 알고리즘은 작동하지 않습니다. 따라서 클러스터링 세계에서 계속 실험하고 손을 더럽히십시오.
데이터 과학을 배우고 싶은 경우 작업 전문가를 위해 만들어졌으며 10개 이상의 사례 연구 및 프로젝트, 실용적인 실습 워크샵, 업계 전문가와의 멘토링, 1 - 업계 멘토와 일대일, 400시간 이상의 학습 및 최고의 기업과의 취업 지원.
비즈니스 인텔리전스에 사용되는 다양한 유형의 클러스터링 방법은 무엇입니까?
클러스터링은 특정 가설을 제시하지 않고 데이터에서 여러 숨겨진 패턴을 식별하기 위해 데이터 마이닝에 사용되는 무방향 기술입니다. 클러스터링을 사용하는 이유는 특정 개체 간의 유사성을 식별하고 유사한 개체의 그룹을 만들기 위함입니다.
클러스터링에는 계층적 방법과 비계층적 방법의 두 가지 유형이 있습니다.
1. 비계층적 클러스터링
이 방법에서는 N개의 개체를 포함하는 데이터 세트를 M개의 클러스터로 나눕니다. 비즈니스 인텔리전스에서 가장 널리 사용되는 비계층적 클러스터링 기술은 K-평균입니다.
2. 계층적 클러스터링
이 방법에서는 중첩 클러스터 집합이 생성됩니다. 이러한 중첩 클러스터에서 모든 개체 쌍은 결국 하나의 클러스터만 남을 때까지 큰 클러스터를 형성하기 위해 추가로 중첩됩니다.
클러스터링은 언제 사용됩니까?
클러스터링의 주요 기능은 매장, 제품 또는 고객인지 여부에 관계없이 세분화를 수행하는 것입니다. 고객과 제품은 서로 다른 속성을 기반으로 하는 계층적 그룹으로 클러스터링될 수 있습니다.
사기 거래와 같은 이상 징후를 탐지하기 위해 클러스터링 기술을 사용하는 또 다른 방법이 있습니다. 여기에서 모든 양호한 트랜잭션이 있는 클러스터가 감지되어 샘플로 보관됩니다. 이것은 정상적인 클러스터 라고 합니다. 무언가가 이 클러스터의 라인을 벗어날 때마다 의심되는 섹션 아래에 옵니다. 이 방법은 신체의 비정상 세포의 존재를 감지하는 데 정말 유용한 것으로 밝혀졌습니다.
그 외에도 클러스터링은 큰 데이터 세트를 세분화하여 더 작은 데이터 그룹을 만드는 데 널리 사용됩니다. 이것은 데이터 평가의 효율성을 향상시킵니다.
클러스터링의 장점은 무엇입니까?
클러스터링은 여러 가지 이유로 주어진 데이터의 무작위 샘플링보다 더 효과적이라고 합니다. 클러스터링의 두 가지 주요 이점은 다음과 같습니다.
1. 더 적은 리소스가 필요합니다.
클러스터는 전체 샘플에서 더 적은 수의 리소스 그룹을 만듭니다. 이 때문에 무작위 샘플링에 비해 리소스 요구 사항이 적습니다. 무작위 샘플링에는 여행 및 관리 비용이 필요하지만 여기서는 그렇지 않습니다.
2. 실행 가능한 옵션
여기에서 모든 클러스터는 전체 모집단에서 동종 그룹이 생성되므로 전체 모집단 집합을 결정합니다. 이를 통해 단일 연구에 더 많은 주제를 포함하는 것이 쉬워집니다.
