머신 러닝의 클러스터링: 클러스터링의 3가지 유형 설명

게시 됨: 2020-11-30

소개

머신 러닝은 데이터가 날로 증가함에 따라 2020년 가장 핫한 기술 중 하나입니다. 머신 러닝의 필요성도 기하급수적으로 증가하고 있습니다. 머신 러닝은 각 도메인과 산업에서 알고리즘과 사용 사례가 서로 다른 매우 방대한 주제입니다. 그 중 하나는 클러스터링의 사용을 볼 수 있는 Unsupervised Learning입니다.

비지도 학습은 기계가 레이블이 지정되지 않은 데이터에서 학습하는 기술입니다. 레이블을 모르기 때문에 기계가 레이블에서 학습할 수 있는 정답은 없지만 기계 자체는 주어진 데이터에서 몇 가지 패턴을 찾아 비즈니스 문제에 대한 답을 제시합니다.

클러스터링은 레이블이 지정되지 않은 지정된 데이터를 그룹화하는 기계 학습 비지도 학습 기술입니다. 정리된 각 데이터 세트에서 클러스터링 알고리즘을 사용하여 주어진 데이터 포인트를 각 그룹으로 클러스터링할 수 있습니다. 클러스터링 알고리즘은 동일한 클러스터에 있는 데이터 포인트가 유사한 속성을 가져야 하는 반면 다른 클러스터에 있는 데이터 포인트는 매우 다른 속성을 가져야 한다고 가정합니다.

이 기사에서 우리는 클러스터링의 필요성, 장단점과 함께 다양한 유형의 클러스터링을 배울 것입니다.

읽기: 기계 학습의 전제 조건

클러스터링의 필요성은 무엇입니까?

클러스터링은 널리 사용되는 ML 알고리즘으로 데이터 세트의 데이터 포인트 간의 숨겨진 관계를 찾을 수 있습니다.

예:

1) 기존 고객의 유사도에 따라 고객을 분류하여 추천할 수 있습니다.

2) 텍스트 데이터 모음을 기반으로 주제 계층을 만들기 위해 내용 유사성에 따라 데이터를 구성할 수 있습니다.

3) 기본 패턴을 식별하기 위한 생물학 연구에서 주로 이미지 처리.

4) 스팸 필터링.

5) 사기 및 범죄 활동 식별.

6) 판타지 축구 및 스포츠에도 사용할 수 있습니다.

클러스터링 유형

기계 학습에는 많은 유형의 클러스터링 알고리즘이 있습니다. 이 기사에서는 아래 세 가지 알고리즘에 대해 논의할 것입니다.

1) K-평균 클러스터링.

2) 평균 이동 클러스터링.

3) DBSCAN.

1. K-평균 클러스터링

K-Means는 기계 학습의 다른 클러스터링 알고리즘 중에서 가장 널리 사용되는 클러스터링 알고리즘입니다. 우리는 이 알고리즘이 많은 상위 산업 또는 많은 입문 과정에서 사용되는 것을 볼 수 있습니다. 구현과 이해 모두에서 시작하기 가장 쉬운 모델 중 하나입니다.

1단계 먼저 사용할 k의 난수를 선택하고 각각의 중심점을 무작위로 초기화합니다.

Step-2 그런 다음 각 데이터 포인트는 해당 포인트와 각 그룹 중심 사이의 거리(유클리드 또는 맨해튼)를 계산한 다음 중심이 가장 가까운 클러스터에 데이터 포인트를 클러스터링하여 분류합니다.

3단계 그룹에 있는 모든 벡터의 평균을 취하여 그룹 중심을 다시 계산합니다.

4단계 우리는 이 모든 단계를 여러 번 반복하거나 그룹 중심이 많이 변경되지 않을 때까지 반복합니다.

장점

1) 매우 빠름.

2) 매우 적은 계산

3) 선형 복잡도 O(n).

단점

1) k 값을 선택합니다.

2) 다른 실행의 다른 클러스터링 센터.

3) 일관성 부족.

2. 평균 이동 클러스터링

평균 이동 클러스터링은 데이터 포인트의 밀집 영역을 식별하려는 슬라이딩 윈도우 기반 알고리즘입니다. 중심 기반 알고리즘이기 때문에 목표는 각 클래스의 중심점을 찾는 것이며, 이는 중심점 후보를 슬라이딩 창에 있는 점의 평균으로 업데이트하여 작동합니다.

이러한 선택된 후보 창은 최종 센터 세트와 해당 클래스를 형성하는 데 도움이 되는 중복을 제거하기 위해 사후 처리 단계에서 필터링됩니다.

1단계 (무작위로 선택된) 점 C를 중심으로 하고 반경 r을 커널로 갖는 원형 슬라이딩 창으로 시작합니다. 평균 이동은 수렴에 도달할 때까지 각 단계에서 이 커널을 반복적으로 더 높은 밀도 영역으로 이동하는 것을 포함하는 언덕 오르기 유형의 알고리즘입니다.

2단계 각 반복 후 슬라이딩 창은 중심점을 창 내 점의 평균으로 이동하여 밀도가 더 높은 영역으로 이동합니다. 슬라이딩 윈도우 내의 밀도는 내부의 포인트 수가 증가함에 따라 증가합니다. 창에서 점의 평균을 이동하면 점 밀도가 더 높은 영역으로 점차 이동합니다.

3단계 이 단계에서는 이동이 선택한 커널 내부에서 더 많은 점을 얻을 수 있는 방향이 없을 때까지 평균 값을 기반으로 슬라이딩 창을 계속 이동합니다.

4 단계 1-2단계는 모든 점이 창 안에 놓일 때까지 많은 슬라이딩 창으로 수행됩니다. 여러 개의 슬라이딩 윈도우가 겹치는 경향이 있는 경우 가장 많은 포인트를 포함하는 윈도우가 선택됩니다. 이제 데이터 포인트가 상주하는 슬라이딩 윈도우에 따라 클러스터링됩니다.

장점

1) 클러스터 수를 선택할 필요가 없습니다.

2) 자연스럽게 데이터 중심의 의미에 잘 맞습니다.

단점

1) 유일한 단점은 창 크기(r) 선택이 간단하지 않을 수 있다는 것입니다.

3. 노이즈가 있는 응용 프로그램의 밀도 기반 공간 클러스터링(DBSCAN)

DBSCAN은 약간의 변경이 있는 밀도 기반 알고리즘인 Mean-Shift 클러스터링과 유사합니다.

Step-1 임의의 시작점으로 시작하여 엡실론이라는 거리를 이용하여 이 점의 근방을 추출한다.

단계-2 포인트가 충분하고 데이터 포인트가 클러스터의 첫 번째 새 포인트가 되면 클러스터링이 시작됩니다. 데이터가 충분하지 않은 경우 포인트는 노이즈로 표시되고 포인트는 방문한 것으로 표시됩니다.

3단계 입실론 내의 포인트는 클러스터의 일부가 되는 경향이 있습니다. 이 절차는 클러스터 내부의 모든 점에 대해 반복됩니다.

4 단계 클러스터의 포인트를 방문하고 레이블을 지정할 때까지 2단계와 3단계를 반복합니다.

Step-5 현재 클러스터가 완성되면 방문하지 않은 새로운 포인트를 새로운 클러스터로 처리하여 클러스터 또는 노이즈로 분류합니다.

장점

1) 클러스터 수를 설정할 필요가 없습니다.

2) 이상값을 노이즈로 정의합니다.

3) 임의의 크기와 임의의 모양의 클러스터를 잘 찾는 데 도움이 됩니다.

단점

1) 다양한 밀도 클러스터에서 잘 수행되지 않습니다.

2) 고차원 데이터에서는 잘 수행되지 않습니다.

더 읽어보기: 기계 학습 프로젝트 아이디어

결론

이 기사에서는 현재 시장에서 클러스터링의 필요성, 다양한 유형의 클러스터링 알고리즘과 장단점에 대해 알게 되었습니다. 클러스터링은 머신 러닝에서 실제로 매우 흥미로운 주제이며 배울 가치가 있는 클러스터링 알고리즘의 다른 유형이 너무 많습니다.

기계 학습에 대해 자세히 알아보려면 IIIT-B 및 upGrad의 기계 학습 및 AI PG 디플로마를 확인하세요. 이 PG 디플로마는 일하는 전문가를 위해 설계되었으며 450시간 이상의 엄격한 교육, 30개 이상의 사례 연구 및 과제, IIIT- B 동문 자격, 5개 이상의 실용적인 실습 캡스톤 프로젝트 및 최고의 기업과의 취업 지원.

가우스 혼합 클러스터링이란 무엇을 의미합니까?

가우스 혼합 모델은 일반적으로 쿼리 데이터의 경우 하드 클러스터링 또는 소프트 클러스터링을 수행하는 데 사용됩니다. 가우스 혼합 모델은 클러스터링을 잘 수행하기 위해 몇 가지 가정을 합니다. 가정을 기반으로 모델은 단일 분포에 속하는 데이터 요소를 함께 그룹화합니다. 이들은 확률적 모델이며 클러스터링 프로세스를 효율적으로 수행하기 위해 소프트 클러스터링 접근 방식을 사용합니다.

클러스터링의 실루엣 계수는 무엇입니까?

클러스터링이 얼마나 잘 수행되었는지 측정하기 위해 실루엣 계수를 사용합니다. 기본적으로 두 클러스터 사이의 평균 거리를 측정한 다음 공식을 사용하여 실루엣 너비를 계산합니다. 이러한 방식으로 주어진 데이터에 존재하는 최적의 클러스터 수를 쉽게 측정할 수 있으므로 수행된 클러스터링의 효율성을 찾을 수 있습니다.

머신 러닝에서 퍼지 클러스터링이란 무엇을 의미합니까?

주어진 데이터가 둘 이상의 클러스터 또는 그룹에 포함되는 경우 퍼지 클러스터링 방법이 사용되며 이는 퍼지 C-평균 알고리즘 또는 퍼지 K-평균 알고리즘에서 작동합니다. 소프트 클러스터링 방법입니다. 군집 중심과 이미지 점 사이의 거리에 따라 이 방법은 각 군집 중심과 연결된 각 이미지 점에 소속 값을 할당합니다.