데이터 마이닝의 클러스터 분석: 응용 프로그램, 방법 및 요구 사항

게시 됨: 2020-01-20

여기서는 데이터 마이닝의 클러스터 분석에 대해 설명합니다. 따라서 먼저 데이터 마이닝에서 클러스터링이 무엇인지에 대해 설명한 다음 데이터 마이닝에서 클러스터링의 도입 및 필요성에 대해 알려주세요. 또한 데이터 과학에서 클러스터 분석의 알고리즘과 응용 프로그램에 대해 논의할 것입니다. 나중에 우리는 클러스터 분석 및 데이터 마이닝 클러스터링 방법의 다양한 접근 방식에 대해 배울 것입니다.

목차

데이터 마이닝에서 클러스터링이란 무엇입니까?

클러스터링에서 서로 다른 데이터 개체의 그룹은 유사한 개체로 분류됩니다. 하나의 그룹은 데이터 클러스터를 의미합니다. 데이터 세트는 데이터의 유사성을 기반으로 하는 클러스터 분석에서 여러 그룹으로 나뉩니다. 데이터를 다양한 그룹으로 분류한 후 그룹에 레이블이 할당됩니다. 분류를 수행하여 변경 사항에 적응하는 데 도움이 됩니다.

읽기: 데이터 마이닝의 일반적인 예.

데이터 마이닝에서 클러스터 분석이란 무엇입니까?

데이터 마이닝에서의 클러스터 분석은 그룹 내에서 서로 유사하지만 다른 그룹의 개체와 다른 개체의 그룹을 찾는 것을 의미합니다.

데이터 마이닝 클러스터 분석의 응용

이미지 처리, 데이터 분석, 패턴 인식, 시장 조사 등과 같은 데이터 클러스터링 분석의 많은 용도가 있습니다. 데이터 클러스터링을 사용하여 기업은 고객 데이터베이스에서 새로운 그룹을 발견할 수 있습니다. 구매 패턴에 따라 데이터 분류도 할 수 있습니다.

데이터 마이닝의 클러스터링은 생물학 분야에서 유사한 기능이나 유전자를 사용하여 동물과 식물을 분류하는 데 도움이 됩니다. 종의 구조에 대한 통찰력을 얻는 데 도움이 됩니다. 데이터 마이닝에서 클러스터링을 사용하여 영역을 식별합니다. 지구관측 데이터베이스에서는 서로 유사한 토지를 식별한다.

지리적 위치, 가치 및 주택 유형을 기반으로 도시에 주택 그룹이 정의됩니다. 데이터 마이닝의 클러스터링은 인터넷에서 파일을 분류하여 정보 검색을 돕습니다. 탐지 응용 프로그램에도 사용됩니다. 신용 카드의 사기는 사기 패턴을 분석하는 데이터 마이닝의 클러스터링을 사용하여 쉽게 감지할 수 있습니다. 금융 산업에서 데이터 과학의 응용에 대해 자세히 읽어보십시오.

각 클러스터와 클러스터의 특성을 이해하는 데 도움이 됩니다. 데이터가 어떻게 배포되는지 이해할 수 있으며 데이터 마이닝 기능의 도구로 작동합니다.

데이터 마이닝의 클러스터링 요구 사항

  • 해석 가능성

클러스터링의 결과는 사용 가능하고 이해 가능하며 해석 가능해야 합니다.

  • 엉망인 데이터 처리에 도움

일반적으로 데이터는 엉망이고 구조화되지 않습니다. 빠르게 분석할 수 없기 때문에 데이터 마이닝에서 정보의 클러스터링이 매우 중요합니다. 그룹화는 데이터를 유사한 데이터 개체의 그룹으로 구성하여 데이터에 일부 구조를 제공할 수 있습니다. 데이터 전문가가 데이터를 처리하고 새로운 것을 발견하는 것이 더 편해집니다.

  • 고차원

데이터 클러스터링은 또한 작은 크기의 데이터와 함께 높은 차원의 데이터를 처리할 수 있습니다.

  • 속성 모양 클러스터가 발견되었습니다.

임의의 모양 클러스터는 클러스터링 알고리즘을 사용하여 감지됩니다. 구형의 작은 크기 클러스터도 찾을 수 있습니다.

  • 여러 데이터 종류에 대한 알고리즘 사용성

클러스터링 알고리즘과 함께 다양한 종류의 데이터를 사용할 수 있습니다. 데이터는 이진 데이터, 범주 및 간격 기반 데이터와 같을 수 있습니다.

읽기: 알아야 할 데이터 마이닝 알고리즘

  • 클러스터링 확장성

데이터베이스는 일반적으로 처리하기에 방대합니다. 알고리즘은 광범위한 데이터베이스를 처리할 수 있도록 확장 가능해야 하므로 확장 가능해야 합니다.

데이터 마이닝 클러스터링 방법

1. 파티셔닝 클러스터링 방법

이 방법에서 "m" 파티션이 데이터베이스의 "p" 개체에 대해 수행된다고 가정해 보겠습니다. 클러스터는 각 파티션과 m < p로 표시됩니다. K는 객체 분류 후의 그룹 수입니다. 이 파티셔닝 클러스터링 방법을 충족해야 하는 몇 가지 요구 사항이 있으며 다음과 같습니다.

  1. 하나의 목표는 하나의 그룹에만 속해야 합니다.
  2. 목적이 하나라도 없는 집단은 없어야 합니다.

이 유형의 분할 클러스터링 방법에서 기억해야 할 몇 가지 사항은 다음과 같습니다.

  1. 우리가 이미 no를 제공하면 초기 분할이 있을 것입니다. 파티션(예: m).
  2. 반복 재배치라고 하는 한 가지 기술이 있는데, 이는 파티셔닝을 개선하기 위해 개체가 한 그룹에서 다른 그룹으로 이동됨을 의미합니다.

2. 계층적 클러스터링 방법

이 계층적 클러스터링 방법에서 주어진 데이터 개체 집합은 일종의 계층적 분해로 생성됩니다. 계층적 분해의 형성은 분류의 목적을 결정합니다. 계층적 분해 생성에는 다음과 같은 두 가지 유형의 접근 방식이 있습니다.

1. 분열적 접근

분할 접근 방식의 또 다른 이름은 하향식 접근 방식입니다. 이 방법을 시작할 때 모든 데이터 개체는 동일한 클러스터에 유지됩니다. 더 작은 클러스터는 연속 반복을 사용하여 그룹을 분할하여 생성됩니다. 일정한 반복 방법은 종료 조건이 충족될 때까지 계속됩니다. 그룹이 분할되거나 병합된 후에는 실행 취소할 수 없으므로 이 방법이 유연하지 않습니다.

2. 응집적 접근

이 접근 방식의 또 다른 이름은 상향식 접근 방식입니다. 모든 그룹은 처음에 분리됩니다. 그런 다음 모든 그룹이 병합되거나 종료 조건이 충족될 때까지 병합을 계속합니다.

데이터 마이닝에서 계층적 클러스터링 품질을 개선하는 데 사용할 수 있는 두 가지 접근 방식은 다음과 같습니다.

  1. 계층적 클러스터링의 모든 분할에서 개체의 연결을 주의 깊게 분석해야 합니다.
  2. 계층적 응집의 통합을 위해 계층적 응집 알고리즘을 사용할 수 있습니다. 이 접근 방식에서는 먼저 개체를 마이크로 클러스터로 그룹화합니다. 데이터 개체를 마이크로 클러스터로 그룹화한 후 마이크로 클러스터에서 매크로 클러스터링이 수행됩니다.

3. 밀도 기반 클러스터링 방법

데이터 마이닝의 이 클러스터링 방법에서는 밀도가 주요 초점입니다. 질량 개념은 이 클러스터링 방법의 기초로 사용됩니다. 이 클러스터링 방법에서 클러스터는 계속해서 성장합니다. 데이터의 각 점에 대해 그룹 반경에 최소한 하나의 점이 있어야 합니다.

4. 그리드 기반 클러스터링 방법

이러한 형태의 Grid-Based Clustering Method에서는 객체를 함께 사용하여 Grid를 형성한다. 격자 구조는 개체 공간을 유한한 수의 셀로 수량화하여 형성됩니다.

그리드 기반 클러스터링 방법의 장점: –

  1. 빠른 처리 시간: 이 방법의 처리 시간은 다른 방법보다 훨씬 빠르므로 시간을 절약할 수 있습니다.
  2. 이 방법은 번호에 따라 다릅니다. 양자화된 각 차원의 공간에 있는 셀의 수.

5. 모델 기반 클러스터링 방법

이러한 유형의 클러스터링 방법에서는 모든 클러스터가 모델에 가장 적합한 데이터를 찾을 수 있도록 가정됩니다. 밀도 함수는 이 방법에서 그룹을 찾기 위해 클러스터링됩니다.

6. 제약 기반 클러스터링 방법

클러스터링을 수행하기 위해 애플리케이션 또는 사용자 지향 제약이 통합됩니다. 사용자의 기대를 제약이라고 합니다. 이 그룹화 프로세스에서 통신은 제한 사항에 의해 제공되는 매우 대화식입니다.

클러스터 분석으로 간주되지 않는 분류는 무엇입니까?

  1. 그래프 분할 – 영역이 동일하지 않고 상호 시너지 및 관련성을 기반으로 분류되는 분류 유형은 클러스터 분석이 아닙니다.
  2. 쿼리 결과 – 이 유형의 분류에서 그룹은 외부 소스에서 제공된 사양을 기반으로 생성됩니다. 클러스터 분석으로 계산되지 않습니다.
  3. 단순 세분화 – 성을 기준으로 이름을 별도의 등록 그룹으로 나누는 것은 클러스터 분석에 해당하지 않습니다.
  4. 지도 분류 – 레이블 정보를 사용하여 분류하는 유형의 분류는 클러스터 분석이 패턴 기반 그룹을 포함하기 때문에 클러스터 분석이라고 할 수 없습니다.

결론

이제 우리는 데이터 마이닝에서 데이터 클러스터링 및 클러스터 분석의 접근 방식과 방법과 같은 데이터 클러스터링에 대해 많은 것을 배웠습니다.

데이터 과학을 배우고 싶은 경우 작업 전문가를 위해 만들어졌으며 10개 이상의 사례 연구 및 프로젝트, 실용적인 실습 워크샵, 업계 전문가와의 멘토링, 1 - 업계 멘토와 일대일, 400시간 이상의 학습 및 최고의 기업과의 취업 지원.

클러스터 분석의 단점은 무엇입니까?

클러스터 분석은 시장이나 고객 행동에 대한 사전 지식이 없다는 것을 전제로 하는 통계적 접근 방식입니다. 일부 클러스터 분석 방법은 통계 분석을 수행할 때마다 다소 다른 결과를 생성합니다. 이는 데이터 분석에 만능인 방법이 없기 때문에 발생할 수 있습니다. 데이터 출력을 변경하는 것은 클러스터 분석 개념을 처음 접하는 학생에게 혼란스럽고 짜증날 수 있습니다.

클러스터 순도 및 클러스터 품질은 어떻게 계산됩니까?

총 데이터 포인트 수에 각 클러스터의 정확한 클래스 레이블 수를 곱합니다. 일반적으로 클러스터의 수가 증가하면 순도가 높아집니다. 예를 들어, 각 관찰을 자체 클러스터로 구성하는 모델이 있는 경우 순도는 하나가 됩니다. 클러스터링 내부의 적합성을 결정하기 위해 클러스터에 있는 모든 객체의 평균 실루엣 계수 값을 계산할 수 있습니다. 데이터 세트에 있는 모든 객체의 평균 실루엣 계수 값은 그룹화의 품질을 평가하는 데 사용될 수 있습니다.

K-평균과 K-메도이드의 차이점은 무엇입니까?

K-means는 총 제곱 오차를 줄이려고 시도하는 반면 k-medoids는 군집에 있는 것으로 분류된 점과 군집의 중심으로 선택된 점 사이의 비유사도 합을 줄이려고 합니다. k-means 방법과 달리 k-medoids 알고리즘은 데이터 포인트를 중심(medoids 또는 exemplars)으로 선택합니다.