Análise de Cluster em Mineração de Dados: Aplicações, Métodos e Requisitos

Publicados: 2020-01-20

Aqui vamos discutir Análise de Cluster em Mineração de Dados. Então, primeiro vamos saber o que é clustering na mineração de dados, depois sua introdução e a necessidade de clustering na mineração de dados. Também vamos discutir os algoritmos e aplicações da análise de cluster em ciência de dados. Mais tarde, aprenderemos sobre as diferentes abordagens na análise de cluster e métodos de cluster de mineração de dados.

Índice

O que é Clustering em Data Mining?

No clustering, um grupo de objetos de dados diferentes é classificado como objetos semelhantes. Um grupo significa um cluster de dados. Os conjuntos de dados são divididos em diferentes grupos na análise de cluster, que se baseia na similaridade dos dados. Após a classificação dos dados em vários grupos, um rótulo é atribuído ao grupo. Ajuda na adaptação às mudanças fazendo a classificação.

Leia: Exemplos comuns de mineração de dados.

O que é Análise de Cluster em Mineração de Dados?

Análise de cluster em mineração de dados significa descobrir o grupo de objetos que são semelhantes entre si no grupo, mas são diferentes do objeto em outros grupos.

Aplicações de Análise de Cluster de Mineração de Dados

Existem muitos usos da análise de agrupamento de dados, como processamento de imagens, análise de dados, reconhecimento de padrões, pesquisa de mercado e muito mais. Usando o agrupamento de dados, as empresas podem descobrir novos grupos no banco de dados de clientes. A classificação dos dados também pode ser feita com base em padrões de compra.

Clustering em Data Mining ajuda na classificação de animais e plantas que são feitas usando funções ou genes semelhantes no campo da biologia. Ajuda a obter informações sobre a estrutura das espécies. As áreas são identificadas usando o agrupamento em mineração de dados. Na base de dados de observação da Terra são identificados terrenos semelhantes entre si.

Com base na localização geográfica, valor e tipo de casa, um grupo de casas é definido na cidade. O clustering na mineração de dados auxilia na descoberta de informações classificando os arquivos na internet. Também é usado em aplicações de detecção. A fraude em um cartão de crédito pode ser facilmente detectada usando clustering na mineração de dados que analisa o padrão de engano. Leia mais sobre as aplicações da ciência de dados no setor financeiro.

Ajuda a entender cada cluster e suas características. Pode-se entender como os dados são distribuídos, e isso funciona como uma ferramenta na função de mineração de dados.

Requisitos de Clustering em Data Mining

  • Interpretabilidade

O resultado do agrupamento deve ser utilizável, compreensível e interpretável.

  • Ajuda a lidar com dados confusos

Normalmente, os dados são confusos e não estruturados. Não pode ser analisado rapidamente, e é por isso que o agrupamento de informações é tão significativo na mineração de dados. O agrupamento pode dar alguma estrutura aos dados organizando-os em grupos de objetos de dados semelhantes. Torna-se mais confortável para o especialista em dados processar os dados e também descobrir coisas novas.

  • Alta Dimensão

O agrupamento de dados também é capaz de lidar com dados de alta dimensão juntamente com dados de tamanho pequeno.

  • Os clusters de forma de atributo são descobertos

Clusters de forma arbitrária são detectados usando o algoritmo de agrupamento. Aglomerados de tamanho pequeno com formato esférico também podem ser encontrados.

  • Usabilidade do algoritmo com vários tipos de dados

Muitos tipos diferentes de dados podem ser usados ​​com algoritmos de agrupamento. Os dados podem ser como dados binários, dados categóricos e baseados em intervalos.

Leia: Algoritmos de mineração de dados que você deve conhecer

  • Escalabilidade de clustering

O banco de dados geralmente é enorme para lidar. O algoritmo deve ser escalável para lidar com banco de dados extenso, portanto, precisa ser escalável.

Métodos de agrupamento de mineração de dados

1. Método de agrupamento de particionamento

Neste método, digamos que a partição “m” seja feita nos objetos “p” do banco de dados. Um cluster será representado por cada partição e m < p. K é o número de grupos após a classificação dos objetos. Existem alguns requisitos que precisam ser atendidos com este método de agrupamento de particionamento e são eles: –

  1. Um objetivo deve pertencer a apenas um grupo.
  2. Não deve haver nenhum grupo sem um único propósito.

Existem alguns pontos que devem ser lembrados neste tipo de método de agrupamento de particionamento que são:

  1. Haverá um particionamento inicial se já dermos não. de uma partição (digamos m).
  2. Existe uma técnica chamada realocação iterativa, que significa que o objeto será movido de um grupo para outro para melhorar o particionamento.

2. Métodos de agrupamento hierárquico

Neste método de agrupamento hierárquico, o conjunto dado de um objeto de dados é criado em uma espécie de decomposição hierárquica. A formação da decomposição hierárquica decidirá os propósitos da classificação. Existem dois tipos de abordagens para a criação da decomposição hierárquica, que são: –

1. Abordagem Divisora

Outro nome para a abordagem divisiva é uma abordagem de cima para baixo. No início deste método, todos os objetos de dados são mantidos no mesmo cluster. Clusters menores são criados dividindo o grupo usando a iteração contínua. O método de iteração constante continuará até que a condição de término seja atendida. Não se pode desfazer depois que o grupo é dividido ou mesclado, e é por isso que esse método não é tão flexível.

2. Abordagem aglomerativa

Outro nome para essa abordagem é a abordagem de baixo para cima. Todos os grupos são separados no início. Em seguida, ele continua mesclando até que todos os grupos sejam mesclados ou a condição de término seja atendida.

Existem duas abordagens que podem ser usadas para melhorar a qualidade do agrupamento hierárquico em mineração de dados, que são: –

  1. Deve-se analisar cuidadosamente as ligações do objeto em cada particionamento de agrupamento hierárquico.
  2. Pode-se usar um algoritmo aglomerativo hierárquico para a integração da aglomeração hierárquica. Nesta abordagem, primeiro, os objetos são agrupados em micro-clusters. Depois de agrupar objetos de dados em microclusters, o macrocluster é executado no microcluster.

3. Método de agrupamento baseado em densidade

Nesse método de agrupamento em Mineração de Dados, a densidade é o foco principal. A noção de massa é usada como base para este método de agrupamento. Neste método de agrupamento, o agrupamento continuará crescendo continuamente. Pelo menos um número de pontos deve estar lá no raio do grupo para cada ponto de dados.

4. Método de agrupamento baseado em grade

Nesse tipo de método de agrupamento baseado em grade, uma grade é formada usando o objeto em conjunto. Uma estrutura de grade é formada pela quantificação do espaço do objeto em um número finito de células.

Vantagem do método de agrupamento baseado em grade: –

  1. Tempo de processamento mais rápido: O tempo de processamento deste método é muito mais rápido do que de outra forma e, portanto, pode economizar tempo.
  2. Este método depende do nº. de células no espaço de cada dimensão quantizada.

5. Métodos de agrupamento baseados em modelos

Nesse tipo de método de agrupamento, cada agrupamento é hipotetizado para que possa encontrar os dados mais adequados ao modelo. A função de densidade é agrupada para localizar o grupo neste método.

6. Método de agrupamento baseado em restrições

Restrições orientadas ao aplicativo ou ao usuário são incorporadas para realizar o agrupamento. A expectativa do usuário é chamada de restrição. Nesse processo de agrupamento, a comunicação é muito interativa, o que é proporcionado pelas restrições.

Que tipos de classificação não são considerados uma análise de cluster?

  1. Graph Partitioning – O tipo de classificação onde as áreas não são as mesmas e são classificadas apenas com base na sinergia mútua e relevância não é análise de cluster.
  2. Resultados de uma consulta – Neste tipo de classificação, os grupos são criados com base na especificação dada por fontes externas. Não é contado como uma Análise de Cluster.
  3. Segmentação Simples – A divisão de nomes em grupos separados de registro com base no sobrenome não se qualifica como Análise de Cluster.
  4. Classificação Supervisionada – Esse tipo de classificação que é classificado usando informações de rótulo não pode ser chamado de Análise de Cluster porque a análise de cluster envolve grupo com base no padrão.

Conclusão

Portanto, agora aprendemos muitas coisas sobre Clustering de Dados, como as abordagens e métodos de Clustering de Dados e Análise de Cluster em mineração de dados.

Se você está curioso para aprender ciência de dados, confira nosso IIIT-B and upGrad's Executive PG Program in Data Science, criado para profissionais que trabalham e oferece mais de 10 estudos de caso e projetos, workshops práticos práticos, orientação com especialistas do setor, 1 -on-1 com mentores do setor, mais de 400 horas de aprendizado e assistência de trabalho com as principais empresas.

Quais são algumas das desvantagens da análise de cluster?

A análise de cluster é uma abordagem estatística que não pressupõe nenhum conhecimento prévio do mercado ou do comportamento do cliente. Alguns métodos de análise de cluster produzem resultados um pouco diferentes cada vez que a análise estatística é realizada. Isso pode ocorrer porque não existe um método único para a análise de dados. A alteração das saídas de dados pode ser confusa e irritante para os alunos que são novos na noção de análise de cluster.

Como a pureza e a qualidade do cluster são calculadas?

Multiplicamos o número total de pontos de dados pelo número de rótulos de classe precisos em cada cluster. A pureza aumenta à medida que o número de clusters aumenta em geral. Se tivermos um modelo que organiza cada observação em seu próprio cluster, por exemplo, a pureza se torna uma. Podemos calcular o valor médio do coeficiente de silhueta de todos os objetos em um cluster para determinar sua adequação dentro de um cluster. O valor médio do coeficiente de silhueta de todos os objetos no conjunto de dados pode ser usado para avaliar a qualidade de um agrupamento.

Quais são as diferenças entre K-means e K-medoids?

K-means tenta reduzir o erro quadrático total, enquanto k-medoids tenta reduzir a soma de dissimilaridades entre pontos classificados como estando em um cluster e um ponto escolhido como centro do cluster. Ao contrário do método k-means, o algoritmo k-medoids escolhe pontos de dados como centros (medoids ou exemplares).