O que é Clustering e Diferentes Tipos de Métodos de Clustering

Publicados: 2020-12-01

Considere-se conversando com o Diretor de Marketing da sua organização. A organização quer entender melhor os clientes com a ajuda de dados para que possa ajudar seus objetivos de negócios e entregar uma melhor experiência aos clientes. Agora, este é um dos cenários em que o clustering vem em socorro.

Índice

O que é Clusterização?
Quais são os tipos de métodos de agrupamento?
- Clustering Baseado em Densidade
- DBSCAN (Agrupamento Espacial Baseado em Densidade de Aplicativos com Ruído)
- ÓPTICA (Pontos de pedido para identificar a estrutura de agrupamento)
- HDBSCAN (Agrupamento Espacial Baseado em Densidade Hierárquica de Aplicativos com Ruído)
- Agrupamento hierárquico
- Agrupamento difuso
- Cluster de particionamento
- PAM (Particionamento em torno de Medoids)
- Clustering baseado em grade
Notas finais
- Quais são os diferentes tipos de métodos de agrupamento usados em business intelligence?
- Quando o clustering é usado?
- Quais são as vantagens do Cluster?

O que é Clusterização?

Clustering é um tipo de método de aprendizado não supervisionado de aprendizado de máquina. No método de aprendizado não supervisionado, as inferências são extraídas dos conjuntos de dados que não contêm variáveis de saída rotuladas. É uma técnica de análise exploratória de dados que nos permite analisar os conjuntos de dados multivariados.

Clustering é uma tarefa de dividir os conjuntos de dados em um certo número de clusters de forma que os pontos de dados pertencentes a um cluster tenham características semelhantes. Os clusters nada mais são do que o agrupamento de pontos de dados de forma que a distância entre os pontos de dados dentro dos clusters seja mínima.

Em outras palavras, os clusters são regiões onde a densidade de pontos de dados semelhantes é alta. Geralmente é usado para a análise do conjunto de dados, para encontrar dados perspicazes entre grandes conjuntos de dados e tirar inferências deles. Geralmente, os aglomerados são vistos em forma esférica, mas não é necessário, pois os aglomerados podem ter qualquer formato. Aprenda sobre clustering e mais conceitos de ciência de dados em nosso curso online de ciência de dados.

Depende do tipo de algoritmo que usamos que decide como os clusters serão criados. As inferências que precisam ser extraídas dos conjuntos de dados também dependem do usuário, pois não há critério para um bom agrupamento.

Quais são os tipos de métodos de agrupamento?

Clustering em si pode ser categorizado em dois tipos viz. Hard Clustering e Soft Clustering. No hard clustering, um ponto de dados pode pertencer apenas a um cluster. Mas no soft clustering, a saída fornecida é uma probabilidade de um ponto de dados pertencente a cada um dos números predefinidos de clusters.

Clustering Baseado em Densidade

Neste método, os clusters são criados com base na densidade dos pontos de dados que são representados no espaço de dados. As regiões que se tornam densas devido ao grande número de pontos de dados que residem nessa região são consideradas clusters.

Os pontos de dados na região esparsa (a região onde os pontos de dados são muito menores) são considerados como ruído ou outliers. Os clusters criados nesses métodos podem ter formato arbitrário. A seguir estão os exemplos de algoritmos de clustering baseados em densidade:

DBSCAN (Agrupamento Espacial Baseado em Densidade de Aplicativos com Ruído)

O DBSCAN agrupa os pontos de dados com base na métrica de distância e critério para um número mínimo de pontos de dados. São necessários dois parâmetros – eps e pontos mínimos. Eps indica o quão perto os pontos de dados devem estar para serem considerados vizinhos. O critério de pontos mínimos deve ser preenchido para considerar aquela região como uma região densa.

ÓPTICA (Pontos de pedido para identificar a estrutura de agrupamento)

É semelhante em processo ao DBSCAN, mas atende a uma das desvantagens do algoritmo anterior, ou seja, a incapacidade de formar clusters a partir de dados de densidade arbitrária. Ele considera mais dois parâmetros que são a distância do núcleo e a distância de acessibilidade. A distância do núcleo indica se o ponto de dados que está sendo considerado é núcleo ou não, definindo um valor mínimo para ele.

A distância de acessibilidade é o máximo da distância do núcleo e o valor da métrica de distância que é usada para calcular a distância entre dois pontos de dados. Uma coisa a considerar sobre a distância de acessibilidade é que seu valor permanece não definido se um dos pontos de dados for um ponto central.

HDBSCAN (Agrupamento Espacial Baseado em Densidade Hierárquica de Aplicativos com Ruído)

HDBSCAN é um método de agrupamento baseado em densidade que estende a metodologia DBSCAN convertendo-a em um algoritmo de agrupamento hierárquico.

Agrupamento hierárquico

O agrupamento hierárquico agrupa (aglomerativo ou também chamado de abordagem de baixo para cima) ou divide (divisivo ou também chamado de abordagem de cima para baixo) os clusters com base nas métricas de distância. No agrupamento aglomerativo, cada ponto de dados atua como um cluster inicialmente e, em seguida, agrupa os clusters um a um.

Divisivo é o oposto de Aglomerativo, ele começa com todos os pontos em um cluster e os divide para criar mais clusters. Esses algoritmos criam uma matriz de distância de todos os clusters existentes e realizam a ligação entre os clusters dependendo dos critérios de ligação. O agrupamento dos pontos de dados é representado usando um dendrograma. Existem diferentes tipos de ligações: –

o Ligação Simples : – Na ligação simples, a distância entre os dois clusters é a distância mais curta entre os pontos nesses dois clusters.

o Ligação Completa : – Na ligação completa, a distância entre os dois clusters é a distância mais distante entre os pontos nesses dois clusters.

o Ligação Média : – Na ligação média, a distância entre os dois clusters é a distância média de cada ponto do cluster com cada ponto de outro cluster.

Leia: Exemplos comuns de mineração de dados.

Agrupamento difuso

No agrupamento fuzzy, a atribuição dos pontos de dados em qualquer um dos agrupamentos não é decisiva. Aqui, um ponto de dados pode pertencer a mais de um cluster. Ele fornece o resultado como a probabilidade do ponto de dados pertencente a cada um dos clusters. Um dos algoritmos usados no agrupamento fuzzy é o agrupamento fuzzy c-means.

Esse algoritmo é semelhante em processo ao agrupamento K-Means e difere nos parâmetros que estão envolvidos na computação, como fuzzifier e valores de associação.

Cluster de particionamento

Esse método é uma das escolhas mais populares para os analistas criarem clusters. No agrupamento de particionamento, os clusters são particionados com base nas características dos pontos de dados. Precisamos especificar o número de clusters a serem criados para este método de clustering. Esses algoritmos de agrupamento seguem um processo iterativo para reatribuir os pontos de dados entre os agrupamentos com base na distância. Os algoritmos que se enquadram nesta categoria são os seguintes: –

o Clustering K-Means: – O clustering K-Means é um dos algoritmos mais usados. Ele particiona os pontos de dados em k clusters com base na métrica de distância usada para o clustering. O valor de 'k' deve ser definido pelo usuário. A distância é calculada entre os pontos de dados e os centróides dos clusters.

O ponto de dados mais próximo do centroide do cluster é atribuído a esse cluster. Após uma iteração, ele calcula os centróides desses clusters novamente e o processo continua até que um número predefinido de iterações seja concluído ou quando os centróides dos clusters não mudam após uma iteração.

É um algoritmo muito caro computacionalmente, pois calcula a distância de cada ponto de dados com os centróides de todos os clusters em cada iteração. Isso dificulta a implementação do mesmo para grandes conjuntos de dados.

PAM (Particionamento em torno de Medoids)

Este algoritmo também é chamado de algoritmo k-medoid. Também é semelhante em processo ao algoritmo de agrupamento K-means, com a diferença na atribuição do centro do agrupamento. No PAM, o medoid do cluster deve ser um ponto de dados de entrada, enquanto isso não é verdade para clustering K-means, pois a média de todos os pontos de dados em um cluster pode não pertencer a um ponto de dados de entrada.

o CLARA (Clustering Large Applications) : – CLARA é uma extensão do algoritmo PAM onde o tempo de computação foi reduzido para torná-lo melhor para grandes conjuntos de dados. Para fazer isso, ele seleciona uma certa porção de dados arbitrariamente entre todo o conjunto de dados como representante dos dados reais. Ele aplica o algoritmo PAM a várias amostras dos dados e escolhe os melhores clusters de várias iterações.

Leia também: Algoritmos de mineração de dados que você deve conhecer

Clustering baseado em grade

No agrupamento baseado em grade, o conjunto de dados é representado em uma estrutura de grade que compreende grades (também chamadas de células). A abordagem geral nos algoritmos deste método difere do resto dos algoritmos.

Eles estão mais preocupados com o espaço de valor em torno dos pontos de dados do que com os próprios pontos de dados. Uma das maiores vantagens desses algoritmos é a redução da complexidade computacional. Isso o torna apropriado para lidar com conjuntos de dados gigantescos.

Depois de particionar os conjuntos de dados em células, ele calcula a densidade das células, o que ajuda a identificar os clusters. Alguns algoritmos baseados em clusters baseados em grade são os seguintes: –

o STING (Statistical Information Grid Approach) : – No STING, o conjunto de dados é dividido recursivamente de forma hierárquica. Cada célula é subdividida em um número diferente de células. Ele captura as medidas estatísticas das células, o que ajuda a responder as consultas em um curto período de tempo.

o WaveCluster : – Neste algoritmo, o espaço de dados é representado na forma de wavelets. O espaço de dados compõe um sinal n-dimensional que auxilia na identificação dos clusters. As partes do sinal com menor frequência e alta amplitude indicam que os pontos de dados estão concentrados. Essas regiões são identificadas como clusters pelo algoritmo. As partes do sinal onde a frequência alta representa os limites dos clusters. Para mais detalhes, você pode consultar este documento .

o CLIQUE (Clustering in Quest) : – CLIQUE é uma combinação de algoritmo de agrupamento baseado em densidade e baseado em grade. Ele particiona o espaço de dados e identifica os subespaços usando o princípio Apriori. Ele identifica os clusters calculando as densidades das células.

Notas finais

Neste artigo, vimos uma visão geral do que é clustering e os diferentes métodos de clustering junto com seus exemplos. Este artigo destina-se a ajudá-lo a começar a usar clusters.

Esses métodos de agrupamento têm seus próprios prós e contras, o que os restringe a serem adequados apenas para determinados conjuntos de dados. Não é apenas o algoritmo, mas há muitos outros fatores, como especificações de hardware das máquinas, complexidade do algoritmo, etc., que entram em cena quando você está realizando uma análise no conjunto de dados.

Como analista, você precisa tomar decisões sobre qual algoritmo escolher e qual forneceria melhores resultados em determinadas situações. Um algoritmo serve para todas as estratégias não funciona em nenhum dos problemas de aprendizado de máquina. Portanto, continue experimentando e suje as mãos no mundo dos clusters.

Se você está curioso para aprender ciência de dados, confira nosso IIIT-B and upGrad's Executive PG Program in Data Science, criado para profissionais que trabalham e oferece mais de 10 estudos de caso e projetos, workshops práticos práticos, orientação com especialistas do setor, 1 -on-1 com mentores do setor, mais de 400 horas de aprendizado e assistência de trabalho com as principais empresas.

Quais são os diferentes tipos de métodos de agrupamento usados em business intelligence?

Clustering é uma técnica não direcionada usada na mineração de dados para identificar vários padrões ocultos nos dados sem apresentar nenhuma hipótese específica. A razão por trás do uso de clustering é identificar semelhanças entre certos objetos e formar um grupo de objetos semelhantes.
Existem dois tipos diferentes de agrupamento, que são métodos hierárquicos e não hierárquicos.

1. Agrupamento não hierárquico

Neste método, o conjunto de dados contendo N objetos é dividido em M clusters. Em inteligência de negócios, a técnica de agrupamento não hierárquico mais usada é o K-means.
2. Agrupamento hierárquico
Nesse método, um conjunto de clusters aninhados é produzido. Nesses clusters aninhados, cada par de objetos é ainda aninhado para formar um grande cluster até que apenas um cluster permaneça no final.

Quando o clustering é usado?

A principal função do clustering é realizar a segmentação, seja loja, produto ou cliente. Clientes e produtos podem ser agrupados em grupos hierárquicos com base em diferentes atributos.
Outro uso da técnica de clustering é visto para detectar anomalias como transações fraudulentas. Aqui, um cluster com todas as transações boas é detectado e mantido como amostra. Isto é dito ser um cluster normal . Sempre que algo está fora da linha desse cluster, ele fica na seção suspeita. Este método é realmente útil para detectar a presença de células anormais no corpo.
Além disso, o clustering é amplamente usado para dividir grandes conjuntos de dados para criar grupos de dados menores. Isso aumenta a eficiência da avaliação dos dados.

Quais são as vantagens do Cluster?

O agrupamento é considerado mais eficaz do que a amostragem aleatória dos dados fornecidos devido a várias razões. As duas principais vantagens do clustering são:
1. Requer menos recursos
Um cluster cria um grupo de menos recursos de toda a amostra. Devido a isso, há uma menor exigência de recursos em comparação com a amostragem aleatória. A amostragem aleatória exigirá despesas de viagem e administrativas, mas este não é o caso aqui.
2. Opção viável
Aqui, cada cluster determina um conjunto inteiro da população à medida que grupos homogêneos são criados a partir de toda a população. Com isso, fica fácil incluir mais sujeitos em um único estudo.