Análise de cluster no R: um guia completo que você precisará [2022]

Publicados: 2021-01-04

Se você já pisou um dedo do pé no mundo da ciência de dados ou Python, você já deve ter ouvido falar de R.

Desenvolvido como um projeto GNU, R é uma linguagem e um ambiente projetado para gráficos e computação estatística. É semelhante à linguagem S e, portanto, pode ser considerada como sua implementação.

Como linguagem, R é altamente extensível. Ele fornece uma variedade de técnicas estatísticas e gráficas, como análise de séries temporais, modelagem linear, modelagem não linear, agrupamento, classificação e testes estatísticos clássicos.

É uma dessas técnicas que iremos explorar mais profundamente e que é o agrupamento ou análise de agrupamento!

Índice

O que é análise de cluster?

Nos termos mais simples, o agrupamento é um método de segmentação de dados pelo qual os dados são particionados em vários grupos com base na similaridade.

Como é avaliada a semelhança? Com base em medidas de distância entre observações. Estas podem ser medidas de distância euclidianas ou baseadas em correlação.

A análise de cluster é um dos métodos mais populares e de certa forma intuitivos de análise de dados e mineração de dados. É ideal para casos em que há dados volumosos e temos que extrair insights deles. Nesse caso, os dados em massa podem ser divididos em subconjuntos ou grupos menores.

Os pequenos grupos que são formados e derivados de todo o conjunto de dados são conhecidos como clusters. Estes são obtidos realizando uma ou mais operações estatísticas. Cada cluster, embora contenha elementos diferentes, compartilha as seguintes propriedades:

  1. Seus números não são conhecidos com antecedência.
  2. Eles são obtidos realizando uma operação estatística.
  3. Cada cluster contém objetos semelhantes e com características comuns.

Mesmo sem o nome 'chique' de análise de cluster, a mesma é muito utilizada no dia a dia.

No nível individual, agrupamos as coisas que precisamos levar na mala quando saímos de férias. Primeiro roupas, depois produtos de higiene pessoal, depois livros e assim por diante. Criamos categorias e depois as abordamos individualmente.

As empresas também usam a análise de cluster quando realizam segmentação em suas listas de e-mail e categorizam os clientes com base em idade, histórico econômico, comportamento de compra anterior etc.

A análise de cluster também é chamada de 'aprendizagem de máquina não supervisionada' ou reconhecimento de padrões. Não supervisionado porque não estamos procurando categorizar amostras específicas apenas em amostras específicas. Aprendendo porque o algoritmo também aprende a agrupar.

3 Métodos de Agrupamento

Temos três métodos que são mais usados ​​para clustering. Estes são:

  1. Clustering Hierárquico Aglomerativo
  2. Agrupamento relacional/método de Condorcet
  3. agrupamento k-means

1. Agrupamento Hierárquico Aglomerativo

Este é o tipo mais comum de agrupamento hierárquico. O algoritmo para AHC funciona de forma ascendente. Ele começa considerando cada ponto de dados como um cluster em si (chamado de folha).

Em seguida, combina os dois clusters mais semelhantes. Esses clusters novos e maiores são chamados de nós. O agrupamento é repetido até que todo o conjunto de dados se reúna como um único e grande cluster chamado raiz.

Visualizar e desenhar cada etapa do processo AHC leva à geração de uma árvore chamada dendrograma.

A reversão do processo AHC leva ao agrupamento divisivo e à geração de agrupamentos.

O dendrograma também pode ser visualizado como:

Fonte

Concluindo, se você deseja um algoritmo que seja bom para identificar pequenos clusters, escolha o AHC. Se você deseja um que seja bom em identificar grandes clusters, o método de clustering divisivo deve ser sua escolha.

2. Agrupamento relacional/método de Condorcet

'Agrupamento por Agregação de Similaridade' é outro nome para este método. Funciona da seguinte forma:

Os objetos individuais em pares que constroem o agrupamento global são comparados. Aos vetores m(A, B) e d(A, B), é atribuído um par de valores individuais (A, B). No vetor b(A, B), tanto A quanto B têm os mesmos valores, enquanto que, no vetor d(A, B), ambos têm valores diferentes).

Diz-se que os dois valores individuais de A e B seguem o critério de Condorcet da seguinte forma:

c(A, B) = m(A, B)-d(A, B)

Para um valor individual como A e um cluster chamado S, o critério de Condorcet é:

c(A,S) = Σi c (A, Bi )

A soma total é Bi ∈ S.

Com as condições acima satisfeitas, são construídos agrupamentos da forma c(A, S). A pode ter o menor valor de 0 e é o maior de todos os pontos de dados no cluster.

Finalmente, o critério global de Condorcet é calculado. Isso é feito realizando uma soma dos pontos de dados individuais presentes em A e o cluster SA que os contém.

As etapas acima são repetidas até que o critério global de Condorcet não melhore ou o maior número de iterações seja alcançado.

3. Agrupamento de k-médias

Este é um dos algoritmos de particionamento mais populares. Todos os dados disponíveis (às vezes também chamados de pontos de dados/observações) serão agrupados apenas nesses grupos. Aqui está um detalhamento de como o algoritmo procede:

  1. Selecione k clusters aleatoriamente. Essas k linhas também significarão encontrar k centroides para cada cluster.
  2. Cada ponto de dados é então atribuído ao centroide mais próximo a ele.
  3. À medida que mais e mais pontos de dados são atribuídos, os centroides são recalculados como a média de todos os pontos de dados (sendo) adicionados.
  4. Continue atribuindo pontos de dados e deslocando o centroide conforme necessário.
  5. Repita as etapas 3 e 4 até que nenhum ponto de dados altere o cluster.

A distância entre um ponto de dados e um centroide é calculada usando um dos seguintes métodos:

  1. Distância euclidiana
  2. distância de Manhattan
  3. Distância de Minlowski

A mais popular delas - a distância euclidiana - é calculada da seguinte forma:

Cada vez que o algoritmo é executado, diferentes grupos são retornados como resultado. A primeira atribuição à variável k é completamente aleatória. Isso torna o k-means muito sensível à primeira escolha. Como resultado, torna-se quase impossível obter o mesmo agrupamento, a menos que o número de grupos e observações gerais sejam pequenos.

Como atribuir um valor a No início, atribuiremos aleatoriamente um valor a k que ditará a direção em que os resultados seguirão. Para garantir que a melhor escolha seja feita, é útil ter em mente a seguinte fórmula:

Aqui, n é o número de pontos de dados no conjunto de dados.

Independentemente da presença de uma fórmula, o número de clusters seria fortemente dependente da natureza do conjunto de dados, da indústria e do negócio a que pertence, etc. Portanto, é aconselhável prestar atenção também à própria experiência e intuição.

Com o tamanho de cluster errado, o agrupamento pode não ser tão eficaz e pode levar ao overfitting. Devido ao overfitting, novos pontos de dados podem não conseguir encontrar um lugar no cluster, pois o algoritmo extraiu os pequenos detalhes e toda a generalização é perdida.

Aplicações da Análise de Cluster

Então, onde exatamente são usados ​​os poderosos métodos de agrupamento? Mencionamos superficialmente alguns exemplos acima. Abaixo estão mais alguns exemplos:

Medicina e saúde

Com base na idade e composição genética dos pacientes, os médicos são capazes de fornecer um diagnóstico melhor. Isso acaba levando a um tratamento mais benéfico e alinhado. Novos medicamentos também podem ser descobertos desta forma. Agrupamento em medicina é denominado como nosologia.

Sociologia

Nas esferas sociais, agrupar as pessoas com base em dados demográficos, idade, ocupação, local de residência etc. ajuda o governo a fazer cumprir as leis e moldar políticas adequadas a diversos grupos.

Marketing

Em marketing, o termo clustering é substituído por segmentação/análise tipológica. É usado para explorar e selecionar potenciais compradores de um determinado produto. As empresas então testam os elementos de cada cluster para saber quais clientes apresentam comportamento pró-retenção.

Perfil cibernético

Como entrada para o algoritmo de agrupamento que será implementado aqui, são inseridas as páginas da web anteriores acessadas por um usuário. Essas páginas da web são então agrupadas. Ao final, é gerado um perfil do usuário, baseado em sua atividade de navegação. Da personalização à segurança cibernética, esse resultado pode ser aproveitado em qualquer lugar.

Retalho

As lojas também se beneficiam do agrupamento de clientes com base em idade, preferências de cor, preferências de estilo, compras anteriores, etc. Isso ajuda os varejistas a criar experiências personalizadas e também planejar ofertas futuras alinhadas aos desejos dos clientes.

Conclusão

Como é evidente, a análise de cluster é um método altamente valioso - não importa a linguagem ou o ambiente em que é implementado. Quer se queira obter insights, desenvolver padrões ou esculpir perfis, a análise de cluster é uma ferramenta muito útil com resultados que podem ser praticamente implementado. A proficiência em trabalhar com os vários algoritmos de agrupamento pode levar a uma análise de dados precisa e verdadeiramente valiosa.

Aprenda cursos de ciência de dados das melhores universidades do mundo. Ganhe Programas PG Executivos, Programas de Certificado Avançado ou Programas de Mestrado para acelerar sua carreira.

Prepare-se para uma carreira do futuro

DIPLOMA PG DO IIIT-B, 100+ HRS DE APRENDIZAGEM EM SALA DE AULA, 400+ HRS DE APRENDIZAGEM ONLINE E SUPORTE DE CARREIRA 360 GRAUS
Saber mais