Medidas de distância no Mahout: 3 principais tipos de medidas [2022]

Publicados: 2021-01-07

Mahout é um projeto de código aberto da Apache Software Foundation que os cientistas de dados usam para criar algoritmos de aprendizado de máquina distribuídos ou escaláveis. Mahout se concentra principalmente em álgebra linear e seus algoritmos são escritos sobre a infraestrutura do Hadoop. Algumas das técnicas populares de mineração de dados implementadas por essa estrutura incluem recomendação, classificação e agrupamento. As medidas de distância no Mahout são um tópico essencial para aprender para problemas de clustering.

Como o Mahout fornece aos codificadores uma estrutura pronta para uso e permite o gerenciamento rápido e eficaz de dados em massa, ele se tornou um dos principais projetos do Apache. E várias empresas como Twitter, Facebook, LinkedIn, Adobe, Yahoo, etc. o usam para suas tarefas internas de mineração de dados.

Saiba mais: 12 aplicativos de mineração de dados mais úteis

Índice

O que são medidas de distância?

Como o nome sugere, é uma medida da distância entre os pontos de dados. As medidas de distância no Mahout calculam a proximidade de dois vetores arbitrários e indicam a semelhança entre os pontos. Consideremos agora alguns exemplos.

Suponha que você administre uma companhia telefônica e queira configurar uma rede de torres em uma determinada região. Para garantir a intensidade ideal do sinal, você precisa determinar os locais para erguer as torres.
A administração regional quer abrir uma série de enfermarias públicas de atendimento de emergência. A localização dessas unidades em toda a região deve ser tal que fiquem próximas às áreas propensas a acidentes.
Para aplicação da lei eficaz e vigilância rigorosa em áreas com altas taxas de criminalidade, você pode avaliar a vizinhança em que as vans de patrulha devem estar estacionadas.

Em todos esses cenários, você pode ver que as medidas de distância estão no centro dos algoritmos de agrupamento. Em problemas de aprendizagem não supervisionados, esta computação constitui um dos fatores mais cruciais para a tomada de decisão. Sua escolha sobre a técnica de medição de distância influenciaria muito os resultados.

Além disso, você não precisa usar as técnicas disponíveis na Biblioteca Mahout. Você também pode aplicar um método personalizado para descobrir métricas de distância baseadas no contexto de seus dados ou algoritmos específicos. Tudo o que você precisa fazer é implementar a lógica matemática para os pontos do vetor e atribuir um valor para determinar se essa implementação se enquadra em um centroide específico. O centro de um cluster é chamado de centroide.

Saiba mais sobre: Principais empresas que contratam cientistas de dados na Índia

Aprimorando os conceitos básicos de clustering

Antes de nos aprofundarmos nas diferentes categorias, vamos primeiro atualizar nossos conceitos básicos sobre clustering. Clusters são basicamente grupos de similaridade ou dissimilaridade de instâncias de dados. Aqui estão algumas aplicações da vida real.

Os profissionais de marketing podem usar o clustering para segmentar clientes e executar uma estratégia de marketing direcionada.
Como fabricante de roupas, você pode agrupar pessoas de acordo com tamanhos de camiseta semelhantes, como "Pequeno", "Médio" e "Grande". Uma abordagem de tamanho único não funciona sempre. E camisetas personalizadas para cada pessoa podem ser caras.
Em sistemas de gerenciamento de bibliotecas, o agrupamento é usado para organizar livros e documentos de acordo com suas semelhanças de conteúdo.
Em um banco de dados de observação da Terra, o agrupamento pode ajudar a identificar áreas com uso da terra semelhante.
Em biologia, o agrupamento pode ser usado para categorizar genes com funcionalidade semelhante e compreender estruturas inerentes a diferentes populações de plantas e animais.

Além disso, grandes volumes de dados são gerados e usados todos os dias nesta era digital. Portanto, o clustering é uma das técnicas de mineração de dados mais utilizadas devido à conveniência que oferece.

A qualidade do agrupamento é determinada por dois aspectos primários – o algoritmo de agrupamento e a função de distância.

Algoritmo de agrupamento (particional, hierárquico, etc.)
Função de distância (semelhança ou dissimilaridade)

Agora que revisamos os conceitos fundamentais, vamos passar para os diferentes tipos de medidas de distância disponíveis no Apache Mahout.

Leia: Análise de cluster em mineração de dados

Medidas de distância em Mahout

Medida de distância do cosseno

Esse tipo de medida de distância é mais adequado para encontrar similaridade de texto. Dada uma coleção de documentos de texto, ele pode produzir uma hierarquia de tópicos agrupando-os usando as palavras comuns de maior peso.

A medida de distância cosseno usa o algoritmo TF-IDF para converter atributos em vetores. E os pesos vetoriais são maiores para as palavras de tópico do que para palavras de parada. Portanto, documentos semelhantes têm palavras de tópico comuns entre eles. Como resultado, o vetor centroide (ou o centro do cluster) tem um peso médio maior para as palavras do tópico.

Um dos aplicativos mais populares são os rankings de página ou resumos de pesquisa que você encontra nas páginas do Google. O algoritmo primeiro forma clusters e depois encontra o centróide. Esse procedimento também é útil para descoberta de informações em aplicativos de IA, como Siri e Alexa.

Medida de distância entre clusters

É a distância entre os objetos pertencentes a dois clusters separados. A medida de distância entre clusters é apropriada para avaliar a qualidade de seu cluster. Se os centróides estiverem muito próximos uns dos outros, isso dificultará o processo de criação de grupos com características semelhantes. Portanto, torna-se fundamental traçar distinções claras entre os membros do cluster. O objetivo geral é particionar ou segmentar os pontos de dados em clusters específicos.

Leia mais: Análise de Cluster em R

Medida de distância intragrupo

Essa medida fornece a distância entre dois membros do mesmo cluster. Portanto, é o oposto da medida de distância entre clusters. As distâncias intra-cluster são menores em comparação com as distâncias inter-cluster. Pequenas medidas de distância entre objetos semelhantes indicam que os aglomerados são compactos e discriminados de forma confiável uns dos outros.

Esse tipo de métrica de distância depende de duas coisas: i) penalidade para objetos mais distantes ii) valor menor para objetos mais próximos. E os clusters mais separados têm uma alta proporção desses dois valores.

Agora, vejamos a seguinte demonstração de medidas de distância de similaridade na análise de cluster.

Um serviço de correio pode criar diferentes 'zonas de entrega' agrupando os locais que têm uma distância mínima entre eles. Desta forma, o algoritmo facilita a entrega rápida e eficaz pelo pessoal. Nossa tarefa é otimizar a distância entre os pontos centroides dos clusters, minimizar a variação intra-cluster e garantir que os conjuntos de dados com as características mais semelhantes sejam agrupados.

Aprenda cursos de ciência de dados das melhores universidades do mundo. Ganhe Programas PG Executivos, Programas de Certificado Avançado ou Programas de Mestrado para acelerar sua carreira.

Empacotando

Com isso, explicamos o conceito de medidas de distância no Mahout . E agora que você tem a essência dessa importante ferramenta de big data, pode elucidá-la facilmente em qualquer entrevista de emprego. Além disso, uma compreensão clara das diferentes medidas de distância ajudaria você a obter precisão ao implementar algoritmos de agrupamento.

Se você está curioso para aprender sobre ciência de dados, confira o PG Diploma in Data Science do IIIT-B & upGrad, que é criado para profissionais que trabalham e oferece mais de 10 estudos de caso e projetos, workshops práticos práticos, orientação com especialistas do setor, 1- on-1 com mentores do setor, mais de 400 horas de aprendizado e assistência de trabalho com as principais empresas.

O que é análise de cluster e quais são suas características?

Um processo no qual definimos um objeto sem rotulá-lo é conhecido como análise de cluster. Ele usa mineração de dados para agrupar vários objetos semelhantes em um único cluster, assim como na análise discriminante. Suas aplicações incluem reconhecimento de padrões, análise de informações, análise de imagens, aprendizado de máquina, computação gráfica e vários outros campos.
A análise de cluster é uma tarefa que é realizada usando vários outros algoritmos que são diferentes entre si de várias maneiras e, assim, criando um cluster.
A seguir estão algumas das características da análise de cluster - A análise de cluster é altamente escalável. Ele pode lidar com um conjunto diferente de atributos. Mostra alta dimensionalidade, Interpretabilidade.

Vale a pena contribuir para projetos de código aberto?

Projetos de código aberto são aqueles cujo código-fonte é aberto a todos e qualquer pessoa pode acessá-lo para fazer modificações nele. Contribuir para projetos de código aberto é altamente benéfico, pois não apenas aprimora suas habilidades, mas também oferece alguns grandes projetos para colocar em seu currículo.
Como muitas grandes empresas estão mudando para software de código aberto, será lucrativo para você se você começar a contribuir com antecedência. Alguns dos grandes nomes como Microsoft, Google, IBM e Cisco adotaram o código aberto de uma forma ou de outra.
Existe uma grande comunidade de desenvolvedores de código aberto proficientes por aí que estão constantemente contribuindo para tornar o software melhor e atualizado. A comunidade é altamente amigável para iniciantes e está sempre pronta para dar as boas-vindas a novos contribuidores. Há também uma boa quantidade de documentação que pode orientar sua maneira de contribuir para o código aberto.

Diferencie métodos univariados e multivariados.

O método univariado é o método mais simples para lidar com um outlier. Ele não faz uma visão geral de nenhum relacionamento, pois é uma única variável e seu principal objetivo é analisar os dados e determinar o padrão associado a eles. Média, mediana e moda são exemplos de padrões encontrados nos dados univariados.
Por outro lado, o método multivariado serve para analisar três ou mais variáveis. É mais preciso que o método anterior, pois, ao contrário do método univariado, o método multivariado lida com relacionamentos e padrões. Árvore Aditiva, Análise de Correlação Canônica e Análise de Cluster são algumas das maneiras de realizar análises multivariadas.