Medidas de distancia en Mahout: los 3 principales tipos de medidas [2022]

Publicado: 2021-01-07

Mahout es un proyecto de código abierto de Apache Software Foundation que los científicos de datos utilizan para crear algoritmos de aprendizaje automático distribuidos o escalables. Mahout se centra principalmente en el álgebra lineal y sus algoritmos están escritos sobre la infraestructura de Hadoop. Algunas de las técnicas populares de minería de datos implementadas por este marco incluyen Recomendación, Clasificación y Agrupación. Las medidas de distancia en Mahout son un tema esencial para aprender en problemas de agrupamiento.

Dado que Mahout proporciona a los codificadores una estructura lista para usar y permite una gestión rápida y eficaz de datos masivos, se ha convertido en uno de los principales proyectos de Apache. Y varias empresas como Twitter, Facebook, LinkedIn, Adobe, Yahoo, etc. lo utilizan para sus tareas internas de minería de datos.

Saber más: 12 aplicaciones de minería de datos más útiles

Tabla de contenido

¿Qué son las medidas de distancia?

Como sugiere su nombre, es una medida de la distancia entre puntos de datos. Las medidas de distancia en Mahout calculan qué tan cerca se encuentran dos vectores arbitrarios e indican la similitud entre los puntos. Consideremos ahora algunos ejemplos.

Suponga que tiene una compañía telefónica y desea configurar una red de torres en una determinada región. Para garantizar una intensidad de señal óptima, debe determinar las ubicaciones para erigir las torres.
La administración autonómica quiere abrir una serie de salas públicas de urgencias. La ubicación de estas unidades en toda la región debe ser tal que se encuentren en la proximidad de las áreas propensas a accidentes.
Para una aplicación de la ley eficaz y una vigilancia estricta en áreas con altos índices de criminalidad, puede evaluar la vecindad en la que deben estar estacionadas las camionetas de patrulla.

En todos estos escenarios, puede ver que las medidas de distancia se encuentran en el centro de los algoritmos de agrupación. En problemas de aprendizaje no supervisados, este cálculo constituye uno de los factores más cruciales para la toma de decisiones. Su elección sobre la técnica de medición de distancia influirá en gran medida en los resultados.

Además, no necesita utilizar las técnicas disponibles en la Biblioteca Mahout. También puede aplicar un método personalizado para averiguar las métricas de distancia que se basan en el contexto de sus datos o algoritmos específicos. Todo lo que necesita hacer es implementar la lógica matemática para los puntos del vector y asignar un valor para determinar si esa implementación se encuentra dentro de un centroide en particular. El centro de un grupo se conoce como el centroide.

Más información sobre: Las principales empresas que contratan científicos de datos en la India

Repasando los conceptos básicos de la agrupación en clústeres

Antes de profundizar en las diferentes categorías, primero refrescaremos nuestros conceptos básicos sobre la agrupación en clústeres. Los clústeres son básicamente grupos de similitud o diferencia de instancias de datos. Aquí hay algunas aplicaciones de la vida real.

Los especialistas en marketing pueden utilizar la agrupación para segmentar a los clientes y ejecutar una estrategia de marketing dirigida.
Como fabricante de ropa, es posible que desee agrupar a las personas en función de tallas de camisetas similares, como "Pequeña", "Mediana" y "Grande". Un enfoque único para todos no funciona siempre. Y las camisetas personalizadas para cada persona pueden resultar caras.
En los sistemas de gestión de bibliotecas, la agrupación se utiliza para organizar libros y documentos según sus similitudes de contenido.
En una base de datos de observación de la Tierra, la agrupación puede ayudar a identificar áreas con un uso de la tierra similar.
En biología, la agrupación se puede utilizar para categorizar genes que tienen una funcionalidad similar y comprender estructuras inherentes a diferentes poblaciones de plantas y animales.

Además, todos los días se generan y utilizan grandes volúmenes de datos en esta era digital. Por lo tanto, el agrupamiento es una de las técnicas de minería de datos más utilizadas debido a la comodidad que ofrece.

La calidad de la agrupación está determinada por dos aspectos principales: el algoritmo de agrupación y la función de distancia.

Algoritmo de agrupamiento (particional, jerárquico, etc.)
Función de distancia (similitud o disimilitud)

Ahora que hemos revisado los conceptos básicos, pasemos a los diferentes tipos de medidas de distancia disponibles en Apache Mahout.

Leer: Análisis de conglomerados en minería de datos

Medidas de distancia en Mahout

Medida de distancia coseno

Este tipo de medida de distancia es la más adecuada para encontrar similitudes de texto. Dada una colección de documentos de texto, puede producir una jerarquía de temas agrupándolos usando las palabras comunes de mayor peso.

La medida de distancia del coseno utiliza el algoritmo TF-IDF para convertir atributos en vectores. Y los pesos de los vectores son más altos para las palabras temáticas que para las palabras vacías. Entonces, documentos similares tienen palabras temáticas comunes entre ellos. Como resultado, el vector centroide (o el centro del grupo) tiene un peso promedio más alto para las palabras temáticas.

Una de las aplicaciones más populares es la clasificación de páginas o los resúmenes de búsqueda que encuentra en las páginas de Google. El algoritmo primero forma grupos y luego encuentra el centroide. Este procedimiento también es útil para el descubrimiento de información en aplicaciones de IA como Siri y Alexa.

Medida de distancia entre clústeres

Es la distancia entre los objetos que pertenecen a dos grupos separados. La medida de distancia entre clústeres es adecuada para evaluar la calidad de su clúster. Si los centroides están demasiado cerca uno del otro, dificultará el proceso de creación de grupos con características similares. Por lo tanto, se vuelve fundamental establecer distinciones claras entre los miembros del grupo. El objetivo general es dividir o segmentar los puntos de datos en grupos específicos.

Leer más: Análisis de conglomerados en R

Medida de distancia intra-cluster

Esta medida te da la distancia entre dos miembros del mismo grupo. Por lo tanto, es lo opuesto a la medida de distancia entre grupos. Las distancias dentro del clúster son más pequeñas en comparación con las distancias entre clústeres. Pequeñas medidas de distancia entre objetos similares indican que los grupos están apretados y se discriminan de manera confiable entre sí.

Este tipo de métrica de distancia depende de dos cosas: i) penalización para objetos más lejanos ii) valor más pequeño para objetos más cercanos. Y los conglomerados que están más separados tienen una proporción alta de estos dos valores.

Ahora, veamos la siguiente demostración de las medidas de distancia de similitud en el análisis de conglomerados.

Un servicio de mensajería puede crear diferentes 'zonas de entrega' agrupando aquellas ubicaciones que tienen una distancia mínima entre ellas. De esta forma, el algoritmo facilita la entrega rápida y eficaz por parte del personal. Nuestra tarea es optimizar la distancia entre los puntos centroides de los conglomerados, minimizar la varianza dentro de los conglomerados y garantizar que los conjuntos de datos con las características más similares se agrupen juntos.

Aprenda cursos de ciencia de datos de las mejores universidades del mundo. Obtenga programas Executive PG, programas de certificados avanzados o programas de maestría para acelerar su carrera.

Terminando

Con esto, hemos explicado el concepto de medidas de distancia en Mahout . Y ahora que tiene la esencia de esta importante herramienta de big data, puede dilucidarla fácilmente en cualquier entrevista de trabajo. Además, una comprensión clara de las diferentes medidas de distancia lo ayudaría a lograr precisión al implementar algoritmos de agrupación.

Si tiene curiosidad por aprender sobre ciencia de datos, consulte el Diploma PG en ciencia de datos de IIIT-B y upGrad, creado para profesionales que trabajan y ofrece más de 10 estudios de casos y proyectos, talleres prácticos, tutoría con expertos de la industria, 1- on-1 con mentores de la industria, más de 400 horas de aprendizaje y asistencia laboral con las mejores empresas.

¿Qué es el análisis de conglomerados y cuáles son sus características?

Un proceso en el que definimos un objeto sin etiquetarlo se conoce como análisis de conglomerados. Utiliza la minería de datos para agrupar varios objetos similares en un solo grupo, como en el análisis discriminante. Sus aplicaciones incluyen reconocimiento de patrones, análisis de información, análisis de imágenes, aprendizaje automático, gráficos por computadora y varios otros campos.
El análisis de conglomerados es una tarea que se realiza utilizando varios otros algoritmos que son diferentes entre sí en muchos aspectos y, por lo tanto, crean un conglomerado.
Las siguientes son algunas de las características del análisis de conglomerados - El análisis de conglomerados es altamente escalable. Puede tratar con un conjunto diferente de atributos. Muestra alta dimensionalidad, Interpretabilidad.

¿Vale la pena contribuir a proyectos de código abierto?

Los proyectos de código abierto son aquellos proyectos cuyo código fuente está abierto a todos y cualquiera puede acceder a él para realizar modificaciones. Contribuir a proyectos de código abierto es muy beneficioso, ya que no solo mejora sus habilidades, sino que también le brinda grandes proyectos para incluir en su currículum.
Dado que muchas grandes empresas se están pasando al software de código abierto, será rentable para usted si comienza a contribuir desde el principio. Algunos de los grandes nombres como Microsoft, Google, IBM y Cisco han adoptado el código abierto de una forma u otra.
Existe una gran comunidad de desarrolladores competentes de código abierto que contribuyen constantemente a mejorar y actualizar el software. La comunidad es muy amigable para principiantes y siempre está lista para dar un paso adelante y dar la bienvenida a nuevos colaboradores. También hay una buena cantidad de documentación que puede guiarlo para contribuir al código abierto.

Diferenciar entre métodos univariados y multivariados.

El método univariante es el método más simple para manejar un valor atípico. No analiza ninguna relación, ya que es una sola variable y su propósito principal es analizar los datos y determinar el patrón asociado con ellos. La media, la mediana y la moda son ejemplos de patrones encontrados en los datos univariados.
Por otro lado, el método multivariante es para analizar tres o más variables. Es más preciso que el método anterior ya que, a diferencia del método univariante, el método multivariante trata con relaciones y patrones. El árbol aditivo, el análisis de correlación canónica y el análisis de conglomerados son algunas de las formas de realizar un análisis multivariado.