¿Qué es el agrupamiento y los diferentes tipos de métodos de agrupamiento?
Publicado: 2020-12-01Considérese en una conversación con el director de marketing de su organización. La organización quiere comprender mejor a los clientes con la ayuda de los datos para que pueda ayudar a sus objetivos comerciales y brindar una mejor experiencia a los clientes. Ahora, este es uno de los escenarios donde la agrupación en clústeres viene al rescate.
Tabla de contenido
¿Qué es la agrupación?
La agrupación en clústeres es un tipo de método de aprendizaje no supervisado de aprendizaje automático. En el método de aprendizaje no supervisado, las inferencias se extraen de los conjuntos de datos que no contienen variables de salida etiquetadas. Es una técnica de análisis exploratorio de datos que nos permite analizar los conjuntos de datos multivariados.
El agrupamiento es una tarea de dividir los conjuntos de datos en un cierto número de grupos de tal manera que los puntos de datos que pertenecen a un grupo tengan características similares. Los clústeres no son más que la agrupación de puntos de datos de manera que la distancia entre los puntos de datos dentro de los clústeres es mínima.
En otras palabras, los clústeres son regiones donde la densidad de puntos de datos similares es alta. Generalmente se usa para el análisis del conjunto de datos, para encontrar datos reveladores entre grandes conjuntos de datos y extraer inferencias de ellos. Generalmente, los cúmulos se ven en forma esférica, pero no es necesario ya que los cúmulos pueden tener cualquier forma. Aprenda sobre la agrupación en clústeres y más conceptos de ciencia de datos en nuestro curso en línea de ciencia de datos.
Depende del tipo de algoritmo que usemos, que decide cómo se crearán los clústeres. Las inferencias que deben extraerse de los conjuntos de datos también dependen del usuario, ya que no existe un criterio para una buena agrupación.
¿Cuáles son los tipos de métodos de agrupamiento?
El agrupamiento en sí mismo se puede clasificar en dos tipos, a saber. Agrupamiento duro y agrupamiento suave. En el agrupamiento duro, un punto de datos puede pertenecer a un solo grupo. Pero en el agrupamiento suave, el resultado proporcionado es una probabilidad de probabilidad de que un punto de datos pertenezca a cada uno de los números predefinidos de agrupamientos.
Clustering basado en la densidad
En este método, los grupos se crean en función de la densidad de los puntos de datos que se representan en el espacio de datos. Las regiones que se vuelven densas debido a la gran cantidad de puntos de datos que residen en esa región se consideran clústeres.
Los puntos de datos en la región dispersa (la región donde los puntos de datos son muy inferiores) se consideran ruido o valores atípicos. Los grupos creados en estos métodos pueden tener una forma arbitraria. Los siguientes son ejemplos de algoritmos de agrupamiento basados en la densidad:
DBSCAN (Agrupación espacial basada en la densidad de aplicaciones con ruido)
DBSCAN agrupa los puntos de datos en función de la métrica de distancia y el criterio de una cantidad mínima de puntos de datos. Toma dos parámetros: eps y puntos mínimos. Eps indica qué tan cerca deben estar los puntos de datos para ser considerados como vecinos. Se debe completar el criterio de puntos mínimos para considerar esa región como una región densa.
ÓPTICA (Puntos de pedido para identificar la estructura de agrupamiento)
Es similar en proceso a DBSCAN, pero atiende a uno de los inconvenientes del algoritmo anterior, es decir, la incapacidad de formar grupos a partir de datos de densidad arbitraria. Considera dos parámetros más que son la distancia del núcleo y la distancia de accesibilidad. La distancia central indica si el punto de datos que se está considerando es central o no al establecer un valor mínimo para él.
La distancia de accesibilidad es la distancia máxima del núcleo y el valor de la métrica de distancia que se utiliza para calcular la distancia entre dos puntos de datos. Una cosa a considerar sobre la distancia de accesibilidad es que su valor permanece sin definir si uno de los puntos de datos es un punto central.
HDBSCAN (Conglomerado espacial de aplicaciones con ruido basado en la densidad jerárquica)
HDBSCAN es un método de agrupamiento basado en la densidad que amplía la metodología DBSCAN al convertirla en un algoritmo de agrupamiento jerárquico.
Agrupación jerárquica
El agrupamiento jerárquico agrupa (aglomerativo o también denominado enfoque ascendente) o divide (divisivo o también denominado enfoque descendente) los clústeres en función de las métricas de distancia. En el agrupamiento aglomerativo, cada punto de datos actúa inicialmente como un grupo y luego agrupa los grupos uno por uno.
Divisivo es lo opuesto a Aglomerativo, comienza con todos los puntos en un grupo y los divide para crear más grupos. Estos algoritmos crean una matriz de distancia de todos los clústeres existentes y realizan la vinculación entre los clústeres en función de los criterios de vinculación. La agrupación de los puntos de datos se representa mediante el uso de un dendrograma. Hay diferentes tipos de vínculos: –
o Enlace simple : en el enlace simple, la distancia entre los dos grupos es la distancia más corta entre los puntos de esos dos grupos.
o Enlace completo : en el enlace completo, la distancia entre los dos grupos es la distancia más lejana entre los puntos de esos dos grupos.
o Enlace promedio : en el enlace promedio, la distancia entre los dos grupos es la distancia promedio de cada punto en el grupo con cada punto en otro grupo.
Leer: Ejemplos comunes de minería de datos.
Agrupación difusa
En el agrupamiento difuso, la asignación de los puntos de datos en cualquiera de los agrupamientos no es decisiva. Aquí, un punto de datos puede pertenecer a más de un grupo. Proporciona el resultado como la probabilidad de que el punto de datos pertenezca a cada uno de los grupos. Uno de los algoritmos utilizados en el agrupamiento difuso es el agrupamiento Fuzzy c-means.
Este algoritmo tiene un proceso similar al agrupamiento de K-Means y difiere en los parámetros que intervienen en el cálculo, como el fuzzificador y los valores de pertenencia.
Particionamiento Agrupación
Este método es una de las opciones más populares para que los analistas creen clústeres. En el agrupamiento de particiones, los clústeres se dividen en función de las características de los puntos de datos. Necesitamos especificar el número de clústeres que se crearán para este método de agrupación. Estos algoritmos de agrupamiento siguen un proceso iterativo para reasignar los puntos de datos entre grupos en función de la distancia. Los algoritmos que entran en esta categoría son los siguientes: –

o Agrupación de K-Means: – La agrupación de K-Means es uno de los algoritmos más utilizados. Divide los puntos de datos en k grupos en función de la métrica de distancia utilizada para el agrupamiento. El valor de 'k' debe ser definido por el usuario. La distancia se calcula entre los puntos de datos y los centroides de los grupos.
El punto de datos que está más cerca del centroide del grupo se asigna a ese grupo. Después de una iteración, vuelve a calcular los centroides de esos clústeres y el proceso continúa hasta que se completa un número predefinido de iteraciones o cuando los centroides de los clústeres no cambian después de una iteración.
Es un algoritmo muy costoso desde el punto de vista computacional, ya que calcula la distancia de cada punto de datos con los centroides de todos los grupos en cada iteración. Esto dificulta la implementación de lo mismo para grandes conjuntos de datos.
PAM (División alrededor de Medoids)
Este algoritmo también se denomina algoritmo k-medoid. También es similar en proceso al algoritmo de agrupamiento de K-means con la diferencia de estar en la asignación del centro del agrupamiento. En PAM, el medoid del clúster tiene que ser un punto de datos de entrada, mientras que esto no es cierto para el agrupamiento de K-means, ya que el promedio de todos los puntos de datos en un clúster puede no pertenecer a un punto de datos de entrada.
o CLARA (Clustering Large Applications) : – CLARA es una extensión del algoritmo PAM donde el tiempo de cálculo se ha reducido para que funcione mejor para grandes conjuntos de datos. Para lograr esto, selecciona una cierta porción de datos arbitrariamente entre el conjunto de datos completo como representante de los datos reales. Aplica el algoritmo PAM a múltiples muestras de los datos y elige los mejores grupos de varias iteraciones.
Lea también: Algoritmos de minería de datos que debe conocer
Agrupación basada en cuadrículas
En la agrupación en clústeres basada en cuadrículas, el conjunto de datos se representa en una estructura de cuadrícula que se compone de cuadrículas (también llamadas celdas). El enfoque general en los algoritmos de este método difiere del resto de los algoritmos.
Están más preocupados por el espacio de valor que rodea a los puntos de datos que por los puntos de datos en sí mismos. Una de las mayores ventajas de estos algoritmos es su reducción de la complejidad computacional. Esto lo hace apropiado para manejar grandes conjuntos de datos.
Después de dividir los conjuntos de datos en celdas, calcula la densidad de las celdas, lo que ayuda a identificar los grupos. Algunos algoritmos basados en el agrupamiento basado en cuadrículas son los siguientes: –
o STING (Enfoque de cuadrícula de información estadística) : – En STING, el conjunto de datos se divide recursivamente de manera jerárquica. Cada celda se subdivide en un número diferente de celdas. Captura las medidas estadísticas de las celdas, lo que ayuda a responder las consultas en una pequeña cantidad de tiempo.
o WaveCluster : – En este algoritmo, el espacio de datos se representa en forma de wavelets. El espacio de datos compone una señal n-dimensional que ayuda a identificar los grupos. Las partes de la señal con una frecuencia más baja y una amplitud alta indican que los puntos de datos están concentrados. Estas regiones se identifican como grupos por el algoritmo. Las partes de la señal donde la frecuencia alta representa los límites de los grupos. Para más detalles, puede consultar este documento .
o CLIQUE (Clustering in Quest) : – CLIQUE es una combinación de algoritmo de agrupamiento basado en densidad y en cuadrícula. Particiona el espacio de datos e identifica los subespacios utilizando el principio Apriori. Identifica los grupos calculando las densidades de las células.
Notas finales
En este artículo, vimos una descripción general de lo que es el agrupamiento y los diferentes métodos de agrupamiento junto con sus ejemplos. Este artículo estaba destinado a servirle para comenzar con la agrupación en clústeres.
Estos métodos de agrupamiento tienen sus propias ventajas y desventajas, lo que los restringe para que solo sean adecuados para ciertos conjuntos de datos. No es solo el algoritmo, sino que hay muchos otros factores, como las especificaciones de hardware de las máquinas, la complejidad del algoritmo, etc., que entran en escena cuando realiza un análisis en el conjunto de datos.
Como analista, debe tomar decisiones sobre qué algoritmo elegir y cuál proporcionaría mejores resultados en determinadas situaciones. La estrategia de un algoritmo sirve para todos no funciona en ninguno de los problemas de aprendizaje automático. Entonces, sigue experimentando y ensúciate las manos en el mundo de la agrupación.
Si tiene curiosidad por aprender ciencia de datos, consulte nuestro Programa Ejecutivo PG en Ciencia de Datos de IIIT-B y upGrad, creado para profesionales que trabajan y ofrece más de 10 estudios de casos y proyectos, talleres prácticos, tutoría con expertos de la industria, 1 -on-1 con mentores de la industria, más de 400 horas de aprendizaje y asistencia laboral con las mejores empresas.
¿Cuáles son los diferentes tipos de métodos de agrupamiento que se utilizan en la inteligencia de negocios?
La agrupación en clústeres es una técnica no dirigida utilizada en la minería de datos para identificar varios patrones ocultos en los datos sin llegar a ninguna hipótesis específica. La razón detrás del uso de la agrupación es identificar similitudes entre ciertos objetos y hacer un grupo de objetos similares.
Hay dos tipos diferentes de agrupamiento, que son métodos jerárquicos y no jerárquicos.
1. Agrupación no jerárquica
En este método, el conjunto de datos que contiene N objetos se divide en M grupos. En inteligencia de negocios, la técnica de agrupamiento no jerárquico más utilizada es K-means.
2. Agrupación jerárquica
En este método, se produce un conjunto de clústeres anidados. En estos clústeres anidados, cada par de objetos se anida aún más para formar un clúster grande hasta que al final solo queda un clúster.
¿Cuándo se utiliza el agrupamiento?
La función principal del agrupamiento es realizar la segmentación, ya sea por tienda, producto o cliente. Los clientes y productos se pueden agrupar en grupos jerárquicos basados en diferentes atributos.
Se ve otro uso de la técnica de agrupación para detectar anomalías como transacciones fraudulentas. Aquí, se detecta un grupo con todas las transacciones buenas y se mantiene como muestra. Esto se dice que es un grupo normal . Cada vez que algo está fuera de la línea de este grupo, se incluye en la sección de sospechosos. Se ha encontrado que este método es realmente útil para detectar la presencia de células anormales en el cuerpo.
Aparte de eso, la agrupación en clústeres se usa ampliamente para desglosar grandes conjuntos de datos para crear grupos de datos más pequeños. Esto mejora la eficiencia de la evaluación de los datos.
¿Cuáles son las ventajas del Clustering?
Se dice que el agrupamiento es más efectivo que el muestreo aleatorio de los datos dados debido a varias razones. Las dos principales ventajas de la agrupación son:
1. Requiere menos recursos
Un clúster crea un grupo de menos recursos de toda la muestra. Debido a esto, existe un menor requerimiento de recursos en comparación con el muestreo aleatorio. El muestreo aleatorio requerirá gastos administrativos y de viaje, pero este no es el caso aquí.
2. Opción factible
Aquí, cada grupo determina un conjunto completo de la población ya que se crean grupos homogéneos a partir de toda la población. Con esto, se vuelve fácil incluir más sujetos en un solo estudio.