Análisis de conglomerados en minería de datos: aplicaciones, métodos y requisitos
Publicado: 2020-01-20Aquí vamos a discutir el análisis de conglomerados en la minería de datos. Entonces, primero háganos saber qué es la agrupación en clústeres en la minería de datos, luego su introducción y la necesidad de la agrupación en clústeres en la minería de datos. También vamos a discutir los algoritmos y las aplicaciones del análisis de conglomerados en la ciencia de datos. Más adelante aprenderemos sobre los diferentes enfoques en el análisis de conglomerados y los métodos de agrupamiento de minería de datos.
Tabla de contenido
¿Qué es el agrupamiento en minería de datos?
En la agrupación, un grupo de diferentes objetos de datos se clasifica como objetos similares. Un grupo significa un grupo de datos. Los conjuntos de datos se dividen en diferentes grupos en el análisis de conglomerados, que se basa en la similitud de los datos. Después de la clasificación de los datos en varios grupos, se asigna una etiqueta al grupo. Ayuda a adaptarse a los cambios haciendo la clasificación.
Leer: Ejemplos comunes de minería de datos.
¿Qué es el análisis de conglomerados en minería de datos?
El análisis de conglomerados en minería de datos significa encontrar el grupo de objetos que son similares entre sí en el grupo pero que son diferentes del objeto en otros grupos.
Aplicaciones del análisis de conglomerados de minería de datos
Hay muchos usos del análisis de agrupamiento de datos, como el procesamiento de imágenes, el análisis de datos, el reconocimiento de patrones, la investigación de mercado y muchos más. Utilizando la agrupación de datos, las empresas pueden descubrir nuevos grupos en la base de datos de clientes. La clasificación de los datos también se puede hacer en función de los patrones de compra.
La agrupación en minería de datos ayuda en la clasificación de animales y plantas que se realizan utilizando funciones o genes similares en el campo de la biología. Ayuda a comprender mejor la estructura de la especie. Las áreas se identifican utilizando el agrupamiento en minería de datos. En la base de datos de observación de la tierra se identifican terrenos que son similares entre sí.
Con base en la ubicación geográfica, el valor y el tipo de casa, se define un grupo de casas en la ciudad. La agrupación en clústeres en la minería de datos ayuda en el descubrimiento de información al clasificar los archivos en Internet. También se utiliza en aplicaciones de detección. El fraude en una tarjeta de crédito se puede detectar fácilmente mediante la agrupación en minería de datos que analiza el patrón de engaño. Lea más sobre las aplicaciones de la ciencia de datos en la industria financiera.
Ayuda a comprender cada grupo y sus características. Uno puede entender cómo se distribuyen los datos y funciona como una herramienta en la función de minería de datos.
Requisitos de la agrupación en minería de datos
- Interpretabilidad
El resultado de la agrupación debe ser utilizable, comprensible e interpretable.
- Ayuda a lidiar con datos desordenados
Por lo general, los datos están desordenados y desestructurados. No se puede analizar rápidamente, y es por eso que la agrupación de información es tan importante en la minería de datos. La agrupación puede dar cierta estructura a los datos organizándolos en grupos de objetos de datos similares. Se vuelve más cómodo para el experto en datos procesar los datos y también descubrir cosas nuevas.
- Alta dimensión
La agrupación de datos también puede manejar datos de gran dimensión junto con datos de pequeño tamaño.
- Se descubren grupos de formas de atributos
Las agrupaciones de formas arbitrarias se detectan mediante el algoritmo de agrupamiento. También se pueden encontrar racimos de pequeño tamaño y forma esférica.
- Usabilidad del algoritmo con múltiples tipos de datos
Se pueden usar muchos tipos diferentes de datos con algoritmos de agrupamiento. Los datos pueden ser como datos binarios, categóricos y basados en intervalos.
Leer: Algoritmos de minería de datos que debe conocer
- Escalabilidad de agrupamiento
La base de datos por lo general es enorme para manejar. El algoritmo debe ser escalable para manejar una base de datos extensa, por lo que debe ser escalable.
Métodos de agrupación en clústeres de minería de datos
1. Método de agrupamiento de particiones
En este método, digamos que la partición "m" se realiza en los objetos "p" de la base de datos. Un grupo estará representado por cada partición y m < p. K es el número de grupos después de la clasificación de objetos. Hay algunos requisitos que deben cumplirse con este método de agrupamiento de particiones y son: –
- Un objetivo solo debe pertenecer a un solo grupo.
- No debe haber ningún grupo sin un solo propósito.
Hay algunos puntos que deben recordarse en este tipo de Método de agrupamiento de particiones que son:
- Habrá una partición inicial si ya damos el no. de una partición (digamos m).
- Existe una técnica llamada reubicación iterativa, lo que significa que el objeto se moverá de un grupo a otro para mejorar la partición.
2. Métodos de agrupamiento jerárquico
En este método de agrupación jerárquica, el conjunto dado de un objeto de datos se crea en una especie de descomposición jerárquica. La formación de la descomposición jerárquica decidirá los fines de la clasificación. Hay dos tipos de enfoques para la creación de descomposición jerárquica, que son: –

1. Enfoque divisivo
Otro nombre para el enfoque divisivo es un enfoque de arriba hacia abajo. Al comienzo de este método, todos los objetos de datos se mantienen en el mismo grupo. Los clústeres más pequeños se crean dividiendo el grupo mediante la iteración continua. El método de iteración constante continuará hasta que se cumpla la condición de terminación. No se puede deshacer después de dividir o fusionar el grupo, y es por eso que este método no es tan flexible.
2. Enfoque aglomerativo
Otro nombre para este enfoque es el enfoque de abajo hacia arriba. Todos los grupos están separados al principio. Luego continúa fusionándose hasta que todos los grupos se fusionan o se cumple la condición de terminación.
Hay dos enfoques que se pueden utilizar para mejorar la calidad del agrupamiento jerárquico en la minería de datos, que son: –
- Uno debe analizar cuidadosamente los vínculos del objeto en cada partición del agrupamiento jerárquico.
- Se puede utilizar un algoritmo de aglomeración jerárquica para la integración de la aglomeración jerárquica. En este enfoque, primero, los objetos se agrupan en microclusters. Después de agrupar los objetos de datos en microclústeres, se realiza un macroagrupamiento en el microclúster.
3. Método de agrupamiento basado en la densidad
En este método de agrupamiento en Minería de Datos, la densidad es el enfoque principal. La noción de masa se utiliza como base para este método de agrupación. En este método de agrupación, el grupo seguirá creciendo continuamente. Debe haber al menos un número de puntos en el radio del grupo para cada punto de datos.
4. Método de agrupación en clústeres basado en cuadrículas
En este tipo de método de agrupación en clústeres basado en cuadrículas, se forma una cuadrícula usando el objeto en conjunto. Una estructura de cuadrícula se forma cuantificando el espacio del objeto en un número finito de celdas.
Ventaja del método de agrupamiento basado en Grid: –
- Tiempo de procesamiento más rápido: el tiempo de procesamiento de este método es mucho más rápido que de otra manera y, por lo tanto, puede ahorrar tiempo.
- Este método depende del no. de celdas en el espacio de cada dimensión cuantificada.
5. Métodos de agrupamiento basados en modelos
En este tipo de método de agrupamiento, cada grupo tiene una hipótesis para que pueda encontrar los datos que mejor se adapten al modelo. La función de densidad se agrupa para ubicar el grupo en este método.
6. Método de agrupamiento basado en restricciones
Se incorporan restricciones orientadas a la aplicación o al usuario para realizar el agrupamiento. La expectativa del usuario se conoce como la restricción. En este proceso de agrupación, la comunicación es muy interactiva, lo cual es proporcionado por las restricciones.
¿Qué tipo de clasificación no se considera un análisis de conglomerados?
- Partición de gráficos : el tipo de clasificación donde las áreas no son las mismas y solo se clasifican en función de la sinergia y la relevancia mutuas no es un análisis de conglomerados.
- Resultados de una consulta : en este tipo de clasificación, los grupos se crean en función de la especificación proporcionada por fuentes externas. No se cuenta como un análisis de conglomerados.
- Segmentación simple : la división de nombres en grupos separados de registro en función del apellido no califica como análisis de conglomerados.
- Clasificación supervisada : ese tipo de clasificación que se clasifica utilizando información de etiquetas no se puede decir como análisis de conglomerados porque el análisis de conglomerados implica un grupo basado en el patrón.
Conclusión
Así que ahora hemos aprendido muchas cosas sobre la agrupación de datos, como los enfoques y métodos de la agrupación de datos y el análisis de agrupación en minería de datos.
Si tiene curiosidad por aprender ciencia de datos, consulte nuestro Programa Ejecutivo PG en Ciencia de Datos de IIIT-B y upGrad, creado para profesionales que trabajan y ofrece más de 10 estudios de casos y proyectos, talleres prácticos, tutoría con expertos de la industria, 1 -on-1 con mentores de la industria, más de 400 horas de aprendizaje y asistencia laboral con las mejores empresas.
¿Cuáles son algunos de los inconvenientes del análisis de conglomerados?
El análisis de conglomerados es un enfoque estadístico que no presupone ningún conocimiento previo del mercado o del comportamiento del cliente. Algunos métodos de análisis de conglomerados producen resultados algo diferentes cada vez que se realiza el análisis estadístico. Esto puede surgir porque no existe un método único para el análisis de datos. Cambiar las salidas de datos puede ser confuso e irritante para los estudiantes que son nuevos en la noción de análisis de conglomerados.
¿Cómo se calcula la pureza del racimo y la calidad del racimo?
Multiplicamos el número total de puntos de datos por el número de etiquetas de clase precisas en cada grupo. La pureza aumenta a medida que aumenta el número de racimos en general. Si tenemos un modelo que organiza cada observación en su propio grupo, por ejemplo, la pureza se vuelve una. Podemos calcular el valor promedio del coeficiente de silueta de todos los objetos en un grupo para determinar su aptitud dentro de un grupo. El valor promedio del coeficiente de silueta de todos los objetos en el conjunto de datos puede usarse para evaluar la calidad de una agrupación.
¿Cuáles son las distinciones entre K-medias y K-medoides?
K-means intenta reducir el error cuadrático total, mientras que k-medoids intenta reducir la suma de las diferencias entre los puntos clasificados como pertenecientes a un grupo y un punto elegido como el centro del grupo. A diferencia del método k-means, el algoritmo k-medoids selecciona puntos de datos como centros (medoids o ejemplares).