Análisis de conglomerados en R: una guía completa que necesitará [2022]
Publicado: 2021-01-04Si alguna vez ha pisado un pie en el mundo de la ciencia de datos o Python, habrá oído hablar de R.
Desarrollado como un proyecto GNU, R es tanto un lenguaje como un entorno diseñado para gráficos y computación estadística. Es similar al lenguaje S y, por lo tanto, puede considerarse como su implementación.
Como lenguaje, R es altamente extensible. Proporciona una variedad de técnicas estadísticas y gráficas como análisis de series de tiempo, modelado lineal, modelado no lineal, agrupamiento, clasificación, pruebas estadísticas clásicas.
¡Es una de estas técnicas que exploraremos más profundamente y es el agrupamiento o análisis de conglomerados!
Tabla de contenido
¿Qué es el análisis de conglomerados?
En los términos más simples, el agrupamiento es un método de segmentación de datos mediante el cual los datos se dividen en varios grupos sobre la base de la similitud.
¿Cómo se evalúa la similitud? Sobre la base de medidas de distancia entre observaciones. Estas pueden ser medidas de distancia euclidianas o basadas en correlación.
El análisis de conglomerados es uno de los métodos de análisis de datos y minería de datos más populares y, en cierto modo, intuitivos. Es ideal para casos donde hay datos voluminosos y tenemos que extraer insights de ellos. En este caso, los datos masivos se pueden dividir en subconjuntos o grupos más pequeños.
Los pequeños grupos que se forman y se derivan de todo el conjunto de datos se conocen como clústeres. Estos se obtienen realizando una o más operaciones estadísticas. Cada grupo, aunque contiene diferentes elementos, comparte las siguientes propiedades:
- Sus números no se conocen de antemano.
- Se obtienen realizando una operación estadística.
- Cada grupo contiene objetos que son similares y tienen características comunes.
Incluso sin el nombre "elegante" de análisis de conglomerados, el mismo se usa mucho en la vida cotidiana.
A nivel individual, hacemos grupos de las cosas que necesitamos empacar cuando salimos de vacaciones. Primero ropa, luego artículos de tocador, luego libros, y así sucesivamente. Hacemos categorías y luego las abordamos individualmente.
Las empresas también utilizan el análisis de conglomerados cuando realizan la segmentación de sus listas de correo electrónico y categorizan a los clientes en función de la edad, la situación económica, el comportamiento de compra anterior, etc.
El análisis de conglomerados también se conoce como "aprendizaje automático no supervisado" o reconocimiento de patrones. Sin supervisión porque no buscamos categorizar muestras particulares solo en muestras particulares. Aprendizaje porque el algoritmo también aprende a agrupar.
3 métodos de agrupamiento
Tenemos tres métodos que se utilizan con mayor frecuencia para la agrupación. Estos son:
- Agrupación jerárquica aglomerativa
- Agrupamiento relacional/método de Condorcet
- agrupamiento de k-medias
1. Agrupación jerárquica aglomerativa
Este es el tipo más común de agrupación jerárquica. El algoritmo para AHC funciona de forma ascendente. Comienza considerando cada punto de datos como un grupo en sí mismo (llamado hoja).
Luego combina los dos grupos que son más similares. Estos clústeres nuevos y más grandes se denominan nodos. La agrupación se repite hasta que todo el conjunto de datos se junta como un solo grupo grande llamado raíz.
Visualizar y dibujar cada paso del proceso AHC conduce a la generación de un árbol llamado dendrograma.
Invertir el proceso AHC conduce a la agrupación divisiva y la generación de grupos.
El dendograma también se puede visualizar como:
Fuente
En conclusión, si desea un algoritmo que sea bueno para identificar pequeños grupos, opte por AHC. Si desea uno que sea bueno para identificar grandes grupos, entonces el método de agrupación por división debe ser su elección.
2. Clustering relacional/método de Condorcet
'Clustering by Similarity Aggregation' es otro nombre para este método. Funciona de la siguiente manera:
Se comparan los objetos individuales en pares que construyen el agrupamiento global. A los vectores m(A, B) y d(A, B) se les asigna un par de valores individuales (A, B). En el vector b(A, B), tanto A como B tienen los mismos valores, mientras que en el vector d(A, B), ambos tienen valores diferentes).
Se dice que los dos valores individuales de A y B siguen el criterio de Condorcet de la siguiente manera:
c(A, B) = m(A, B)- d(A, B)
Para un valor individual como A y un grupo llamado S, el criterio de Condorcet queda como:
c(A,S) = Σ yo c(A,B yo )
La suma total es Bi ∈ S.
Una vez cumplidas las condiciones anteriores, se construyen grupos de la forma c(A, S). A puede tener el valor mínimo de 0 y es el mayor de todos los puntos de datos del clúster.

Finalmente, se calcula el criterio global de Condorcet. Esto se hace realizando una suma de los puntos de datos individuales presentes en A y el grupo S A que los contiene.
Los pasos anteriores se repiten hasta que el criterio global de Condorcet no mejora o se alcanza el mayor número de iteraciones.
3. agrupamiento de k-medias
Este es uno de los algoritmos de partición más populares. Todos los datos disponibles (también llamados puntos de datos/observaciones a veces) se agruparán solo en estos grupos. Aquí hay un desglose de cómo procede el algoritmo:
- Seleccione k grupos al azar. Estas k filas también significarán encontrar k centroides para cada grupo.
- Luego, cada punto de datos se asigna al centroide más cercano a él.
- A medida que se asignan más y más puntos de datos, los centroides se recalculan como el promedio de todos los puntos de datos (que se agregan).
- Continúe asignando puntos de datos y desplazando el centroide según sea necesario.
- Repita los pasos 3 y 4 hasta que ningún punto de datos cambie de grupo.
La distancia entre un punto de datos y un centroide se calcula usando uno de los siguientes métodos:
- distancia euclidiana
- distancia entre manhattan
- distancia minlowski
La más popular de ellas, la distancia euclidiana, se calcula de la siguiente manera:
Cada vez que se ejecuta el algoritmo, se devuelven diferentes grupos como resultado. La primera asignación a la variable k es completamente aleatoria. Esto hace que k-means sea muy sensible a la primera opción. Como resultado, se vuelve casi imposible obtener el mismo agrupamiento a menos que el número de grupos y las observaciones generales sean pequeños.
¿Cómo asignar un valor a Al principio, asignaremos aleatoriamente un valor a k que dictará la dirección en la que se dirigirán los resultados. Para garantizar que se haga la mejor elección, es útil tener en cuenta la siguiente fórmula:
Aquí, n es el número de puntos de datos en el conjunto de datos.
Independientemente de la presencia de una fórmula, la cantidad de clústeres dependería en gran medida de la naturaleza del conjunto de datos, la industria y el negocio al que pertenece, etc. Por lo tanto, también es recomendable prestar atención a la propia experiencia e intuición.
Con el tamaño de grupo incorrecto, la agrupación puede no ser tan efectiva y puede dar lugar a un sobreajuste. Debido al sobreajuste, es posible que los nuevos puntos de datos no puedan encontrar un lugar en el grupo, ya que el algoritmo ha buscado los pequeños detalles y se pierde toda generalización.
Aplicaciones del análisis de conglomerados
Entonces, ¿dónde se utilizan exactamente los poderosos métodos de agrupamiento? Mencionamos brevemente algunos ejemplos arriba. A continuación se presentan algunos casos más:
medicina y salud
Sobre la base de la edad y la composición genética de los pacientes, los médicos pueden proporcionar un mejor diagnóstico. En última instancia, esto conduce a un tratamiento que es más beneficioso y alineado. También se pueden descubrir nuevos medicamentos de esta manera. La agrupación en medicina se denomina nosología.
Sociología
En las esferas sociales, agrupar a las personas en función de la demografía, la edad, la ocupación, el lugar de residencia, etc. ayuda al gobierno a hacer cumplir las leyes y diseñar políticas que se adapten a los diversos grupos.
Márketing
En marketing, el término agrupamiento se reemplaza por segmentación/análisis tipológico. Se utiliza para explorar y seleccionar compradores potenciales de un producto en particular. Luego, las empresas prueban los elementos de cada grupo para saber qué clientes muestran un comportamiento a favor de la retención.
perfiles cibernéticos
Como entrada para el algoritmo de agrupamiento que se implementará aquí, se ingresan las páginas web anteriores a las que accedió un usuario. Estas páginas web luego se agrupan. Al final se genera un perfil del usuario, en función de su actividad de navegación. Desde la personalización hasta la seguridad cibernética, este resultado se puede aprovechar en cualquier lugar.
Venta minorista
Los puntos de venta también se benefician de agrupar a los clientes según la edad, las preferencias de color, las preferencias de estilo, las compras anteriores, etc. Esto ayuda a los minoristas a crear experiencias personalizadas y también a planificar ofertas futuras alineadas con los deseos de los clientes.
Conclusión
Como es evidente, el análisis de conglomerados es un método muy valioso, sin importar el idioma o el entorno en el que se implemente. Ya sea que se desee obtener información, elaborar patrones o crear perfiles, el análisis de conglomerados es una herramienta muy útil con resultados que pueden implementarse en la práctica. La competencia en el trabajo con los diversos algoritmos de agrupación puede llevar a realizar un análisis de datos preciso y verdaderamente valioso.
Aprenda cursos de ciencia de datos de las mejores universidades del mundo. Obtenga programas Executive PG, programas de certificados avanzados o programas de maestría para acelerar su carrera.