Clustering en Machine Learning: 3 tipos de clustering explicados

Publicado: 2020-11-30

Tabla de contenido

Introducción

Machine Learning es una de las tecnologías más populares en 2020, ya que los datos aumentan día a día, la necesidad de Machine Learning también aumenta exponencialmente. El aprendizaje automático es un tema muy amplio que tiene diferentes algoritmos y casos de uso en cada dominio e industria. Uno de los cuales es el Aprendizaje No Supervisado en el que podemos ver el uso del Clustering.

El aprendizaje no supervisado es una técnica en la que la máquina aprende a partir de datos no etiquetados. Como no conocemos las etiquetas, no se da una respuesta correcta para que la máquina aprenda de ellas, pero la máquina misma encuentra algunos patrones a partir de los datos proporcionados para encontrar las respuestas al problema comercial.

La agrupación en clústeres es una técnica de aprendizaje no supervisado de aprendizaje automático que implica la agrupación de datos dados sin etiquetar. En cada conjunto de datos limpio, mediante el algoritmo de agrupamiento podemos agrupar los puntos de datos dados en cada grupo. El algoritmo de agrupamiento asume que los puntos de datos que están en el mismo grupo deben tener propiedades similares, mientras que los puntos de datos en diferentes grupos deben tener propiedades muy diferentes.

En este artículo, vamos a aprender la necesidad de agrupamiento, diferentes tipos de agrupamiento junto con sus ventajas y desventajas.

Leer: Requisito previo del aprendizaje automático

¿Cuál es la necesidad del Clustering?

La agrupación en clústeres es un algoritmo de ML ampliamente utilizado que nos permite encontrar relaciones ocultas entre los puntos de datos en nuestro conjunto de datos.

Ejemplos:

1) Los clientes se segmentan según las similitudes de los clientes anteriores y se pueden utilizar para recomendaciones.

2) Basándonos en una colección de datos de texto, podemos organizar los datos de acuerdo con las similitudes de contenido para crear una jerarquía de temas.

3) Procesamiento de imágenes principalmente en investigación biológica para identificar los patrones subyacentes.

4) Filtrado de spam.

5) Identificación de actividades fraudulentas y delictivas.

6) También se puede utilizar para fútbol y deportes de fantasía.

Tipos de agrupamiento

Hay muchos tipos de algoritmos de agrupamiento en aprendizaje automático. Vamos a discutir los siguientes tres algoritmos en este artículo:

1) Agrupación de K-Means.

2) Agrupamiento de desplazamiento medio.

3) DBSCAN.

1. Agrupación de K-Means

K-Means es el algoritmo de agrupación en clústeres más popular entre los otros algoritmos de agrupación en aprendizaje automático. Podemos ver este algoritmo utilizado en muchas industrias importantes o incluso en muchos cursos de introducción. Es uno de los modelos más fáciles para comenzar, tanto en implementación como en comprensión.

Paso-1 Primero seleccionamos un número aleatorio de k para usar e inicializamos aleatoriamente sus respectivos puntos centrales.

Paso 2 Luego, cada punto de datos se clasifica calculando la distancia (Euclidiana o Manhattan) entre ese punto y cada centro de grupo, y luego agrupando el punto de datos para que esté en el grupo cuyo centro está más cercano a él.

Paso 3 Volvemos a calcular el centro del grupo tomando la media de todos los vectores del grupo.

Paso 4 Repetimos todos estos pasos para varias iteraciones o hasta que los centros de grupo no cambien mucho.

ventajas

1) Muy rápido.

2) Muy pocos cálculos

3) Complejidad Lineal O(n).

Contras

1) Selección del valor de k.

2) Diferentes centros de agrupamiento en diferentes corridas.

3) Falta de consistencia.

2. Agrupamiento de desplazamiento medio

La agrupación de desplazamiento medio es un algoritmo basado en una ventana deslizante que intenta identificar las áreas densas de los puntos de datos. Al ser un algoritmo basado en el centroide, lo que significa que el objetivo es ubicar los puntos centrales de cada clase que, a su vez, funciona actualizando los candidatos para que los puntos centrales sean la media de los puntos en la ventana deslizante.

Estas ventanas candidatas seleccionadas luego se filtran en una etapa de procesamiento posterior para eliminar duplicados que ayudarán a formar el conjunto final de centros y sus clases correspondientes.

Paso-1 Comenzamos con una ventana deslizante circular centrada en un punto C (seleccionado al azar) y que tiene un radio r como núcleo. El cambio medio es un tipo de algoritmo que sube una colina que implica cambiar este núcleo de forma iterativa a una región de mayor densidad en cada paso hasta que alcancemos la convergencia.

Paso 2 Después de cada iteración, la ventana deslizante se desplaza hacia regiones de mayor densidad desplazando el punto central a la media de los puntos dentro de la ventana. La densidad dentro de la ventana deslizante aumenta con el aumento del número de puntos dentro de ella. Al cambiar la media de los puntos en la ventana, se moverá gradualmente hacia áreas de mayor densidad de puntos.

Paso 3 En este paso, continuamos desplazando la ventana deslizante en función del valor medio hasta que no haya una dirección en la que un desplazamiento pueda obtener más puntos dentro del núcleo seleccionado.

Paso 4 Los pasos 1 y 2 se realizan con muchas ventanas deslizantes hasta que todos los puntos se encuentran dentro de una ventana. Cuando varias ventanas deslizantes tienden a superponerse, se selecciona la ventana que contiene la mayor cantidad de puntos. Los puntos de datos ahora se agrupan según la ventana deslizante en la que residen.

ventajas

1) No es necesario seleccionar el número de grupos.

2) Se adapta bien en un sentido naturalmente basado en datos

Contras

1) El único inconveniente es que la selección del tamaño de la ventana (r) puede no ser trivial.

3. Agrupación espacial basada en la densidad de aplicaciones con ruido (DBSCAN)

DBSCAN es como el agrupamiento Mean-Shift, que también es un algoritmo basado en la densidad con algunos cambios.

Paso-1 Comienza con un punto de inicio arbitrario, la vecindad de este punto se extrae usando una distancia llamada épsilon.

Paso 2 La agrupación comenzará si hay suficientes puntos y el punto de datos se convierte en el primer punto nuevo en un grupo. Si no hay datos suficientes, el punto se etiquetará como ruido y el punto se marcará como visitado.

Paso 3 Los puntos dentro del épsilon tienden a convertirse en parte del grupo. Este procedimiento se repite en todos los puntos dentro del clúster.

Paso 4 Los pasos 2 y 3 se repiten hasta que se visitan y etiquetan los puntos del grupo.

Paso 5 Al completar el conglomerado actual, un nuevo punto no visitado se procesa en un nuevo conglomerado, lo que lleva a clasificarlo en un conglomerado o como un ruido.

ventajas

1) No es necesario configurar el número de grupos.

2) Define los valores atípicos como ruido.

3) Ayuda a encontrar bastante bien los grupos de tamaño y forma arbitrarios.

Contras

1) No funciona bien en grupos de densidad variable.

2) No funciona bien con datos dimensionales altos.

Lea también: Ideas de proyectos de aprendizaje automático

Conclusión

En este artículo, conocimos la necesidad de agrupamiento en el mercado actual, los diferentes tipos de algoritmos de agrupamiento junto con sus ventajas y desventajas. La agrupación en clústeres es realmente un tema muy interesante en el aprendizaje automático y hay muchos otros tipos de algoritmos de agrupación que vale la pena aprender.

Si está interesado en obtener más información sobre el aprendizaje automático, consulte el Diploma PG en aprendizaje automático e IA de IIIT-B y upGrad, que está diseñado para profesionales que trabajan y ofrece más de 450 horas de capacitación rigurosa, más de 30 estudios de casos y asignaciones, IIIT- B Estado de exalumno, más de 5 proyectos prácticos finales prácticos y asistencia laboral con las mejores empresas.

¿Qué se entiende por agrupamiento de mezcla gaussiana?

Los modelos de mezcla gaussiana generalmente se usan en el caso de datos de consulta para realizar un agrupamiento duro o suave. Los modelos de mezcla gaussiana hacen algunas suposiciones para realizar bien el agrupamiento. Según las suposiciones, el modelo agrupa los puntos de datos que pertenecen a una única distribución. Estos son modelos probabilísticos y utilizan un enfoque de agrupamiento suave para llevar a cabo el proceso de agrupamiento de manera eficiente.

¿Cuál es el coeficiente de silueta en el agrupamiento?

Para medir qué tan bien se ha llevado a cabo el agrupamiento, usamos el coeficiente de silueta. Básicamente, se mide la distancia promedio entre dos grupos y luego se calcula el ancho de la silueta mediante una fórmula. De esta forma, podemos medir fácilmente el número óptimo de clústeres presentes en los datos dados y así averiguar la eficiencia del agrupamiento realizado.

¿Qué se entiende por agrupación difusa en el aprendizaje automático?

Cuando los datos proporcionados pertenecen a más de un grupo o grupo, se utiliza un método de agrupación en clúster difuso, que funciona en un algoritmo de media C difusa o algoritmo de media K difusa. Es un método de agrupamiento suave. De acuerdo con la distancia entre el centro del grupo y el punto de la imagen, el método asigna valores de pertenencia a cada punto de la imagen asociado con cada centro del grupo.