Una descripción general de la minería de reglas de asociación y sus aplicaciones

Publicado: 2019-06-05

Minería de reglas de asociación, como sugiere el nombre, las reglas de asociación son simples declaraciones si/entonces que ayudan a descubrir relaciones entre bases de datos relacionales aparentemente independientes u otros repositorios de datos.

La mayoría de los algoritmos de aprendizaje automático funcionan con conjuntos de datos numéricos y, por lo tanto, tienden a ser matemáticos. Sin embargo, la minería de reglas de asociación es adecuada para datos categóricos no numéricos y requiere un poco más que un simple conteo.

La minería de reglas de asociación es un procedimiento que tiene como objetivo observar patrones, correlaciones o asociaciones frecuentes de conjuntos de datos que se encuentran en varios tipos de bases de datos, como bases de datos relacionales, bases de datos transaccionales y otras formas de repositorios.

Una regla de asociación tiene 2 partes:

un antecedente (si) y
una consecuencia (entonces)

Un antecedente es algo que se encuentra en los datos, y un consecuente es un elemento que se encuentra en combinación con el antecedente. Eche un vistazo a esta regla, por ejemplo:

“Si un cliente compra pan, tiene un 70% de probabilidades de comprar leche”.

En la regla de asociación anterior, el pan es el antecedente y la leche el consecuente. En pocas palabras, puede entenderse como la regla de asociación de una tienda minorista para orientar mejor a sus clientes. Si la regla anterior es el resultado de un análisis exhaustivo de algunos conjuntos de datos, se puede utilizar no solo para mejorar el servicio al cliente sino también para mejorar los ingresos de la empresa.
Las reglas de asociación se crean analizando minuciosamente los datos y buscando patrones frecuentes si/entonces. Luego, en función de los dos parámetros siguientes, se observan las relaciones importantes:

Soporte : El soporte indica con qué frecuencia aparece la relación si/entonces en la base de datos.
Confianza : La confianza indica el número de veces que se ha encontrado que estas relaciones son verdaderas.

Por lo tanto, en una transacción determinada con varios artículos, Association Rule Mining trata principalmente de encontrar las reglas que rigen cómo o por qué dichos productos/artículos a menudo se compran juntos. Por ejemplo, la mantequilla de maní y la mermelada con frecuencia se compran juntas porque a mucha gente le gusta hacer sándwiches de mantequilla de maní y mermelada.

La minería de reglas de asociación a veces se denomina "análisis de la cesta del mercado", ya que fue la primera área de aplicación de la minería de asociaciones. El objetivo es descubrir asociaciones de elementos que ocurren juntos con más frecuencia de lo que cabría esperar al realizar un muestreo aleatorio de todas las posibilidades. La clásica anécdota de Cerveza y Pañal ayudará a comprender mejor esto.

La historia es así: los jóvenes norteamericanos que van a las tiendas los viernes a comprar pañales también tienen predisposición a tomar una botella de cerveza. Por muy poco relacionado y vago que pueda sonar para nosotros, la minería de reglas de asociación nos muestra cómo y por qué.
Hagamos un poco de análisis nosotros mismos, ¿de acuerdo?
Supongamos que la base de datos de transacciones minoristas de una tienda X incluye los siguientes datos:

Número total de transacciones: 600.000
Transacciones que contienen pañales: 7.500 (1,25 por ciento)
Transacciones que contienen cerveza: 60.000 (10 por ciento)
Transacciones que contienen tanto cerveza como pañales: 6.000 (1,0 por ciento)

De las cifras anteriores, podemos concluir que si no hubiera relación entre la cerveza y los pañales (es decir, fueran estadísticamente independientes), habríamos conseguido que solo el 10% de los compradores de pañales compraran cerveza también.

Sin embargo, por sorprendente que parezca, las cifras nos dicen que el 80% (=6000/7500) de las personas que compran pañales también compran cerveza .
Este es un salto significativo de 8 sobre lo que era la probabilidad esperada. Este factor de aumento se conoce como Lift, que es la relación entre la frecuencia observada de ocurrencia simultánea de nuestros artículos y la frecuencia esperada.

¿Cómo determinamos el ascensor?
Simplemente calculando las transacciones en la base de datos y realizando operaciones matemáticas sencillas.
Entonces, para nuestro ejemplo, una regla de asociación plausible puede establecer que las personas que compran pañales también comprarán cerveza con un factor de elevación de 8. Si hablamos matemáticamente, la elevación se puede calcular como la razón de la probabilidad conjunta de dos artículos x ey, dividido por el producto de sus probabilidades.
Elevación = P(x,y)/[P(x)P(y)]
Sin embargo, si los dos elementos son estadísticamente independientes, entonces la probabilidad conjunta de los dos elementos será igual al producto de sus probabilidades. O, en otras palabras,
P(x,y)=P(x)P(y),
lo que hace que el factor de elevación = 1. Un punto interesante que vale la pena mencionar aquí es que la anticorrelación puede incluso producir valores de elevación inferiores a 1, lo que corresponde a elementos mutuamente excluyentes que rara vez ocurren juntos.
Association Rule Mining ha ayudado a los científicos de datos a descubrir patrones que nunca supieron que existían.
Fundamentos básicos de estadística para ciencia de datos

Tabla de contenido

Veamos algunas áreas en las que Association Rule Mining ha ayudado bastante:

Análisis de la cesta de la compra:

Este es el ejemplo más típico de minería asociativa. Los datos se recopilan mediante lectores de códigos de barras en la mayoría de los supermercados. Esta base de datos, conocida como la base de datos de la “canasta de mercado”, consta de una gran cantidad de registros sobre transacciones pasadas. Un solo registro enumera todos los artículos comprados por un cliente en una venta. Saber qué grupos se inclinan hacia qué conjunto de artículos les da a estas tiendas la libertad de ajustar el diseño de la tienda y el catálogo de la tienda para colocarlos de manera óptima entre sí.

Diagnostico medico:

Las reglas de asociación en el diagnóstico médico pueden ser útiles para ayudar a los médicos a curar a los pacientes. El diagnóstico no es un proceso fácil y tiene una serie de errores que pueden dar lugar a resultados finales poco fiables. Usando la minería de reglas de asociación relacional, podemos identificar la probabilidad de que ocurra una enfermedad en relación con varios factores y síntomas. Además, utilizando técnicas de aprendizaje, esta interfaz se puede ampliar añadiendo nuevos síntomas y definiendo relaciones entre los nuevos signos y las enfermedades correspondientes.

Datos del censo:

Cada gobierno tiene toneladas de datos del censo. Estos datos se pueden utilizar para planificar servicios públicos eficientes (educación, salud, transporte), así como para ayudar a las empresas públicas (para establecer nuevas fábricas, centros comerciales e incluso comercializar productos específicos). Esta aplicación de minería de reglas de asociación y minería de datos tiene un inmenso potencial para respaldar políticas públicas sólidas y generar un funcionamiento eficiente de una sociedad democrática.

Secuencia de proteínas:

Las proteínas son secuencias formadas por veinte tipos de aminoácidos. Cada proteína tiene una estructura 3D única que depende de la secuencia de estos aminoácidos. Un ligero cambio en la secuencia puede provocar un cambio en la estructura que podría cambiar el funcionamiento de la proteína. Esta dependencia del funcionamiento de la proteína en su secuencia de aminoácidos ha sido un tema de gran investigación. Anteriormente se pensaba que estas secuencias eran aleatorias, pero ahora se cree que no lo son. Nitin Gupta, Nitin Mangal, Kamal Tiwari y Pabitra Mitra han descifrado la naturaleza de las asociaciones entre diferentes aminoácidos que están presentes en una proteína. El conocimiento y la comprensión de estas reglas de asociación serán de gran ayuda durante la síntesis de proteínas artificiales.

Con eso, espero haber podido aclarar todo lo que necesitabas saber sobre la minería de reglas de asociación.
Si tiene alguna duda, consulta o sugerencia, ¡déjela en los comentarios a continuación!

¿Cuáles son algunos ejemplos de aplicaciones de minería de reglas de asociación?

Una técnica para identificar patrones, correlaciones, vínculos y estructuras causales comunes a partir de conjuntos de datos almacenados en varias bases de datos, incluidas bases de datos relacionales, bases de datos transaccionales y otras formas de repositorios de datos, se conoce como minería de reglas de asociación. La minería de reglas de asociación permite encontrar conexiones y vínculos interesantes entre grandes conjuntos de elementos de datos. Esta regla especifica la frecuencia con la que aparece un artículo específico en una transacción. Un buen ejemplo es el análisis basado en el mercado. Las reglas de asociación son críticas en la minería de datos para analizar y pronosticar el comportamiento del consumidor. El análisis de clientes, el análisis de la cesta de la compra, la agrupación de productos, el diseño del catálogo y el diseño de la tienda son ejemplos de dónde están empleados. Para crear programas de aprendizaje automático, los programadores usan reglas de asociación.

Cuando se trata de reglas de asociación minera, ¿por qué es efectivo el principio a priori?

Para la extracción frecuente de conjuntos de elementos y el aprendizaje de reglas de asociación, Apriori es un algoritmo de base de datos relacional. Funciona al encontrar los elementos individuales más comunes en la base de datos y luego extenderlos a conjuntos de elementos cada vez más grandes, siempre que esos conjuntos de elementos aparezcan con la suficiente frecuencia. El método Apriori está diseñado para usarse con bases de datos de transacciones y genera reglas de asociación mediante el uso de conjuntos de elementos frecuentes. Estos criterios de asociación se utilizan para determinar la fuerza o debilidad de una conexión entre dos cosas. Es posible que podamos disminuir la cantidad de conjuntos de elementos que necesitamos evaluar empleando el concepto A priori.

¿Cuáles son los inconvenientes de la minería de reglas de asociación?

Las principales desventajas de los algoritmos de reglas de asociación son obtener reglas aburridas, tener una gran cantidad de reglas descubiertas y un bajo rendimiento del algoritmo. Los algoritmos empleados contienen demasiados parámetros para alguien que no sea un experto en minería de datos, y las reglas producidas son demasiadas, la mayoría de ellas poco interesantes y de baja comprensibilidad.

Una descripción general de la minería de reglas de asociación y sus aplicaciones

Veamos algunas áreas en las que Association Rule Mining ha ayudado bastante:

Análisis de la cesta de la compra:

Diagnostico medico:

Datos del censo:

Secuencia de proteínas:

¿Cuáles son algunos ejemplos de aplicaciones de minería de reglas de asociación?

Cuando se trata de reglas de asociación minera, ¿por qué es efectivo el principio a priori?

¿Cuáles son los inconvenientes de la minería de reglas de asociación?