Uma visão geral da mineração de regras de associação e suas aplicações
Publicados: 2019-06-05A mineração de regras de associação, como o nome sugere, as regras de associação são simples instruções If/Then que ajudam a descobrir relacionamentos entre bancos de dados relacionais aparentemente independentes ou outros repositórios de dados.
A maioria dos algoritmos de aprendizado de máquina trabalha com conjuntos de dados numéricos e, portanto, tendem a ser matemáticos. No entanto, a mineração de regras de associação é adequada para dados categóricos não numéricos e requer um pouco mais do que uma simples contagem.
A mineração de regras de associação é um procedimento que visa observar padrões, correlações ou associações que ocorrem com frequência de conjuntos de dados encontrados em vários tipos de bancos de dados, como bancos de dados relacionais, bancos de dados transacionais e outras formas de repositórios.
Uma regra de associação tem 2 partes:
- um antecedente (se) e
- um consequente (então)
Um antecedente é algo encontrado nos dados, e um consequente é um item encontrado em combinação com o antecedente. Veja esta regra por exemplo:
“Se um cliente compra pão, ele tem 70% de probabilidade de comprar leite.”
Na regra de associação acima, o pão é o antecedente e o leite é o consequente. Simplificando, pode ser entendido como uma regra de associação de uma loja de varejo para direcionar melhor seus clientes. Se a regra acima for resultado de uma análise minuciosa de alguns conjuntos de dados, ela pode ser usada não apenas para melhorar o atendimento ao cliente, mas também para melhorar a receita da empresa.
As regras de associação são criadas analisando minuciosamente os dados e procurando padrões frequentes de if/then. Então, dependendo dos dois parâmetros a seguir, as relações importantes são observadas:
- Suporte : O suporte indica com que frequência o relacionamento se/então aparece no banco de dados.
- Confiança : A confiança informa sobre o número de vezes que esses relacionamentos foram considerados verdadeiros.
Assim, em uma determinada transação com vários itens, a mineração de regras de associação tenta principalmente encontrar as regras que governam como ou por que esses produtos/itens são frequentemente comprados juntos. Por exemplo, manteiga de amendoim e geleia são frequentemente compradas juntas porque muitas pessoas gostam de fazer sanduíches de PB&J.
A mineração de regras de associação às vezes é chamada de “Análise de cesta de mercado”, pois foi a primeira área de aplicação da mineração de associação. O objetivo é descobrir associações de itens que ocorrem juntos com mais frequência do que você esperaria de uma amostragem aleatória de todas as possibilidades. A anedota clássica de Cerveja e Fralda ajudará a entender melhor isso.
A história é assim: os jovens americanos que vão às lojas às sextas-feiras para comprar fraldas têm uma predisposição para pegar uma garrafa de cerveja também. Por mais não relacionado e vago que possa parecer para nós, leigos, a mineração de regras de associação nos mostra como e por quê!
Vamos fazer um pouco de análise nós mesmos, certo?
Suponha que o banco de dados de transações de varejo de uma loja X inclua os seguintes dados:
- Número total de transações: 600.000
- Transações contendo fraldas: 7.500 (1,25%)
- Transações contendo cerveja: 60.000 (10%)
- Transações contendo cerveja e fraldas: 6.000 (1,0%)
A partir dos números acima, podemos concluir que se não houvesse relação entre cerveja e fraldas (ou seja, fossem estatisticamente independentes), teríamos que apenas 10% dos compradores de fraldas também comprassem cerveja.
No entanto, por mais surpreendente que pareça, os números indicam que 80% (=6000/7500) das pessoas que compram fraldas também compram cerveja .
Este é um salto significativo de 8 sobre o que era a probabilidade esperada. Esse fator de aumento é conhecido como Lift – que é a razão entre a frequência observada de coocorrência de nossos itens e a frequência esperada.
Como determinamos o elevador?
Simplesmente calculando as transações no banco de dados e realizando operações matemáticas simples.
Assim, para o nosso exemplo, uma regra de associação plausível pode afirmar que as pessoas que compram fraldas também comprarão cerveja com um fator de elevação de 8. Se falarmos matematicamente, o elevador pode ser calculado como a razão da probabilidade conjunta de dois itens x e y, dividido pelo produto de suas probabilidades.
Elevação = P(x,y)/[P(x)P(y)]
No entanto, se os dois itens forem estatisticamente independentes, a probabilidade conjunta dos dois itens será igual ao produto de suas probabilidades. Ou, em outras palavras,
P(x,y)=P(x)P(y),
o que torna o fator Lift = 1. Um ponto interessante que vale a pena mencionar aqui é que a anticorrelação pode até produzir valores de Lift menores que 1 – o que corresponde a itens mutuamente exclusivos que raramente ocorrem juntos.
A mineração de regras de associação ajudou os cientistas de dados a descobrir padrões que eles nem sabiam que existiam.
Fundamentos Básicos de Estatística para Ciência de Dados
Índice
Vejamos algumas áreas em que a mineração de regras de associação ajudou bastante:
Análise da Cesta de Mercado:
Este é o exemplo mais típico de mineração de associação. Os dados são coletados usando scanners de código de barras na maioria dos supermercados. Esse banco de dados, conhecido como banco de dados da “cesta de mercado”, consiste em um grande número de registros de transações anteriores. Um único registro lista todos os itens comprados por um cliente em uma venda. Saber quais grupos estão inclinados para qual conjunto de itens dá a essas lojas a liberdade de ajustar o layout da loja e o catálogo da loja para colocar o melhor em relação ao outro.

Diagnóstico médico:
As regras de associação no diagnóstico médico podem ser úteis para auxiliar os médicos na cura dos pacientes. O diagnóstico não é um processo fácil e tem uma série de erros que podem resultar em resultados finais não confiáveis. Usando a mineração de regras de associação relacional, podemos identificar a probabilidade de ocorrência de doença em relação a vários fatores e sintomas. Além disso, usando técnicas de aprendizado, essa interface pode ser estendida adicionando novos sintomas e definindo relações entre os novos sinais e as doenças correspondentes.
Dados de censo:
Todo governo tem toneladas de dados do censo. Esses dados podem ser usados para planejar serviços públicos eficientes (educação, saúde, transporte), bem como ajudar empresas públicas (para instalação de novas fábricas, shopping centers e até mesmo comercialização de produtos específicos). Esta aplicação de mineração de regras de associação e mineração de dados tem imenso potencial para apoiar políticas públicas sólidas e trazer um funcionamento eficiente de uma sociedade democrática.
Sequência de Proteínas:
As proteínas são sequências compostas por vinte tipos de aminoácidos. Cada proteína possui uma estrutura 3D única que depende da sequência desses aminoácidos. Uma ligeira alteração na sequência pode causar uma alteração na estrutura que pode alterar o funcionamento da proteína. Essa dependência do funcionamento da proteína em sua sequência de aminoácidos tem sido objeto de grande pesquisa. Anteriormente, pensava-se que essas sequências eram aleatórias, mas agora acredita-se que não são. Nitin Gupta, Nitin Mangal, Kamal Tiwari e Pabitra Mitra decifraram a natureza das associações entre diferentes aminoácidos presentes em uma proteína. O conhecimento e a compreensão dessas regras de associação serão extremamente úteis durante a síntese de proteínas artificiais.
Com isso, espero ter esclarecido tudo o que você precisava saber sobre mineração de regras de associação.
Se você tiver dúvidas, perguntas ou sugestões - deixe-as nos comentários abaixo!
Quais são alguns exemplos de aplicativos de mineração de regras de associação?
Uma técnica para identificar padrões comuns, correlações, ligações e estruturas causais de conjuntos de dados armazenados em vários bancos de dados, incluindo bancos de dados relacionais, bancos de dados transacionais e outras formas de repositórios de dados, é conhecida como mineração de regras de associação. A mineração de regras de associação permite encontrar conexões e ligações interessantes entre grandes conjuntos de itens de dados. Esta regra especifica com que frequência um item específico aparece em uma transação. Um bom exemplo é a Análise Baseada no Mercado. As regras de associação são críticas na mineração de dados para analisar e prever o comportamento do consumidor. Análise de clientes, análise de cesta de mercado, agrupamento de produtos, design de catálogo e layout de loja são exemplos de onde eles são empregados. Para criar programas de aprendizado de máquina, os programadores usam regras de associação.
Quando se trata de regras de associação de mineração, por que o princípio Apriori é eficaz?
Para mineração frequente de conjuntos de itens e aprendizado de regras de associação, o Apriori é um algoritmo de banco de dados relacional. Ele funciona localizando os itens individuais mais comuns no banco de dados e, em seguida, estendendo-os para conjuntos de itens cada vez maiores, desde que esses conjuntos de itens apareçam com frequência suficiente. O método Apriori destina-se ao uso com bancos de dados de transações e gera regras de associação usando conjuntos de itens frequentes. Esses critérios de associação são usados para determinar a força ou a fraqueza de uma conexão entre duas coisas. Podemos diminuir o número de conjuntos de itens que precisamos avaliar empregando o conceito Apriori.
Quais são as desvantagens da mineração de regras de associação?
As principais desvantagens dos algoritmos de regras de associação são obter regras chatas, ter um grande número de regras descobertas e um baixo desempenho do algoritmo. Os algoritmos empregados contêm muitos parâmetros para quem não é especialista em mineração de dados, e as regras produzidas muitas, sendo a maioria desinteressante e de baixa compreensibilidade.
