Обзор интеллектуального анализа правил ассоциации и его приложений
Опубликовано: 2019-06-05Интеллектуальный анализ правил ассоциации, как следует из названия, правила ассоциации представляют собой простые операторы If/Then, которые помогают обнаруживать отношения между, казалось бы, независимыми реляционными базами данных или другими репозиториями данных.
Большинство алгоритмов машинного обучения работают с числовыми наборами данных и, следовательно, имеют тенденцию быть математическими. Однако анализ ассоциативных правил подходит для нечисловых категориальных данных и требует немного больше, чем простой подсчет.
Интеллектуальный анализ ассоциативных правил — это процедура, целью которой является наблюдение за часто встречающимися шаблонами, корреляциями или ассоциациями из наборов данных, найденных в различных типах баз данных, таких как реляционные базы данных, транзакционные базы данных и другие формы репозиториев.
Правило ассоциации состоит из 2 частей:
- антецедент (если) и
- следствие (тогда)
Антецедент — это то, что находится в данных, а консеквент — это элемент, который находится в сочетании с антецедентом. Взгляните, например, на это правило:
«Если клиент покупает хлеб, он с вероятностью 70% купит молоко».
В приведенном выше правиле ассоциации хлеб является антецедентом, а молоко — следствием. Проще говоря, это можно понимать как правило ассоциации розничного магазина, направленное на то, чтобы лучше ориентироваться на своих клиентов. Если приведенное выше правило является результатом тщательного анализа некоторых наборов данных, его можно использовать не только для улучшения обслуживания клиентов, но и для увеличения доходов компании.
Правила ассоциации создаются путем тщательного анализа данных и поиска частых шаблонов «если/то». Затем, в зависимости от следующих двух параметров, соблюдаются важные соотношения:
- Поддержка : Поддержка указывает, как часто отношения «если/то» появляются в базе данных.
- Уверенность : Уверенность говорит о том, сколько раз эти отношения были признаны верными.
Таким образом, в данной транзакции с несколькими предметами анализ правил ассоциаций в первую очередь пытается найти правила, которые управляют тем, как или почему такие продукты/предметы часто покупаются вместе. Например, арахисовое масло и желе часто покупают вместе, потому что многие люди любят делать бутерброды PB&J.
Анализ ассоциативных правил иногда называют «анализом рыночной корзины», так как это была первая область применения ассоциативного анализа. Цель состоит в том, чтобы обнаружить ассоциации элементов, встречающихся вместе чаще, чем вы ожидаете от случайной выборки всех возможностей. Классический анекдот о пиве и подгузнике поможет лучше понять это.
История такова: молодые американцы, которые по пятницам ходят в магазины за подгузниками, тоже имеют предрасположенность прихватить бутылку пива. Каким бы несвязанным и расплывчатым это ни звучало для нас, неспециалистов, анализ ассоциативных правил показывает нам, как и почему!
Давайте сами проведем небольшую аналитику?
Предположим, что база данных розничных транзакций магазина X включает следующие данные:
- Общее количество транзакций: 600 000
- Транзакций, содержащих подгузники: 7500 (1,25 процента)
- Транзакции, содержащие пиво: 60 000 (10 процентов)
- Транзакции, содержащие пиво и подгузники: 6000 (1,0%).
Из вышеприведенных цифр можно сделать вывод, что если бы не было связи между пивом и подгузниками (то есть они были бы статистически независимыми), то мы получили бы, что только 10% покупателей подгузников тоже покупают пиво.
Однако, как это ни удивительно, цифры говорят нам о том, что 80% (= 6000/7500) людей, покупающих подгузники, также покупают пиво .
Это значительный скачок на 8 по сравнению с ожидаемой вероятностью. Этот фактор увеличения известен как Лифт — это отношение наблюдаемой частоты совпадения наших элементов и ожидаемой частоты.
Как мы определили подъемную силу?
Просто путем расчета транзакций в базе данных и выполнения простых математических операций.
Итак, для нашего примера одно правдоподобное ассоциативное правило может утверждать, что люди, которые покупают подгузники, также будут покупать пиво с коэффициентом подъема, равным 8. Если говорить математически, подъем можно рассчитать как отношение совместной вероятности двух предметов x и y, деленные на произведение их вероятностей.
Подъем = P(x,y)/[P(x)P(y)]
Однако, если два элемента статистически независимы, то совместная вероятность двух элементов будет такой же, как произведение их вероятностей. Или, другими словами,
Р(х,у)=Р(х)Р(у),
что делает коэффициент подъема = 1. Здесь стоит упомянуть интересный момент: антикорреляция может даже давать значения подъема меньше 1, что соответствует взаимоисключающим элементам, которые редко встречаются вместе.
Интеллектуальный анализ правил ассоциаций помог специалистам по обработке и анализу данных обнаружить закономерности, о существовании которых они даже не подозревали.
Основные основы статистики для науки о данных
Оглавление
Давайте рассмотрим некоторые области, в которых анализ ассоциативных правил очень помог:
Анализ рыночной корзины:
Это наиболее типичный пример ассоциативного майнинга. Данные собираются с помощью сканеров штрих-кода в большинстве супермаркетов. Эта база данных, известная как база данных «рыночной корзины», состоит из большого количества записей о прошлых транзакциях. В одной записи перечислены все товары, купленные покупателем за одну продажу. Знание того, какие группы склонны к тому или иному набору товаров, дает этим магазинам свободу корректировать планировку магазина и каталог магазина, чтобы разместить их оптимально относительно друг друга.

Медицинский диагноз:
Правила ассоциации в медицинской диагностике могут быть полезны для помощи врачам в лечении пациентов. Диагностика — нелегкий процесс, и в ней есть ряд ошибок, которые могут привести к недостоверным конечным результатам. Используя анализ правил реляционной ассоциации, мы можем определить вероятность возникновения болезни в отношении различных факторов и симптомов. Далее, используя методы обучения, этот интерфейс можно расширить, добавив новые симптомы и определив взаимосвязь между новыми признаками и соответствующими заболеваниями.
Данные переписи:
У каждого правительства есть тонны данных переписи населения. Эти данные можно использовать для планирования эффективных государственных услуг (образование, здравоохранение, транспорт), а также для помощи государственным предприятиям (для открытия новых заводов, торговых центров и даже для маркетинга определенных продуктов). Это применение интеллектуального анализа ассоциативных правил и интеллектуального анализа данных имеет огромный потенциал для поддержки разумной государственной политики и обеспечения эффективного функционирования демократического общества.
Белковая последовательность:
Белки представляют собой последовательности, состоящие из двадцати типов аминокислот. Каждый белок имеет уникальную трехмерную структуру, которая зависит от последовательности этих аминокислот. Небольшое изменение в последовательности может вызвать изменение структуры, которое может изменить функционирование белка. Эта зависимость функционирования белка от его аминокислотной последовательности была предметом обширных исследований. Раньше считалось, что эти последовательности случайны, но теперь считают, что это не так. Нитин Гупта, Нитин Мангал, Камал Тивари и Пабитра Митра расшифровали природу ассоциаций между различными аминокислотами, присутствующими в белке. Знание и понимание этих правил ассоциации будет чрезвычайно полезным при синтезе искусственных белков.
Таким образом, я надеюсь, что смог прояснить все, что вам нужно было знать об анализе правил ассоциации.
Если у вас есть какие-либо сомнения, вопросы или предложения — оставьте их в комментариях ниже!
Каковы некоторые примеры приложений для анализа правил ассоциации?
Метод выявления общих шаблонов, корреляций, связей и причинно-следственных структур из наборов данных, хранящихся в различных базах данных, включая реляционные базы данных, транзакционные базы данных и другие формы хранилищ данных, известен как анализ правил ассоциации. Интеллектуальный анализ ассоциативных правил позволяет находить интересные связи и взаимосвязи между большими наборами элементов данных. Это правило определяет, как часто конкретный элемент появляется в транзакции. Хорошим примером является рыночный анализ. Правила ассоциации имеют решающее значение в интеллектуальном анализе данных для анализа и прогнозирования поведения потребителей. Аналитика клиентов, анализ потребительской корзины, кластеризация продуктов, дизайн каталогов и планировка магазинов — все это примеры того, где они используются. Для создания программ машинного обучения программисты используют правила ассоциации.
Когда речь заходит о правилах горнодобывающей ассоциации, почему априорный принцип эффективен?
Для частого анализа наборов элементов и изучения правил ассоциации Apriori представляет собой алгоритм реляционной базы данных. Он работает, находя наиболее распространенные отдельные элементы в базе данных, а затем расширяя их до все более и более крупных наборов элементов, если эти наборы элементов появляются достаточно часто. Метод Apriori предназначен для использования с базами данных транзакций и создает правила ассоциации с использованием частых наборов элементов. Эти критерии ассоциации используются для определения силы или слабости связи между двумя вещами. Возможно, мы сможем уменьшить количество наборов элементов, которые необходимо оценить, используя априорную концепцию.
Каковы недостатки анализа ассоциативных правил?
Основными недостатками алгоритмов ассоциативных правил являются получение скучных правил, наличие большого количества обнаруженных правил и низкая производительность алгоритма. Используемые алгоритмы содержат слишком много параметров для человека, не являющегося специалистом в области интеллектуального анализа данных, а также слишком много создаваемых правил, большинство из которых неинтересны и малопонятны.