Что такое кластеризация и различные типы методов кластеризации

Опубликовано: 2020-12-01

Представьте, что вы разговариваете с директором по маркетингу вашей организации. Организация хочет лучше понять клиентов с помощью данных, чтобы это могло помочь в достижении ее бизнес-целей и обеспечить лучший опыт для клиентов. Теперь это один из сценариев, когда кластеризация приходит на помощь.

Оглавление

Что такое кластеризация?
Какие существуют типы методов кластеризации?
- Кластеризация на основе плотности
- DBSCAN (пространственная кластеризация приложений с шумом на основе плотности)
- ОПТИКА (Точки заказа для определения кластерной структуры)
- HDBSCAN (пространственная кластеризация приложений с шумом на основе иерархической плотности)
- Иерархическая кластеризация
- Нечеткая кластеризация
- Разделение Кластеризация
- PAM (разделение вокруг медоидов)
- Кластеризация на основе сетки
Конечные примечания
- Какие типы методов кластеризации используются в бизнес-аналитике?
- Когда используется кластеризация?
- Каковы преимущества кластеризации?

Что такое кластеризация?

Кластеризация — это тип неконтролируемого метода машинного обучения. В методе обучения без учителя выводы делаются на основе наборов данных, которые не содержат помеченной выходной переменной. Это метод исследовательского анализа данных, который позволяет нам анализировать многомерные наборы данных.

Кластеризация — это задача разделения наборов данных на определенное количество кластеров таким образом, чтобы точки данных, принадлежащие кластеру, имели схожие характеристики. Кластеры — это не что иное, как группировка точек данных таким образом, что расстояние между точками данных внутри кластеров минимально.

Другими словами, кластеры — это регионы с высокой плотностью сходных точек данных. Обычно он используется для анализа набора данных, чтобы найти полезные данные среди огромных наборов данных и сделать из них выводы. Как правило, скопления имеют сферическую форму, но это не обязательно, так как скопления могут быть любой формы. Узнайте о кластеризации и других концепциях науки о данных в нашем онлайн-курсе по науке о данных.

Это зависит от типа используемого нами алгоритма, который определяет, как будут создаваться кластеры. Выводы, которые необходимо сделать из наборов данных, также зависят от пользователя, поскольку не существует критерия хорошей кластеризации.

Какие существуют типы методов кластеризации?

Саму кластеризацию можно разделить на два типа, а именно. Жесткая кластеризация и мягкая кластеризация. При жесткой кластеризации одна точка данных может принадлежать только одному кластеру. Но при мягкой кластеризации предоставляемые выходные данные представляют собой вероятность вероятности того, что точка данных принадлежит каждому из предварительно определенного количества кластеров.

Кластеризация на основе плотности

В этом методе кластеры создаются на основе плотности точек данных, представленных в пространстве данных. Области, которые становятся плотными из-за огромного количества точек данных, находящихся в этой области, считаются кластерами.

Точки данных в разреженной области (область, где точек данных очень мало) считаются шумом или выбросами. Кластеры, создаваемые этими методами, могут иметь произвольную форму. Ниже приведены примеры алгоритмов кластеризации на основе плотности:

DBSCAN (пространственная кластеризация приложений с шумом на основе плотности)

DBSCAN группирует точки данных вместе на основе метрики расстояния и критерия минимального количества точек данных. Он принимает два параметра — eps и минимальное количество баллов. Eps указывает, насколько близко должны быть точки данных, чтобы считаться соседями. Критерий минимума точек должен быть выполнен, чтобы считать эту область плотной областью.

ОПТИКА (Точки заказа для определения кластерной структуры)

По процессу он аналогичен DBSCAN, но устраняет один из недостатков первого алгоритма, а именно невозможность формирования кластеров из данных произвольной плотности. Он учитывает еще два параметра: расстояние до ядра и расстояние досягаемости. Базовое расстояние указывает, является ли рассматриваемая точка данных центральной или нет, путем установки для нее минимального значения.

Расстояние достижимости — это максимальное расстояние ядра и значение метрики расстояния, которое используется для расчета расстояния между двумя точками данных. Одна вещь, которую следует учитывать в отношении расстояния достижимости, заключается в том, что его значение остается неопределенным, если одна из точек данных является базовой точкой.

HDBSCAN (пространственная кластеризация приложений с шумом на основе иерархической плотности)

HDBSCAN — это метод кластеризации на основе плотности, который расширяет методологию DBSCAN, преобразуя ее в алгоритм иерархической кластеризации.

Иерархическая кластеризация

Иерархическая кластеризация группирует (агломеративный или также называемый восходящим подходом) или делит (разделительный или также называемый нисходящим подходом) кластеры на основе показателей расстояния. В агломеративной кластеризации каждая точка данных сначала действует как кластер, а затем группирует кластеры один за другим.

Разделительный — это противоположность агломеративному, он начинается со всех точек в один кластер и разделяет их для создания большего количества кластеров. Эти алгоритмы создают матрицу расстояний всех существующих кластеров и выполняют связь между кластерами в зависимости от критериев связи. Кластеризация точек данных представлена с помощью дендрограммы. Существуют различные типы связей: –

о Одинарная связь : - При одиночной связи расстояние между двумя кластерами является кратчайшим расстоянием между точками в этих двух кластерах.

о Полная связь : - При полной связи расстояние между двумя кластерами является самым дальним расстоянием между точками в этих двух кластерах.

о Средняя связь : - В средней связи расстояние между двумя кластерами представляет собой среднее расстояние каждой точки в кластере с каждой точкой в другом кластере.

Читайте: Общие примеры интеллектуального анализа данных.

Нечеткая кластеризация

В нечеткой кластеризации назначение точек данных в любом из кластеров не имеет решающего значения. Здесь одна точка данных может принадлежать более чем одному кластеру. Он предоставляет результат как вероятность того, что точка данных принадлежит каждому из кластеров. Одним из алгоритмов, используемых в нечеткой кластеризации, является нечеткая кластеризация c-средних.

Этот алгоритм аналогичен кластеризации K-средних и отличается параметрами, которые участвуют в вычислении, такими как фаззификатор и значения членства.

Разделение Кластеризация

Этот метод является одним из самых популярных среди аналитиков для создания кластеров. При разделении кластеров кластеры разделяются на основе характеристик точек данных. Нам нужно указать количество кластеров, которые будут созданы для этого метода кластеризации. Эти алгоритмы кластеризации следуют итеративному процессу переназначения точек данных между кластерами в зависимости от расстояния. Алгоритмы, попадающие в эту категорию, следующие:

о Кластеризация K-средних: – Кластеризация K-средних является одним из наиболее широко используемых алгоритмов. Он разбивает точки данных на k кластеров на основе метрики расстояния, используемой для кластеризации. Значение 'k' должно быть определено пользователем. Расстояние рассчитывается между точками данных и центроидами кластеров.

Точка данных, ближайшая к центроиду кластера, назначается этому кластеру. После итерации он снова вычисляет центроиды этих кластеров, и процесс продолжается до тех пор, пока не будет выполнено предварительно определенное количество итераций или пока центроиды кластеров не изменятся после итерации.

Это очень затратный в вычислительном отношении алгоритм, поскольку он вычисляет расстояние каждой точки данных с центроидами всех кластеров на каждой итерации. Это затрудняет реализацию того же для огромных наборов данных.

PAM (разделение вокруг медоидов)

Этот алгоритм также называется алгоритмом k-medoid. Он также похож по процессу на алгоритм кластеризации K-средних с той разницей, что назначается центр кластера. В PAM медоид кластера должен быть точкой входных данных, в то время как это неверно для кластеризации K-средних, поскольку среднее значение всех точек данных в кластере может не принадлежать точке входных данных.

о CLARA (кластеризация больших приложений) : — CLARA — это расширение алгоритма PAM, в котором время вычислений было сокращено, чтобы улучшить его работу с большими наборами данных. Для этого он произвольно выбирает определенную часть данных из всего набора данных в качестве представителя фактических данных. Он применяет алгоритм PAM к нескольким образцам данных и выбирает лучшие кластеры из нескольких итераций.

Читайте также: Алгоритмы интеллектуального анализа данных, которые вы должны знать

Кластеризация на основе сетки

При кластеризации на основе сетки набор данных представляется в виде сетки, состоящей из сеток (также называемых ячейками). Общий подход в алгоритмах этого метода отличается от остальных алгоритмов.

Их больше заботит пространство значений, окружающее точки данных, а не сами точки данных. Одним из самых больших преимуществ этих алгоритмов является снижение вычислительной сложности. Это делает его подходящим для работы с огромными наборами данных.

После разделения наборов данных на ячейки вычисляется плотность ячеек, что помогает идентифицировать кластеры. Вот несколько алгоритмов, основанных на кластеризации на основе сетки:

о STING (Подход статистической информационной сетки) : – В STING набор данных рекурсивно делится иерархическим образом. Каждая ячейка далее подразделяется на разное количество ячеек. Он фиксирует статистические показатели ячеек, что помогает отвечать на запросы за небольшой промежуток времени.

о WaveCluster : В этом алгоритме пространство данных представлено в виде вейвлетов. Пространство данных составляет n-мерный сигнал, который помогает идентифицировать кластеры. Части сигнала с более низкой частотой и высокой амплитудой указывают на то, что точки данных сконцентрированы. Эти регионы идентифицируются алгоритмом как кластеры. Части сигнала, где высокая частота представляет собой границы кластеров. Для получения более подробной информации вы можете обратиться к этой статье .

о CLIQUE (кластеризация в Quest) : – CLIQUE представляет собой комбинацию алгоритма кластеризации на основе плотности и сетки. Он разделяет пространство данных и идентифицирует подпространства, используя принцип априори. Он идентифицирует кластеры путем расчета плотности ячеек.

Конечные примечания

В этой статье мы увидели обзор того, что такое кластеризация и различные методы кластеризации, а также их примеры. Эта статья предназначена для того, чтобы помочь вам начать работу с кластеризацией.

У этих методов кластеризации есть свои плюсы и минусы, которые ограничивают их пригодность только для определенных наборов данных. Дело не только в алгоритме, но и во многих других факторах, таких как аппаратные характеристики машин, сложность алгоритма и т. д., которые имеют значение, когда вы выполняете анализ набора данных.

Как аналитик, вы должны принимать решения о том, какой алгоритм выбрать и какой из них даст лучшие результаты в той или иной ситуации. Стратегия «один алгоритм подходит всем» не работает ни в одной из задач машинного обучения. Итак, продолжайте экспериментировать и пачкайте руки в мире кластеризации.

Если вам интересно изучать науку о данных, ознакомьтесь с нашей программой IIIT-B и upGrad Executive PG в области науки о данных, которая создана для работающих профессионалов и предлагает более 10 тематических исследований и проектов, практические семинары, наставничество с отраслевыми экспертами, 1 -на-1 с отраслевыми наставниками, более 400 часов обучения и помощи в трудоустройстве в ведущих фирмах.

Какие типы методов кластеризации используются в бизнес-аналитике?

Кластеризация — это ненаправленный метод, используемый в интеллектуальном анализе данных для выявления нескольких скрытых закономерностей в данных без выдвижения какой-либо конкретной гипотезы. Причина использования кластеризации заключается в выявлении сходства между определенными объектами и создании группы похожих объектов.
Существует два разных типа кластеризации: иерархический и неиерархический методы.

1. Неиерархическая кластеризация

В этом методе набор данных, содержащий N объектов, делится на M кластеров. В бизнес-аналитике наиболее широко используемым методом неиерархической кластеризации являются K-средние.
2. Иерархическая кластеризация
В этом методе создается набор вложенных кластеров. В этих вложенных кластерах каждая пара объектов дополнительно вкладывается, образуя большой кластер, пока в конце не останется только один кластер.

Когда используется кластеризация?

Основная функция кластеризации — выполнять сегментацию, будь то магазин, продукт или покупатель. Клиенты и продукты могут быть объединены в иерархические группы на основе различных атрибутов.
Другое использование метода кластеризации наблюдается для обнаружения аномалий, таких как мошеннические транзакции. Здесь обнаруживается кластер со всеми хорошими транзакциями, который сохраняется в качестве образца. Говорят, что это нормальный кластер . Всякий раз, когда что-то выходит за рамки этого кластера, оно попадает в раздел подозрительных. Этот метод оказался действительно полезным для обнаружения наличия аномальных клеток в организме.
Помимо этого, кластеризация широко используется для разбиения больших наборов данных на группы меньшего размера. Это повышает эффективность оценки данных.

Каковы преимущества кластеризации?

Говорят, что кластеризация более эффективна, чем случайная выборка заданных данных, по нескольким причинам. Два основных преимущества кластеризации:
1. Требуется меньше ресурсов
Кластер создает группу меньшего количества ресурсов из всей выборки. В связи с этим требуется меньше ресурсов по сравнению со случайной выборкой. Случайная выборка потребует командировочных и административных расходов, но здесь это не так.
2. Возможный вариант
Здесь каждый кластер определяет всю совокупность совокупности, поскольку из всей совокупности создаются однородные группы. Благодаря этому становится легко включать больше предметов в одно исследование.