Кластеризация против классификации: разница между кластеризацией и классификацией
Опубликовано: 2020-12-01Оглавление
Введение
Алгоритмы машинного обучения обычно классифицируются в зависимости от типа выходной переменной и типа проблемы, которую необходимо решить. Эти алгоритмы в целом делятся на три типа: регрессия, кластеризация и классификация. Регрессия и классификация — это типы алгоритмов обучения с учителем, а кластеризация — тип алгоритма без учителя.
Когда выходная переменная непрерывна, это проблема регрессии, а когда она содержит дискретные значения, это проблема классификации. Алгоритмы кластеризации обычно используются, когда нам нужно создать кластеры на основе характеристик точек данных. В этой статье основное внимание уделяется краткому введению в кластеризацию, классификации и перечислению некоторых различий между ними.
Опыт кодирования не требуется. Карьерная поддержка на 360°. Диплом PG в области машинного обучения и искусственного интеллекта от IIIT-B и upGrad.Классификация
Классификация — это тип контролируемого алгоритма машинного обучения. Для любого заданного входа алгоритмы классификации помогают предсказать класс выходной переменной. Может быть несколько типов классификаций, таких как бинарная классификация, мультиклассовая классификация и т. д. Это зависит от количества классов в выходной переменной.
Типы алгоритмов классификации
Логистическая регрессия : — это одна из линейных моделей, которую можно использовать для классификации. Он использует сигмовидную функцию для расчета вероятности наступления определенного события. Это идеальный метод для классификации бинарных переменных.
K-ближайшие соседи (kNN) : — Он использует показатели расстояния, такие как евклидово расстояние, манхэттенское расстояние и т. д., для расчета расстояния одной точки данных от каждой другой точки данных. Чтобы классифицировать выходные данные, требуется большинство голосов от k ближайших соседей каждой точки данных.
Деревья решений : - Это нелинейная модель, которая преодолевает некоторые недостатки линейных алгоритмов, таких как логистическая регрессия. Он строит классификационную модель в виде древовидной структуры, включающей узлы и листья. Этот алгоритм включает в себя несколько операторов if-else, которые помогают разбить структуру на более мелкие структуры и в конечном итоге предоставить окончательный результат. Его можно использовать как для регрессии, так и для задач классификации.
Случайный лес : это метод ансамблевого обучения, который включает несколько деревьев решений для прогнозирования результата целевой переменной. Каждое дерево решений дает свой собственный результат. В случае проблемы классификации для классификации конечного результата требуется большинство голосов этих множественных деревьев решений. В случае задачи регрессии она принимает среднее значение значений, предсказанных деревьями решений.
Наивный Байес : - Это алгоритм, основанный на теореме Байеса. Предполагается, что любая конкретная функция не зависит от включения других функций. т.е. они не коррелированы друг с другом. Обычно он плохо работает со сложными данными из-за этого предположения, поскольку в большинстве наборов данных существует какая-то связь между функциями.
Машина опорных векторов : представляет точки данных в многомерном пространстве. Затем эти точки данных разделяются на классы с помощью гиперплоскостей. Он строит n-мерное пространство для n объектов в наборе данных, а затем пытается создать гиперплоскости, чтобы разделить точки данных с максимальным запасом.
Читайте: Общие примеры интеллектуального анализа данных.
Приложения
- Обнаружение спама по электронной почте.
- Распознавание лиц.
- Определение, уйдет ли клиент или нет.
- Одобрение банковского кредита.
Кластеризация
Кластеризация — это тип алгоритма неконтролируемого машинного обучения. Он используется для группировки точек данных, имеющих сходные характеристики с кластерами. В идеале точки данных в одном и том же кластере должны иметь схожие свойства, а точки в разных кластерах должны быть как можно более непохожими.
Кластеризация делится на две группы — жесткая кластеризация и мягкая кластеризация. При жесткой кластеризации точка данных назначается только одному из кластеров, тогда как при мягкой кластеризации она обеспечивает вероятность того, что точка данных будет находиться в каждом из кластеров.
Типы алгоритмов кластеризации
Кластеризация по методу K-средних : инициализирует предварительно определенное количество k кластеров и использует метрики расстояния для расчета расстояния каждой точки данных от центра тяжести каждого кластера. Он назначает точки данных в один из k кластеров в зависимости от их расстояния.
Агломеративная иерархическая кластеризация (подход «снизу вверх») : – каждая точка данных рассматривается как кластер и объединяет эти точки данных на основе метрики расстояния и критерия, который используется для связывания этих кластеров.
Разделительная иерархическая кластеризация (подход «сверху вниз») : – Он инициализирует все точки данных как один кластер и разделяет эти точки данных на основе метрики расстояния и критерия. Агломеративную и разделительную кластеризацию можно представить в виде дендрограммы и количества кластеров, которые необходимо выбрать, ссылаясь на нее.
DBSCAN (пространственная кластеризация приложений с шумом на основе плотности) : – это метод кластеризации на основе плотности. Такие алгоритмы, как K-Means, хорошо работают с достаточно разделенными кластерами и создают кластеры сферической формы. DBSCAN используется, когда данные имеют произвольную форму, а также менее чувствителен к выбросам. Он группирует точки данных, которые имеют много соседних точек данных в пределах определенного радиуса.

ОПТИКА (Точки заказа для определения структуры кластеризации) : – Это еще один тип метода кластеризации на основе плотности, по процессу он аналогичен DBSCAN, за исключением того, что он учитывает несколько дополнительных параметров. Но он более сложен в вычислительном отношении, чем DBSCAN. Кроме того, он не разделяет точки данных на кластеры, но создает график достижимости, который может помочь в интерпретации создания кластеров.
BIRCH (сбалансированное итеративное сокращение и кластеризация с использованием иерархий) : — создает кластеры путем создания сводки данных. Он хорошо работает с огромными наборами данных, поскольку сначала суммирует данные, а затем использует их для создания кластеров. Однако он может работать только с числовыми атрибутами, которые могут быть представлены в пространстве.
Читайте также: Алгоритмы интеллектуального анализа данных, которые вы должны знать
Приложения
- Сегментация потребительской базы на рынке.
- Анализ социальной сети.
- Сегментация изображения.
- Рекомендательные системы.
Разница между кластеризацией и классификацией
- Тип : — Кластеризация — это метод обучения без учителя, тогда как классификация — это метод обучения с учителем.
- Процесс : – При кластеризации точки данных группируются в кластеры на основе их сходства. Классификация включает в себя классификацию входных данных как одной из меток класса из выходной переменной.
- Прогноз : — Классификация включает прогнозирование входной переменной на основе построения модели. Кластеризация обычно используется для анализа данных и извлечения из них выводов для принятия более эффективных решений.
- Разделение данных . Алгоритмы классификации нуждаются в разделении данных в качестве обучающих и тестовых данных для прогнозирования и оценки модели. Алгоритмы кластеризации не требуют разделения данных для своего использования.
- Метка данных : алгоритмы классификации работают с помеченными данными, тогда как алгоритмы кластеризации работают с немаркированными данными.
- Этапы : – Процесс классификации включает два этапа – Обучение и Тестирование. Процесс кластеризации включает только группировку данных.
- Сложность : - Поскольку классификация имеет дело с большим количеством этапов, сложность алгоритмов классификации выше, чем алгоритмов кластеризации, целью которых является только группировка данных.
Заключение
Методология классификации и кластеризации отличается, и результат, ожидаемый от их алгоритмов, также отличается. Короче говоря, и классификация, и кластеризация используются для решения разных задач. В этой статье представлено краткое введение в классификацию и кластеризацию.
Мы также немного читаем о различных типах алгоритмов, используемых в каждом случае, а также о нескольких приложениях. Алгоритмы, перечисленные в этой статье, не являются исчерпывающими. т.е. это не полный список, и существует много других алгоритмов, которые можно использовать для решения таких проблем.
Если вам интересно изучать науку о данных, ознакомьтесь с нашим дипломом PG в области науки о данных, который создан для работающих профессионалов и предлагает более 10 тематических исследований и проектов, практические практические семинары, наставничество с отраслевыми экспертами, 1-на-1 с представителями отрасли. наставники, более 400 часов обучения и помощь в трудоустройстве в ведущих фирмах.
Каковы различные методы и приложения кластеризации?
Кластером можно назвать группу объектов, относящихся к одному классу. Простыми словами можно сказать, что кластер — это группа объектов, обладающих схожими свойствами. Известно, что кластеризация является важным процессом анализа в машинном обучении.
Различные методы кластеризации
1. Кластеризация на основе секционирования
2. Иерархическая кластеризация
3. Кластеризация на основе плотности
4. Кластеризация на основе сетки
5. Кластеризация на основе моделей
Различные приложения кластеризации
1. Рекомендованные двигатели
2. Сегментация рынка и клиентов
3. Анализ социальных сетей (SNA)
4. Кластеризация результатов поиска
5. Анализ биологических данных
6. Анализ медицинских изображений
7. Выявление раковых клеток
Это одни из наиболее широко используемых методов и самых популярных приложений кластеризации.
Каковы различные классификаторы и приложения классификации?
Техника классификации используется для присвоения метки каждому созданному классу путем распределения данных по определенному количеству классов.
Классификаторы могут быть двух типов:
1. Бинарный классификатор. Здесь классификация выполняется только с двумя возможными результатами или двумя отдельными классами. Например, классификация мужчин и женщин, спама и не спама и т. д.
2. Многоклассовый классификатор. Здесь классификация выполняется более чем с двумя различными классами. Например, классификация типов почвы, классификация музыки и т. д.
Приложения классификации:
1. Классификация документов
Биометрическая идентификация
Распознавание рукописного ввода
Распознавание речи
Это лишь некоторые из приложений классификации. Это полезная концепция в нескольких местах в разных отраслях.
Каковы наиболее распространенные алгоритмы классификации в машинном обучении?
Классификация — это задача обработки естественного языка, которая полностью зависит от алгоритмов машинного обучения. Каждый алгоритм используется для решения конкретной задачи. Таким образом, каждый алгоритм используется в другом месте в зависимости от требований.
Существует множество алгоритмов классификации, которые можно использовать в наборе данных. В статистике изучение классификации очень обширно, и использование того или иного алгоритма будет полностью зависеть от набора данных, над которым вы работаете. Ниже приведены наиболее распространенные алгоритмы машинного обучения для классификации:
1. Машины опорных векторов
2. Наивный Байес
3. Дерево решений
4. K-ближайшие соседи
5. Логистическая регрессия
Эти алгоритмы классификации используются для упрощения и повышения эффективности ряда аналитических задач, выполнение которых может занять у человека сотни часов.