10 самых распространенных алгоритмов интеллектуального анализа данных, которые вы должны знать

Опубликовано: 2019-12-02

Интеллектуальный анализ данных — это процесс поиска закономерностей и повторений в больших наборах данных, который является областью компьютерных наук. Методы и алгоритмы интеллектуального анализа данных широко используются в искусственном интеллекте и науке о данных. Существует много алгоритмов, но давайте обсудим 10 лучших в списке алгоритмов интеллектуального анализа данных.

Оглавление

10 лучших алгоритмов интеллектуального анализа данных

1. Алгоритм C4.5

C4.5 — один из лучших алгоритмов интеллектуального анализа данных, разработанный Россом Куинланом. C4.5 используется для создания классификатора в виде дерева решений из набора данных, которые уже были классифицированы. Классификатор здесь относится к инструменту интеллектуального анализа данных, который берет данные, которые нам нужно классифицировать, и пытается предсказать класс новых данных.

Каждая точка данных будет иметь свои атрибуты. Дерево решений, созданное C4.5, ставит вопрос о значении атрибута, и в зависимости от этих значений классифицируются новые данные. Набор обучающих данных помечен девочками, что делает C4.5 контролируемым алгоритмом обучения. Деревья решений всегда легко интерпретировать и объяснить, что делает C4.5 быстрым и популярным по сравнению с другими алгоритмами интеллектуального анализа данных.

Опыт кодирования не требуется. Карьерная поддержка на 360°. Диплом PG в области машинного обучения и искусственного интеллекта от IIIT-B и upGrad.

2. Алгоритм K-среднего

Один из наиболее распространенных алгоритмов кластеризации, метод k-средних, работает путем создания определенного количества групп из набора объектов на основе сходства между объектами. Нельзя гарантировать, что члены группы будут точно похожи, но члены группы будут более похожи по сравнению с не членами группы. Согласно стандартным реализациям, k-means — это алгоритм обучения без учителя, поскольку он самостоятельно изучает кластер без какой-либо внешней информации.

3. Машины опорных векторов

С точки зрения задач, машина опорных векторов (SVM) работает аналогично алгоритму C4.5, за исключением того, что SVM вообще не использует деревья решений. SVM изучает наборы данных и определяет гиперплоскость для классификации данных по двум классам. Гиперплоскость — это уравнение для прямой, которое выглядит примерно так: « y = mx + b». SVM преувеличивает, чтобы проецировать ваши данные в более высокие измерения. После проецирования SVM определил наилучшую гиперплоскость для разделения данных на два класса.

4. Априорный алгоритм

Априорный алгоритм работает, изучая правила ассоциации. Правила ассоциации — это метод интеллектуального анализа данных, который используется для изучения корреляций между переменными в базе данных. Как только правила ассоциации изучены, они применяются к базе данных, содержащей большое количество транзакций. Априорный алгоритм используется для обнаружения интересных закономерностей и взаимосвязей и, следовательно, рассматривается как подход к обучению без учителя. Хотя алгоритм очень эффективен, он потребляет много памяти, занимает много места на диске и занимает много времени.

5. Алгоритм максимизации ожидания

Максимизация ожиданий (EM) используется в качестве алгоритма кластеризации, точно так же, как алгоритм k-средних для обнаружения знаний. Алгоритм EM работает в итерациях, чтобы оптимизировать шансы увидеть наблюдаемые данные. Затем он оценивает параметры статистической модели с ненаблюдаемыми переменными, тем самым генерируя некоторые наблюдаемые данные. Алгоритм максимизации ожидания (EM) снова является обучением без учителя, поскольку мы используем его без предоставления какой-либо помеченной информации о классе.

6. Алгоритм PageRank

PageRank обычно используется поисковыми системами, такими как Google. Это алгоритм анализа ссылок, который определяет относительную важность объекта, связанного с сетью объектов. Анализ ссылок — это тип сетевого анализа, который исследует ассоциации между объектами. Поиск Google использует этот алгоритм, анализируя обратные ссылки между веб-страницами.

Это один из методов, которые Google использует для определения относительной важности веб-страницы и повышения ее рейтинга в поисковой системе Google. Торговая марка PageRank является собственностью Google, а алгоритм PageRank запатентован Стэнфордским университетом. PageRank рассматривается как неконтролируемый подход к обучению, поскольку он определяет относительную важность только путем рассмотрения ссылок и не требует каких-либо других входных данных.

7. Алгоритм Адабуст

AdaBoost — это алгоритм повышения, используемый для построения классификатора. Классификатор — это инструмент интеллектуального анализа данных, который принимает данные, предсказывает класс данных на основе входных данных. Алгоритм повышения — это ансамблевый алгоритм обучения, который запускает несколько алгоритмов обучения и объединяет их.

Алгоритмы повышения берут группу слабых учеников и объединяют их, чтобы сделать одного сильного ученика. Слабый ученик классифицирует данные с меньшей точностью. Лучшим примером слабого алгоритма является алгоритм пня решения, который в основном представляет собой одношаговое дерево решений. Adaboost — это идеальное контролируемое обучение, поскольку оно работает в итерациях, и на каждой итерации он обучает более слабых учащихся с помощью помеченного набора данных. Adaboost — это простой и довольно простой алгоритм для реализации.

После того, как пользователь укажет количество раундов, каждая последующая итерация AdaBoost переопределяет веса для каждого из лучших учеников. Это делает Adaboost очень элегантным способом автоматической настройки классификатора. Adaboost является гибким, универсальным и элегантным, поскольку он может включать в себя большинство алгоритмов обучения и обрабатывать самые разные данные.

Читайте: Наиболее распространенные примеры интеллектуального анализа данных

8. Алгоритм kNN

kNN — это алгоритм ленивого обучения, используемый в качестве алгоритма классификации. Ленивый ученик не будет делать ничего особенного в процессе обучения, кроме сохранения данных обучения. Ленивые ученики начинают классифицировать только тогда, когда в качестве входных данных даются новые немаркированные данные. C4.5, SVN и Adaboost, с другой стороны, являются активными учениками, которые начинают строить модель классификации во время обучения. Поскольку kNN получает помеченный обучающий набор данных, он рассматривается как алгоритм обучения с учителем.

9. Наивный алгоритм Байеса

Наивный байесовский алгоритм не является единым алгоритмом, хотя можно увидеть, что он эффективно работает как единый алгоритм. Наивный Байес — это совокупность алгоритмов классификации. Предположение, используемое семейством алгоритмов, состоит в том, что каждая характеристика классифицируемых данных не зависит от всех других характеристик, заданных в классе. Наивному Байесу предоставляется помеченный обучающий набор данных для построения таблиц. Таким образом, он рассматривается как алгоритм обучения с учителем.

Расширенная сертификация Data Science, более 250 партнеров по найму, более 300 часов обучения, 0% EMI

10. Алгоритм КОРЗИНЫ

CART означает деревья классификации и регрессии. Это алгоритм обучения дерева решений, который на выходе дает деревья регрессии или классификации. В CART узлы дерева решений будут иметь ровно 2 ветви. Как и C4.5, CART также является классификатором. Модель дерева регрессии или классификации строится с использованием помеченного обучающего набора данных, предоставленного пользователем. Следовательно, это рассматривается как контролируемая техника обучения.

Заключение

Итак, вот 10 лучших данных из списка алгоритмов интеллектуального анализа данных. Мы надеемся, что эта статья пролила свет на эти алгоритмы.

Если вам интересно узнать больше о науке о данных, ознакомьтесь с IIIT-B и программой upGrad Executive PG по науке о данных, которая предназначена для работающих профессионалов, чтобы повысить свою квалификацию, не покидая своей работы. Курс предлагает индивидуальные занятия с отраслевыми наставниками, вариант Easy EMI, статус выпускника IIIT-B и многое другое. Проверьте, чтобы узнать больше.

Каковы ограничения использования алгоритма CART для интеллектуального анализа данных?

Нет никаких сомнений в том, что CART является одним из самых популярных алгоритмов интеллектуального анализа данных, но у него есть несколько недостатков. Древовидная структура становится нестабильной в случае незначительного изменения набора данных, что приводит к дисперсии из-за нестабильной структуры. Если классы не сбалансированы, обучающиеся дерева решений создают неподходящие деревья. Вот почему настоятельно рекомендуется сбалансировать набор данных, прежде чем подгонять его под дерево решений.

Что именно означает «К» в алгоритме k-средних?

При использовании алгоритма k-mean для процесса интеллектуального анализа данных вам нужно будет найти целевое число, равное «k», и это количество центроидов, которое вам нужно в наборе данных. На самом деле, этот алгоритм пытается сгруппировать некоторые непомеченные точки в k кластеров. Итак, «k» означает количество кластеров, которое вам нужно к концу.

В алгоритме KNN, что подразумевается под недообучением?

Как следует из названия, недообучение означает, что модель не подходит или, другими словами, не может точно предсказать данные. Переоснащение или недооснащение зависит от значения «K», которое вы выбираете. Выбор небольших значений «K» в случае большого набора данных увеличивает вероятность переобучения.