Линейный дискриминантный анализ для машинного обучения: что нужно знать?
Опубликовано: 2020-05-22Развитие технологий в последние годы позволило подключенным устройствам обрабатывать огромные объемы данных. Тем не менее, хранение и безопасность данных по-прежнему остаются серьезной проблемой при работе с такими огромными объемами данных. Вот почему очень важно правильно обрабатывать данные. Часто это может быть трудоемкой задачей.
Именно здесь на сцену выходят методы уменьшения размерности данных, такие как линейный дискриминантный анализ или LDA . Эти методы могут помочь вам гораздо лучше обрабатывать наборы данных, обеспечивая при этом безопасность и конфиденциальность данных. В этом блоге мы сосредоточимся на обсуждении метода уменьшения размерности данных линейного дискриминантного анализа. Начнем с разговора о снижении размерности.
Оглавление
Что такое уменьшение размерности?
Вы сможете лучше понять технику линейного дискриминантного анализа, если будете знать основы концепции, на которой он основан. Когда вы имеете дело с многомерными данными, у вас есть данные, которые имеют ряд характеристик, которые коррелируют друг с другом. Если мы отображаем многомерные данные в двух или трех измерениях, мы используем метод уменьшения размерности.
Альтернативой, которая также довольно часто используется в качестве замены уменьшения размерности, является построение данных с использованием, среди прочего, гистограмм, диаграмм рассеяния и коробчатых диаграмм. Эти графики можно использовать для поиска закономерностей в заданном наборе необработанных данных. Однако диаграммы не представляют данные таким образом, чтобы их было легко расшифровать обычным людям. Кроме того, для данных с большим количеством функций потребуется несколько диаграмм для выявления закономерностей в этом наборе данных.
Методы уменьшения размерности данных, такие как LDA, помогают преодолеть эти проблемы, используя два или три измерения для построения графика данных. Это позволит вам быть более точным в представлении данных, что будет понятно даже тем людям, у которых нет технического образования.
Читать : 25 вопросов и ответов на собеседовании по машинному обучению

Что такое линейный дискриминантный анализ?
Это один из наиболее часто используемых методов уменьшения размерности. Он используется в машинном обучении, а также в приложениях, имеющих какое-либо отношение к классификации паттернов. LDA служит очень специфической цели, которая состоит в том, чтобы спроецировать особенности, существующие в многомерном пространстве, на пространство более низкого измерения.
Это делается для того, чтобы избавиться от общих проблем размерности и снизить размерные затраты и ресурсы. Рональду А. Фишеру принадлежит заслуга в разработке оригинальной концепции в 1936 году — дискриминантного анализа Фишера или линейного дискриминанта . Первоначально линейный дискриминант был методом двух классов. Мультиклассовая версия появилась позже.
Линейный дискриминантный анализ — это контролируемый метод классификации, который используется для создания моделей машинного обучения. Эти модели, основанные на уменьшении размерности, используются в таких приложениях, как прогнозный маркетинговый анализ и распознавание изображений, среди прочего. О приложениях поговорим чуть позже.
Итак, что именно мы ищем в LDA? Есть две области, в которых этот метод уменьшения размерности помогает обнаружить: - параметры, которые можно использовать для объяснения отношений между группой и объектом; - модель наставника классификации, которая может помочь в разделении групп. Вот почему LDA широко используется для моделирования сортов в различных группах. Таким образом, вы можете использовать эту технику для использования двух или более классов для распределения переменной.
Расширения линейного дискриминантного анализа
LDA считается одним из самых простых и эффективных методов классификации. Поскольку этот метод настолько прост и понятен, у нас есть несколько вариантов, а также доступные для него расширения. Некоторые из них включают:
1. Регуляризованный дискриминантный анализ или RDA
RDA используется для внесения регуляризации в оценку дисперсии или ковариации. Это делается для смягчения влияния переменных на LDA.

2. Квадратичный дискриминантный анализ или QDA
В QDA разные классы используют собственную оценку дисперсии. В случае, если число входной переменной больше обычного, каждый класс использует свою оценку ковариации.
3. Гибкий дискриминантный анализ или FDA
FDA использует входные данные с нелинейными комбинациями. Сплайны являются хорошим примером.
Узнайте о: Идеи и темы проекта Python
Общие приложения LDA
LDA находит применение в нескольких приложениях. Его можно использовать в любой задаче, которую можно превратить в задачу классификации. Общие примеры включают быстрое распознавание, распознавание лиц, химию, классификацию данных микрочипов, поиск изображений, биометрию и биоинформатику, и это лишь некоторые из них. Давайте обсудим некоторые из них.
1. Распознавание лиц
В компьютерном зрении распознавание лиц считается одним из самых популярных приложений. Распознавание лиц осуществляется путем представления лиц с использованием большого количества значений пикселей. LDA используется для сокращения количества признаков, чтобы подготовить основу для использования метода классификации. Новые размеры представляют собой комбинации значений пикселей, которые используются для создания шаблона.

2. Идентификация клиента
Если вы хотите идентифицировать клиентов на основе вероятности того, что они купят продукт, вы можете использовать LDA для сбора характеристик клиентов. Вы можете определить и выбрать те функции, которые описывают группу клиентов, которые демонстрируют более высокие шансы на покупку продукта.
3. Медицинский
LDA можно использовать для распределения заболеваний по разным категориям, таким как тяжелые, легкие или умеренные. Есть несколько параметров пациента, которые будут учитываться при выполнении этой задачи классификации. Эта классификация позволяет врачам определять темпы лечения.
Также читайте: 15 интересных идей проектов машинного обучения для начинающих
Заключение
LDA — это простой и понятный метод, который обычно используется в моделях машинного обучения классификации. PCA и логистическая регрессия — другие доступные нам методы уменьшения размерности. Но когда дело доходит до специальных задач классификации, LDA предпочтительнее двух других.
Если вам интересно узнать больше о машинном обучении, ознакомьтесь с дипломом PG IIIT-B и upGrad в области машинного обучения и искусственного интеллекта, который предназначен для работающих профессионалов и предлагает более 450 часов тщательного обучения, более 30 тематических исследований и заданий, IIIT- Статус B Alumni, более 5 практических практических проектов и помощь в трудоустройстве в ведущих фирмах.
Что такое линейный дискриминантный анализ?
Линейный дискриминантный анализ (LDA) — это алгоритм классификации для изучения основных признаков, которые позволяют отличать группу образцов от всех других групп. В результате применения алгоритма LDA мы получаем новый набор признаков, который можно использовать для предсказания принадлежности к группе. Например, предположим, что вы собираете IP-адреса и хотите выяснить, какой стране они принадлежат. У вас есть обучающий набор примеров IP-адресов, и вы можете определить страну происхождения с очень высокой точностью. Если у вас есть новый IP-адрес и вы хотите узнать, из какой страны он пришел, вы можете передать его LDA, и он с наибольшей вероятностью отнесет его к классу.
Каковы приложения линейного дискриминантного анализа?
Линейный дискриминантный анализ (LDA) представляет собой набор методов в рамках контролируемого обучения. LDA — это метод, в котором зависимая переменная линейно разделима в пространстве признаков. LDA используется в маркетинге, финансах и других областях для выполнения ряда задач классификации, таких как профилирование клиентов и обнаружение мошенничества. Например, предположим, что мы хотим найти линейную комбинацию независимых переменных, которая разделяет две группы точек данных. LDA находит линейную комбинацию независимых переменных, которая обеспечивает максимальное разделение между двумя группами точек данных в пространстве признаков.
Что такое уменьшение размерности?
Уменьшение размерности относится к набору методов для уменьшения количества переменных в наборе данных. Наиболее распространенным методом уменьшения размерности является анализ основных компонентов (PCA). PCA является наиболее популярным методом уменьшения размерности из-за его простоты, математической элегантности и высоких статистических свойств. PCA используется для уменьшения размерности набора данных путем определения оси, которая содержит наибольшую дисперсию и наименьшее количество ошибок.