Измерения расстояния в Mahout: 3 основных типа измерений [2022]

Опубликовано: 2021-01-07

Mahout — это проект с открытым исходным кодом Apache Software Foundation, который специалисты по данным используют для создания распределенных или масштабируемых алгоритмов машинного обучения. Mahout в первую очередь фокусируется на линейной алгебре, а его алгоритмы написаны поверх инфраструктуры Hadoop. Некоторые из популярных методов интеллектуального анализа данных, реализованных этой структурой, включают рекомендации, классификацию и кластеризацию. Меры расстояния в Mahout — важная тема для изучения проблем кластеризации.

Поскольку Mahout предоставляет программистам готовую к использованию структуру и позволяет быстро и эффективно управлять большими объемами данных, он стал одним из лучших проектов Apache. И различные компании, такие как Twitter, Facebook, LinkedIn, Adobe, Yahoo и т. д., используют его для своих внутренних задач по интеллектуальному анализу данных.

Узнайте больше: 12 самых полезных приложений для интеллектуального анализа данных

Оглавление

Что такое меры расстояния?
Повторение основ кластеризации
Меры расстояния в Mahout
- Косинусная мера расстояния
- Мера межкластерного расстояния
- Измерение внутрикластерного расстояния
Подведение итогов
- Что такое кластерный анализ и в чем его особенности?
- Стоит ли участвовать в проектах с открытым исходным кодом?
- Различают одномерные и многомерные методы.

Что такое меры расстояния?

Как следует из названия, это мера расстояния между точками данных. Меры расстояния в Mahout вычисляют, насколько близко расположены два произвольных вектора, и указывают на сходство между точками. Теперь рассмотрим несколько примеров.

Предположим, вы управляете телефонной компанией и хотите установить сеть вышек в определенном регионе. Для обеспечения оптимального уровня сигнала необходимо определить места для установки мачт.
Областная администрация хочет открыть ряд государственных приемных покоев. Расположение этих объектов в регионе должно быть таким, чтобы они находились в непосредственной близости от аварийно-опасных районов.
Для эффективного обеспечения правопорядка и строгого наблюдения в районах с высоким уровнем преступности вы можете оценить окрестности, в которых должны быть размещены патрульные машины.

Во всех этих сценариях вы можете видеть, что меры расстояния лежат в основе алгоритмов кластеризации. В задачах обучения без учителя это вычисление является одним из наиболее важных факторов для принятия решения. Ваш выбор метода измерения расстояния в значительной степени повлияет на результаты.

Кроме того, вам не нужно использовать методы, доступные в библиотеке Mahout. Вы также можете применить собственный метод, чтобы узнать показатели расстояния, основанные на контексте ваших конкретных данных или алгоритма. Все, что вам нужно сделать, это реализовать математическую логику для векторных точек и присвоить значение, чтобы определить, попадает ли эта реализация в конкретный центроид. Центр кластера называется центроидом.

Узнайте о: Лучшие компании, нанимающие специалистов по данным в Индии

Повторение основ кластеризации

Прежде чем мы углубимся в различные категории, давайте сначала освежим наши основы кластеризации. Кластеры в основном представляют собой группы сходства или различия экземпляров данных. Вот несколько реальных приложений.

Маркетологи могут использовать кластеризацию для сегментации клиентов и реализации целевой маркетинговой стратегии.
Как производитель одежды, вы можете сгруппировать людей в зависимости от одинаковых размеров футболок, например «Маленький», «Средний» и «Большой». Универсальный подход не работает каждый раз. И индивидуальные футболки для каждого человека могут быть дорогими.
В системах управления библиотеками кластеризация используется для организации книг и документов в соответствии с их сходством содержания.
В базе данных наблюдения Земли кластеризация может помочь определить области с аналогичным землепользованием.
В биологии кластеризация может использоваться для классификации генов, имеющих схожую функциональность, и понимания структур, присущих различным популяциям растений и животных.

Более того, в эпоху цифровых технологий ежедневно генерируются и используются огромные объемы данных. Следовательно, кластеризация является одним из наиболее широко используемых методов интеллектуального анализа данных из-за удобства, которое она предлагает.

Качество кластеризации определяется двумя основными аспектами — алгоритмом кластеризации и функцией расстояния.

Алгоритм кластеризации (частичный, иерархический и т. д.)
Функция расстояния (сходство или несходство)

Теперь, когда мы пересмотрели основные концепции, давайте перейдем к различным типам мер расстояния, доступных в Apache Mahout.

Читайте: Кластерный анализ в интеллектуальном анализе данных

Меры расстояния в Mahout

Косинусная мера расстояния

Этот тип меры расстояния лучше всего подходит для поиска сходства текста. Учитывая набор текстовых документов, он может создать иерархию тем, сгруппировав их, используя общие слова с наибольшим весом.

Мера косинусного расстояния использует алгоритм TF-IDF для преобразования атрибутов в векторы. И векторные веса выше для тематических слов, чем для стоп-слов. Таким образом, похожие документы имеют между собой общие тематические слова. В результате вектор центроида (или центр кластера) имеет более высокий средний вес для тематических слов.

Одним из самых популярных приложений является ранжирование страниц или сводки результатов поиска, с которыми вы сталкиваетесь на страницах Google. Алгоритм сначала формирует кластеры, а затем находит центр тяжести. Эта процедура также полезна для обнаружения информации в приложениях ИИ, таких как Siri и Alexa.

Мера межкластерного расстояния

Это расстояние между объектами, принадлежащими двум отдельным кластерам. Мера межкластерного расстояния подходит для оценки качества вашего кластера. Если центроиды расположены слишком близко друг к другу, это затруднит процесс создания групп с похожими характеристиками. Поэтому очень важно провести четкие различия между членами кластера. Общая цель состоит в том, чтобы разбить или сегментировать точки данных на определенные кластеры.

Подробнее: Кластерный анализ в R

Измерение внутрикластерного расстояния

Эта мера дает вам расстояние между двумя членами одного и того же кластера. Таким образом, это противоположность меры межкластерного расстояния. Внутрикластерные расстояния меньше, чем межкластерные. Небольшие меры расстояния между подобными объектами указывают на то, что кластеры плотные и надежно отделены друг от друга.

Этот тип метрики расстояния зависит от двух вещей: i) штраф за более дальние объекты ii) меньшее значение для более близких объектов. И кластеры, которые более разделены, имеют высокое соотношение этих двух значений.

Теперь давайте посмотрим на следующую демонстрацию мер расстояния сходства в кластерном анализе.

Курьерская служба может создавать разные «зоны доставки», группируя те места, расстояние между которыми минимально. Таким образом, алгоритм обеспечивает быструю и эффективную доставку персоналом. Наша задача — оптимизировать расстояние между центроидными точками кластеров, минимизировать внутрикластерную дисперсию и обеспечить кластеризацию наборов данных с наиболее схожими характеристиками.

Изучите курсы по науке о данных в лучших университетах мира. Участвуйте в программах Executive PG, Advanced Certificate Programs или Master Programs, чтобы ускорить свою карьеру.

Подведение итогов

На этом мы объяснили концепцию мер расстояния в Mahout . И теперь, когда вы поняли суть этого важного инструмента работы с большими данными, вы можете легко объяснить его на любом собеседовании. Кроме того, четкое понимание различных мер расстояния поможет вам добиться точности при реализации алгоритмов кластеризации.

Если вам интересно узнать о науке о данных, ознакомьтесь с дипломом IIIT-B & upGrad PG в области науки о данных, который создан для работающих профессионалов и предлагает более 10 тематических исследований и проектов, практические семинары, наставничество с отраслевыми экспертами, 1- on-1 с отраслевыми наставниками, более 400 часов обучения и помощи в трудоустройстве в ведущих фирмах.

Что такое кластерный анализ и в чем его особенности?

Процесс, в котором мы определяем объект без маркировки, известен как кластерный анализ. Он использует интеллектуальный анализ данных для группировки различных похожих объектов в один кластер, как и в дискриминантном анализе. Его приложения включают распознавание образов, анализ информации, анализ изображений, машинное обучение, компьютерную графику и многие другие области.
Кластерный анализ — это задача, которая проводится с использованием нескольких других алгоритмов, во многом отличающихся друг от друга, и, таким образом, создает кластер.
Ниже приведены некоторые характеристики кластерного анализа. Кластерный анализ обладает высокой масштабируемостью. Он может иметь дело с другим набором атрибутов. Он показывает высокую размерность, интерпретируемость.

Стоит ли участвовать в проектах с открытым исходным кодом?

Проекты с открытым исходным кодом — это проекты, исходный код которых открыт для всех, и каждый может получить к нему доступ для внесения в него изменений. Участие в проектах с открытым исходным кодом очень полезно, поскольку оно не только оттачивает ваши навыки, но и дает вам возможность включить несколько крупных проектов в свое резюме.
Поскольку многие крупные компании переходят на программное обеспечение с открытым исходным кодом, вам будет выгодно, если вы начнете вносить свой вклад на раннем этапе. Некоторые крупные компании, такие как Microsoft, Google, IBM и Cisco, так или иначе используют открытый исходный код.
Существует большое сообщество опытных разработчиков программного обеспечения с открытым исходным кодом, которые постоянно вносят свой вклад в улучшение и обновление программного обеспечения. Сообщество очень дружелюбно к новичкам и всегда готово активизироваться и приветствовать новых участников. Существует также большое количество документации, которая поможет вам внести свой вклад в разработку открытого исходного кода.

Различают одномерные и многомерные методы.

Одномерный метод является самым простым методом обработки выбросов. Он не рассматривает какие-либо отношения, поскольку это одна переменная, и ее основная цель — проанализировать данные и определить связанную с ней закономерность. Среднее значение, медиана и мода являются примерами шаблонов, обнаруженных в одномерных данных.
С другой стороны, многомерный метод предназначен для анализа трех или более переменных. Он более точен, чем предыдущий метод, поскольку, в отличие от одномерного метода, многомерный метод имеет дело с отношениями и закономерностями. Аддитивное дерево, канонический корреляционный анализ и кластерный анализ — вот некоторые из способов выполнения многомерного анализа.