Исследовательский анализ данных и его важность для вашего бизнеса
Опубликовано: 2018-02-22Большинство дискуссий об анализе данных касаются его «научного» аспекта. Конечно, за всем процессом стоит много науки — алгоритмы, формулы, расчеты, но «искусства» от него не отнять. Структурирование всего процесса — от планирования анализа до осмысления конечного результата — немалый подвиг и не что иное, как форма искусства. Это именно то, что относится к нашей сегодняшней теме — Исследовательский анализ данных. В этой статье мы рассмотрим, что такое исследовательский анализ данных, каковы общие инструменты и методы для него и как он помогает организации.
Оглавление
Что такое исследовательский анализ данных?
Исследовательский анализ данных является одним из важных шагов в процессе анализа данных. Здесь основное внимание уделяется осмыслению имеющихся данных — таким как формулировка правильных вопросов, которые нужно задать вашему набору данных, как манипулировать источниками данных для получения необходимых ответов и другие. Это делается путем тщательного изучения тенденций, закономерностей и выбросов с использованием визуального метода. 
Исследовательский анализ данных — важный шаг перед тем, как перейти к машинному обучению или моделированию ваших данных. Он обеспечивает контекст, необходимый для разработки соответствующей модели и правильной интерпретации результатов.
Манипуляции с данными: как распознать ложь в данных?
На протяжении многих лет машинное обучение развивалось, и это породило ряд мощных алгоритмов машинного обучения. Настолько мощные, что они почти соблазняют вас пропустить фазу исследовательского анализа данных. Хотя понятно, почему вы хотите воспользоваться преимуществами таких алгоритмов и пропустить EDA — не очень хорошая идея просто вводить данные в черный ящик и ждать результатов. Снова и снова было замечено, что исследовательский анализ данных предоставляет много важной информации, которую очень легко упустить — информацию, которая помогает анализу в долгосрочной перспективе, от постановки вопросов до отображения результатов. Если вы новичок и хотите узнать больше о науке о данных, ознакомьтесь с нашими учебными курсами по науке о данных в ведущих университетах.
В то время как аспекты EDA существовали до тех пор, пока у нас были данные для анализа, исследовательский анализ данных официально был разработан еще в 1970-х годах Джоном Туркеем — тем же ученым, который придумал слово «бит» (сокращение от двоичного числа). EDA часто рассматривается и описывается как философия, а не как наука, потому что нет жестких правил для подхода к ней. Исследовательский анализ данных необходим для решения конкретных задач, таких как:
- Выявление отсутствующих и ошибочных данных;
- Отображение и понимание базовой структуры ваших данных;
- Определение наиболее важных переменных в вашем наборе данных;
- Проверка гипотезы или проверка предположений, связанных с конкретной моделью;
- Создание экономной модели (той, которая может объяснить ваши данные с использованием минимального количества переменных);
- Оценка параметров и вычисление пределов погрешности.
Инструменты и методы, используемые в исследовательском анализе данных
S-Plus и R являются наиболее важными языками статистического программирования, используемыми для выполнения исследовательского анализа данных. Эти языки поставляются в комплекте с множеством инструментов, которые помогут вам выполнять определенные статистические функции, такие как:
Методы классификации и уменьшения размерности

Классификация в основном используется для группировки различных наборов данных на основе общего параметра/переменной. Данные, о которых мы говорим, являются многомерными, и выполнить классификацию или кластеризацию многомерного набора данных непросто. Следовательно, чтобы помочь в этом, выполняются методы уменьшения размерности, такие как PCA и LDA, которые уменьшают размерность набора данных без потери какой-либо ценной информации из ваших данных.
Как парадокс Симпсона влияет на данные?
Одномерная визуализация

Одномерные визуализации — это, по сути, распределения вероятностей каждого поля в наборе необработанных данных со сводной статистикой. Одномерные визуализации используют таблицы частотного распределения, гистограммы, гистограммы или круговые диаграммы для графического представления.
Двумерные визуализации

Это позволяет специалистам по данным оценивать взаимосвязь между переменными в вашем наборе данных и помогает вам ориентироваться на переменную, которую вы просматриваете. Подходящие графики для двумерного анализа зависят от типа рассматриваемой переменной. Например, если вы имеете дело с двумя непрерывными переменными, график рассеяния должен быть графиком по вашему выбору. Если одна из них категорична, а другая непрерывна, предпочтительнее использовать коробчатую диаграмму, а когда обе переменные являются категориальными, выбирается мозаичная диаграмма.
Бизнес безопасности данных процветает!
Многомерные визуализации

Многомерные визуализации помогают понять взаимодействие между различными полями данных. Он включает в себя наблюдение и анализ более чем одной переменной статистического результата в любой момент времени.

Кластеризация K-средних

Кластеризация K-средних в основном используется для создания «центров» для каждого кластера на основе ближайшего среднего. Это итеративный метод, который продолжает создавать и воссоздавать кластеры до тех пор, пока сформированные кластеры не перестанут изменяться в результате итераций. Его можно использовать для поиска выбросов в наборе данных (точки, которые не будут формировать какие-либо кластеры, в идеале будут выбросами).
Прогнозные модели

Как следует из названия, прогнозное моделирование — это метод, который использует статистику для прогнозирования результатов. Хотя большинство прогнозов нацелено на то, чтобы предсказать, что произойдет в будущем, прогнозное моделирование также может применяться к любому неизвестному событию, независимо от того, когда оно может произойти. Например, этот метод можно использовать для выявления преступлений и выявления подозреваемых даже после того, как преступление произошло. Наиболее распространенный способ выполнения прогнозного моделирования — использование линейной регрессии (см. изображение).
Что такое хранилище данных и интеллектуальный анализ данных
Как исследовательский анализ данных помогает вашему бизнесу и где он применяется?
Исследовательский анализ данных обеспечивает исключительную ценность для любого бизнеса, помогая ученым понять, правильно ли интерпретируются полученные ими результаты и применимы ли они к требуемому бизнес-контексту. Исследовательский анализ данных не только обеспечивает технически обоснованные результаты, но и приносит пользу заинтересованным сторонам, подтверждая, правильны ли вопросы, которые они задают. Исследовательская наука о данных часто приводит к непредсказуемым выводам, которые заинтересованные стороны или специалисты по данным даже не стали бы исследовать в целом, но которые все же могут оказаться очень информативными для бизнеса.
Существует ряд соединителей данных, которые помогают организациям интегрировать исследовательский анализ данных непосредственно в свое программное обеспечение для бизнес-аналитики. Вы также можете настроить это, чтобы разрешить поток данных и в обратном направлении, создав и запустив статистические модели (например) в R, которые используют данные BI и автоматически обновляются по мере того, как новая информация поступает в модель.
Потенциальные варианты использования исследовательского анализа данных весьма разнообразны, но в конечном итоге все сводится к следующему: исследовательский анализ данных заключается в том, чтобы узнать и понять ваши данные, прежде чем делать какие-либо предположения о них или предпринимать какие-либо шаги в этом направлении. интеллектуального анализа данных. Это поможет вам избежать создания неточных моделей или построения точных моделей на основе неправильных данных.
Правильное выполнение этого шага даст любой организации необходимую уверенность в своих данных, что в конечном итоге позволит им начать развертывание мощных алгоритмов машинного обучения. Однако игнорирование этого важного шага может привести к тому, что ваша система бизнес-аналитики будет построена на очень шатком фундаменте.
12 способов связать аналитику данных с бизнес-результатами
В заключение…
Исследовательский анализ данных, несомненно, является одним из важных этапов всего процесса извлечения знаний. Если вы хотите заложить прочную основу для всего процесса анализа, вам следует сосредоточить все свои силы и возможности на этапе EDA. Честно говоря, для успешного выполнения этого шага требуется немного статистики. Если вы чувствуете, что отстаете в этом отношении, не забудьте прочитать нашу статью «Основы статистики, необходимые для науки о данных».
Изучайте онлайн-курсы по науке о данных в лучших университетах мира. Участвуйте в программах Executive PG, Advanced Certificate Programs или Master Programs, чтобы ускорить свою карьеру.
Если вы заинтересованы в изучении python и хотите запачкать руки различными инструментами и библиотеками, ознакомьтесь с программой Executive PG in Data Science. О, и что вы думаете о нашей позиции рассматривать «исследовательский анализ данных» как искусство, а не науку? Дайте нам знать в комментариях ниже!
Почему Data Scientist должен использовать исследовательский анализ данных для улучшения вашего бизнеса?
Основная цель исследовательского анализа данных — помочь в анализе данных, прежде чем делать какие-либо предположения. Это может помочь в обнаружении очевидных ошибок, лучшем понимании шаблонов данных, обнаружении выбросов или неожиданных событий, а также в обнаружении интересных корреляций между переменными.
Исследователи данных могут использовать исследовательский анализ, чтобы убедиться, что результаты, которые они получают, точны и приемлемы для любых желаемых бизнес-результатов и целей. EDA также помогает заинтересованным сторонам, гарантируя, что они задают правильные вопросы. Стандартные отклонения, категориальные переменные и доверительные интервалы можно получить с помощью EDA. После завершения EDA и извлечения информации его функции могут быть применены к более сложному анализу данных или моделированию, включая машинное обучение.
Каковы наиболее популярные варианты использования EDA?
Исследователи данных нередко используют EDA, прежде чем привязывать другие типы моделирования. Он часто используется при анализе данных для просмотра наборов данных для выявления выбросов, тенденций, закономерностей и ошибок. Например, EDA обычно используется в розничной торговле, где инструменты и эксперты BI анализируют данные, чтобы выявить тенденции продаж, основные категории и т. д. EDA также используется в исследованиях в области здравоохранения для выявления новых тенденций на рынке или в отрасли, определения штаммов грипп, который может быть более распространенным в новом сезоне гриппа, проверка однородности популяции пациентов и т. д.
Какие существуют типы исследовательского анализа данных?
Типы исследовательского анализа данных:
1. Одномерный неграфический анализ. Стандартная цель одномерного неграфического EDA состоит в том, чтобы понять выборочное распределение/данные и провести наблюдения за популяцией.
2. Одномерная графика: гистограммы, диаграммы «стебли и листья», диаграммы и т. д.
3. Многомерный неграфический: эти методы EDA используют кросс-таблицу или статистику для отображения взаимосвязи между двумя или более переменными данных.
4. Многомерные графические: графические представления взаимосвязей между двумя или более типами данных используются в многомерных данных.
