Визуализация данных в программировании на R: лучшие визуализации для начинающих

Опубликовано: 2020-01-22

Любой, кто занимается анализом данных, несомненно, слышал и даже имел дело с визуализацией данных. Если вы новичок, узнайте все о визуализации данных здесь. Визуализация данных является важной частью анализа данных и относится к визуальному представлению данных в виде графика, диаграммы, гистограммы или любого другого формата. По сути, цель визуализации данных состоит в том, чтобы представить или отобразить взаимосвязь между данными и изображениями.

Рост больших данных обязывает ученых и аналитиков данных упростить понимание, полученное с помощью визуальных представлений, для простоты понимания. Поскольку ученые и аналитики данных теперь работают с большими объемами сложных и объемных наборов данных, визуализация данных стала более важной, чем когда-либо. Визуализация данных предлагает визуальную или графическую сводку имеющихся данных, тем самым облегчая специалистам по науке о данных и большим данным выявление скрытых закономерностей и тенденций в данных.

Благодаря визуализации данных профессионалам в области науки о данных и больших данных не нужно долго просматривать тысячи строк и столбцов в электронной таблице — они могут обратиться к визуализации, чтобы понять, где находится вся необходимая информация в наборе данных.

Хотя у нас есть множество автономных и отличных инструментов визуализации данных, таких как Tableau, QlikView и d3.js, сегодня мы поговорим о визуализации данных на языке программирования R. R — отличный инструмент для визуализации данных, поскольку он поставляется со множеством встроенных функций и библиотек, которые охватывают практически все потребности визуализации данных.

В этом посте мы обсудим 8 инструментов визуализации данных R, используемых учеными и аналитиками данных во всем мире!

Оглавление

8 лучших инструментов визуализации данных

1. Гистограмма

Все знакомы с гистограммами, которым обучали в школах и колледжах. В визуализации данных R с гистограммой концепция и цель остаются прежними — показать сравнение между двумя или более переменными. Гистограммы отображают сравнение совокупного итога по различным группам. Стандартный синтаксис для создания гистограммы в R:

гистограмма (H, xlab, ylab, main, name.arg, col)

Существует множество различных типов гистограмм, которые служат уникальным целям. Хотя горизонтальные и вертикальные гистограммы являются стандартными форматами, R может создавать на диаграмме как горизонтальные, так и вертикальные гистограммы. Кроме того, R также предлагает столбчатую диаграмму с накоплением, которая позволяет вам вводить разные переменные для каждой категории. В R barplot() используется для создания гистограмм.

2. Гистограмма

Гистограммы лучше всего работают с точными или числами в R. Это представление разбивает данные на ячейки (разрывы) и изображает частотное распределение этих ячеек. Вы можете настроить бины и посмотреть, как это повлияет на шаблон визуализации. Стандартный синтаксис для создания гистограммы с помощью R:

hist(v,main,xlab,xlim,ylim,breaks,col,border)

Гистограммы обеспечивают оценку вероятности переменной, то есть период времени до завершения проекта. Каждая полоса гистограммы представляет собой высоту числа значений, присутствующих в этом диапазоне. Язык R использует функцию hist() для создания гистограмм.

Источник

3. Коробчатый сюжет

Коробчатая диаграмма отображает пять статистически значимых чисел, включая минимум, 25-й процентиль, медиану, 75-й процентиль и максимум. Хотя блочная диаграмма во многом похожа на гистограмму, блочная диаграмма обеспечивает визуализацию категориальных данных и данных с непрерывными переменными, а не фокусируется только на категориальных данных. Стандартный синтаксис для создания блочной диаграммы в R:

boxplot(x, данные, выемка, varwidth, имена, основной)

R создает ящичные диаграммы с помощью функции boxplot(). Эта функция может принимать любое количество числовых векторов и рисовать блок-диаграмму для каждого вектора. Блочные диаграммы лучше всего подходят для визуализации разброса данных и, соответственно, для получения выводов на их основе.

Изучите курсы по науке о данных в лучших университетах мира. Участвуйте в программах Executive PG, Advanced Certificate Programs или Master Programs, чтобы ускорить свою карьеру.

4. Точечная диаграмма

Диаграммы рассеяния изображают множество точек на декартовой плоскости, где каждая точка представляет значения двух переменных. Вы можете выбрать одну переменную по горизонтальной оси и вторую по вертикальной оси. Функция точечной диаграммы состоит в том, чтобы отслеживать две непрерывные переменные во времени. В R функция plot() используется для создания точечной диаграммы. Стандартный синтаксис для создания диаграммы рассеяния в R:

график (x, y, основной, xlab, ylab, xlim, ylim, оси)

Диаграммы рассеяния отлично подходят для случаев, когда вы хотите избежать дезинформации при визуализации. Они лучше всего подходят для простой проверки данных.

5. Коррелограмма

Коррелограмма или корреляционная матрица анализирует взаимосвязь между каждой парой числовых переменных в наборе данных. Он обеспечивает краткий обзор полного набора данных. Коррелограммы также могут выделять степень корреляции между наборами данных в различные моменты времени.

В R пакет GGally идеально подходит для построения коррелограмм. Чтобы создать классическую коррелограмму (с точечной диаграммой, коэффициентом корреляции и распределением переменных), вы можете использовать функцию ggpairs(). Еще одним отличным пакетом для создания коррелограмм является пакет corrgram. В этом пакете вы можете выбрать, что отображать (диаграмма рассеяния, круговая диаграмма, текст, эллипс и т. д.) в верхней, нижней и диагональной части представления. Чтобы создать коррелограмму с помощью пакета corrgram, выполните следующие действия:

corrgram (x, порядок =, панель =, нижняя. панель =, верхняя. панель =, текст. панель =, диаг. панель =)

Источник

6. Тепловая карта

Тепловые карты — это графическое представление данных, в котором отдельные значения, содержащиеся в матрице, представлены разными цветами. Тепловые карты позволяют выполнять исследовательский анализ данных с двумя измерениями в качестве оси, а интенсивность цвета отображает третье измерение. В R функция Heatmap() используется для создания тепловых карт. Перед построением тепловой карты необходимо преобразовать набор данных в матричный формат, используя следующий код:

> Тепловая карта (как. матрица (mtcars))

В R есть три варианта создания интерактивных тепловых карт:

  • plotly — с помощью plotly вы можете преобразовать любую тепловую карту, созданную с помощью ggplot2, в интерактивную тепловую карту.
  • d3heatmap — этот пакет использует тот же синтаксис, что и базовая функция Rheatmap() для создания интерактивных тепловых карт.
  • Heatmaply — это наиболее настраиваемый из всех пакетов R. Это позволяет вам выбрать множество различных вариантов настройки.

7. Шестиугольный биннинг

Биннинг по шестиугольникам — это тип двумерной гистограммы, который лучше всего подходит для визуализации структуры в наборах данных с большим n. Основная концепция здесь следующая:

  • Правильная сетка шестиугольников усеивает плоскость XY над набором [диапазон (x), диапазон (y)].
  • Количество точек, попадающих в каждый шестиугольник, подсчитывается и сохраняется в структуре данных.
  • Шестиугольники, имеющие количество > 0, наносятся либо с использованием цветовой шкалы, либо путем изменения радиуса шестиугольника пропорционально количеству отсчетов.

Читайте: Различные типы специалистов по данным

Работающий здесь алгоритм является быстрым и эффективным для отображения структуры наборов данных с n ≥ 106. В R пакет hexbin содержит набор функций для создания, управления и построения шестиугольных интервалов. Этот пакет объединяет базовую концепцию бинирования шестиугольника со многими другими функциями для выполнения двумерного сглаживания, нахождения приблизительной двумерной медианы и изучения разницы между двумя наборами бинов в одном масштабе.

8. Мозаичный сюжет

В программировании на R мозаичный график пригодится при визуализации данных из таблицы непредвиденных обстоятельств или двусторонней таблицы частот. Это графическое представление двусторонней таблицы непредвиденных обстоятельств, которая представляет отношения между двумя или более категориальными переменными. График мозаики R создает прямоугольник, где высота представляет собой пропорциональное значение. Стандартный синтаксис для создания мозаичного графика в R:

мозаика (x, цвет = NULL, основной = «Название»)

По сути, мозаичный график представляет собой многомерное расширение графика позвоночника , которое суммирует условные вероятности совместного появления категориальных значений в списке записей одинаковой длины. Это помогает визуализировать данные из двух или более качественных переменных.

Читайте: Зарплата в науке о данных и аналитике

Подведение итогов

Поскольку все секторы отрасли продолжают полагаться на большие данные для продвижения бизнеса и маркетинга, основанного на данных, важность визуализации данных также будет расти одновременно. Поскольку методы визуализации, такие как диаграммы и графики, являются гораздо более эффективными инструментами для визуализации данных, чем традиционные электронные таблицы и архаичные отчеты, инструменты визуализации данных R неуклонно набирают популярность в кругах Data Science и Big Data.

Если вам интересно узнать о науке о данных, ознакомьтесь с нашим дипломом PG по науке о данных, который создан для работающих профессионалов и предлагает более 10 тематических исследований и проектов, практические практические семинары, наставничество с отраслевыми экспертами, 1-на-1 с отраслевые наставники, более 400 часов обучения и помощь в трудоустройстве в ведущих фирмах.

Какой из них я должен изучить - R или Python?

Python и R считаются довольно простыми для изучения. Python был создан для разработки программного обеспечения. Если у вас есть предварительный опыт работы с Java или C++, Python может подойти вам легче, чем R. R, с другой стороны, может быть немного проще, если у вас есть опыт работы в статистике. Простой для понимания синтаксис Python облегчает его изучение. Поначалу у R более высокая кривая обучения, но по мере того, как вы продолжаете практиковаться, он становится значительно проще.

Tableau — лучший инструмент для визуализации данных?

Tableau — один из самых популярных инструментов визуализации данных на рынке по двум причинам: он прост в использовании и достаточно мощен. Программа может импортировать данные из сотен источников и генерировать десятки стилей визуализации, включая диаграммы, карты и многое другое.

В чем разница между R и RStudio?

R — это язык программирования для статистических вычислений, а RStudio — среда статистического программирования, в которой используется R. Вы можете создать программу в R и запустить ее без использования какого-либо другого программного обеспечения. Однако для эффективной работы RStudio необходимо использовать его совместно с R.