4 типа данных: номинальные, порядковые, дискретные, непрерывные

Опубликовано: 2020-12-01

Оглавление

Введение

Наука о данных — это эксперименты с необработанными или структурированными данными. Данные — это топливо, которое может направить бизнес на правильный путь или, по крайней мере, предоставить полезную информацию, которая может помочь разработать стратегию текущих кампаний, легко организовать запуск новых продуктов или опробовать различные эксперименты.

У всех этих вещей есть один общий движущий компонент — данные. Мы вступаем в цифровую эру, когда мы производим много Данных. Например, такая компания, как Flipkart, ежедневно производит более 2 ТБ данных.

Когда эти данные имеют такое большое значение в нашей жизни, становится важно правильно хранить и обрабатывать их без каких-либо ошибок. При работе с наборами данных категория данных играет важную роль для определения того, какая стратегия предварительной обработки будет работать для конкретного набора для получения правильных результатов или какой тип статистического анализа следует применять для достижения наилучших результатов. Давайте углубимся в некоторые из часто используемых категорий данных.

Качественный тип данных

Качественные или категориальные данные описывают рассматриваемый объект с использованием конечного набора дискретных классов. Это означает, что этот тип данных нельзя легко подсчитать или измерить с помощью чисел и, следовательно, разделить на категории. Пол человека (мужской, женский или другой) является хорошим примером этого типа данных.

Обычно они извлекаются из аудио, изображений или текстового носителя. Другим примером может быть бренд смартфона, который предоставляет информацию о текущем рейтинге, цвете телефона, категории телефона и т. д. Всю эту информацию можно отнести к категории качественных данных. В нем есть две подкатегории:

Номинальный

Это набор значений, которые не имеют естественного порядка. Давайте разберемся в этом на некоторых примерах. Цвет смартфона можно рассматривать как номинальный тип данных, поскольку мы не можем сравнивать один цвет с другими.

Нельзя утверждать, что «красный» больше, чем «синий». Пол человека — это еще один аспект, в котором мы не можем провести различие между мужчиной, женщиной или другими. Категории мобильных телефонов, будь то средний, бюджетный сегмент или смартфон премиум-класса, также являются номинальным типом данных.

Читайте: Карьера в науке о данных

Порядковый номер

Эти типы значений имеют естественный порядок, сохраняя при этом свой класс значений. Если мы рассмотрим размер бренда одежды, то мы можем легко отсортировать их в соответствии с их тегом имени в порядке: маленький < средний < большой. Систему оценок при выставлении оценок кандидатам в тесте также можно рассматривать как порядковый тип данных, где A+ определенно лучше, чем оценка B.

Эти категории помогают нам решить, какую стратегию кодирования можно применить к какому типу данных. Кодирование данных для качественных данных важно, поскольку модели машинного обучения не могут обрабатывать эти значения напрямую и должны быть преобразованы в числовые типы, поскольку модели по своей природе являются математическими.

Для номинального типа данных, где нет сравнения между категориями, может применяться однократное кодирование, которое аналогично двоичному кодированию, учитывая, что их меньше, а для порядкового типа данных может применяться кодирование метки, которое представляет собой форму целого числа. кодирование.

Тип количественных данных

Этот тип данных пытается дать количественную оценку вещей, и он делает это, рассматривая числовые значения, которые делают его исчисляемым по своей природе. Цена смартфона, предлагаемая скидка, количество оценок продукта, частота процессора смартфона или оперативная память этого конкретного телефона — все это относится к категории количественных типов данных.

Ключевым моментом является то, что может быть бесконечное количество значений, которые может принимать функция. Например, цена смартфона может варьироваться от суммы x до любого значения, и ее можно дополнительно разбить на дробные значения. Две подкатегории, которые четко их описывают:

Дискретный

Числовые значения, которые попадают под целые числа, или целые числа помещаются в эту категорию. Количество динамиков в телефоне, камер, ядер в процессоре, количество поддерживаемых SIM-карт — все это некоторые примеры дискретного типа данных.

Непрерывный

Дробные числа считаются непрерывными величинами. Это может быть рабочая частота процессоров, версия телефона для Android, частота Wi-Fi, температура ядер и так далее.

Обязательно прочитайте: Заработная плата специалиста по данным в Индии

Могут ли порядковый и дискретный типы перекрываться?

Если обратить внимание на это, можно дать нумерацию порядковым классам, и тогда его надо называть дискретным типом или порядковым? Правда в том, что он все еще порядковый. Причина этого в том, что даже если нумерация сделана, она не передает фактического расстояния между классами.

Например, рассмотрим систему оценивания теста. Соответствующие оценки могут быть A, B, C, D, E, и если мы пронумеруем их от начала, то это будет 1,2,3,4,5. Теперь, в соответствии с числовыми различиями, расстояние между классом E и классом D такое же, как расстояние между классом D и C, что не очень точно, поскольку мы все знаем, что класс C все еще приемлем по сравнению с классом E, но средний разница объявляет их равными.

Вы также можете применить тот же метод к форме опроса, где пользовательский опыт записывается по шкале от очень плохого до очень хорошего. Различия между различными классами неясны, поэтому не могут быть определены напрямую количественно.

Различные тесты

Мы обсудили все основные классификации данных. Это важно, потому что теперь мы можем расставить приоритеты тестов, которые будут выполняться по разным категориям. Теперь имеет смысл построить гистограмму или частотный график для количественных данных и круговую диаграмму и гистограмму для качественных данных.

Регрессионный анализ, при котором анализируется взаимосвязь между одной зависимой и двумя или более независимыми переменными, возможен только для количественных данных. Тест ANOVA (дисперсионный анализ) применим только к качественным переменным, хотя вы можете применить двухсторонний тест ANOVA, который использует одну измеряемую переменную и две номинальные переменные.

Таким образом, вы можете применить критерий хи-квадрат к качественным данным, чтобы обнаружить отношения между категориальными переменными.

Заключение

В этой статье мы обсудили, как производимые нами данные могут перевернуть таблицу с ног на голову, как различные категории данных упорядочиваются в соответствии с их потребностями. Мы также рассмотрели, как порядковые типы данных могут перекрываться с дискретными типами данных.

Также обсуждалось, какой тип графика подходит для какой категории данных, а также различные типы тестов, которые можно применять к определенному типу данных, и другие тесты, в которых используются все типы данных.

Если вам интересно изучать науку о данных, чтобы быть в курсе быстро развивающихся технологических достижений, ознакомьтесь с расширенной сертификацией upGrad & IIIT-B в области науки о данных .

Почему наука о данных важна?

Значение науки о данных заключается в том, что она объединяет знания в области программирования, математики и статистики для получения новых идей и понимания больших объемов данных. Для компаний наука о данных является важным ресурсом для принятия решений на основе данных, поскольку она описывает сбор, сохранение, сортировку и оценку данных. Его часто используют высококвалифицированные компьютерные специалисты. Когда мы спрашиваем себя, почему наука о данных так важна, ответ заключается в том, что ценность данных продолжает расти. Наука о данных пользуется большим спросом, потому что она демонстрирует, как цифровые данные меняют организации и позволяют им делать более осознанный и важный выбор.

Какова сфера науки о данных?

В наши дни науку о данных можно найти практически где угодно. Это включает в себя онлайн-транзакции, такие как покупки на Amazon, каналы социальных сетей, такие как Facebook/Instagram, рекомендации Netflix и даже возможности распознавания отпечатков пальцев и лиц, предоставляемые смартфонами. Наука о данных охватывает множество передовых технологических идей, таких как искусственный интеллект, Интернет вещей (IoT) и глубокое обучение, и это лишь некоторые из них. Эффект науки о данных резко возрос благодаря ее достижениям и техническим достижениям, расширив сферу ее применения. Изучая науку о данных, вы можете выбрать свой профиль работы из множества вариантов, и большинство из этих рабочих мест хорошо оплачиваются. Вот некоторые из этих профилей работы: аналитик данных, специалист по данным, инженер данных, ученый и инженер по машинному обучению, разработчик бизнес-аналитики, архитектор данных, статистик и т. д.

Чем номинальные данные отличаются от порядковых данных?

Номинальные данные включают в себя имена или характеристики, которые содержат две или более категорий, и категории не имеют внутреннего порядка. Другими словами, эти типы данных не имеют естественного ранжирования или порядка. Порядковый тип данных аналогичен номинальному, но разница между ними заключается в очевидном упорядочении данных. В целом порядковые данные имеют некоторый порядок, а номинальные — нет. Все данные ранжирования, такие как шкалы Лайкерта, Бристольские шкалы стула и любые другие шкалы с рейтингом от 0 до 10, могут быть выражены с использованием порядковых данных.