Методы очистки данных: узнайте о простых и эффективных способах очистки данных
Опубликовано: 2020-01-26Очистка данных — неотъемлемая часть науки о данных. Работа с нечистыми данными может привести ко многим трудностям. И сегодня мы обсудим то же самое.
Вы узнаете, почему очистка данных так важна, какие факторы влияют на качество ваших данных и как вы можете очистить имеющиеся у вас данные. Это подробное руководство, поэтому обязательно добавьте его в закладки для дальнейшего использования.
Давайте начнем.
Оглавление
Зачем нужна очистка данных
Очистка данных может показаться скучной и неинтересной, но это одна из самых важных задач, которую вам придется выполнять как специалисту по обработке и анализу данных. Наличие неправильных данных или данных плохого качества может нанести ущерб вашим процессам и анализу. Плохие данные могут привести к сбою звездного алгоритма.
С другой стороны, высококачественные данные могут привести к тому, что простой алгоритм даст выдающиеся результаты. Существует множество методов очистки данных, и вам следует ознакомиться с ними, чтобы улучшить качество данных. Не все данные полезны. Так что это еще один важный фактор, влияющий на качество ваших данных.
Читайте: Кластерный анализ в R
Например, предположим, что в вашей компании есть список адресов сотрудников. Теперь, если ваши данные также включают несколько адресов ваших клиентов, не повредит ли это список? И не пропадут ли ваши усилия по анализу списка напрасно? На этом рынке, основанном на данных, изучение науки о данных для улучшения ваших бизнес-решений имеет жизненно важное значение.
Существует множество причин, по которым очистка данных необходима. Некоторые из них перечислены ниже:
Эффективность
Наличие чистых данных (свободных от неправильных и противоречивых значений) может помочь вам выполнить анализ намного быстрее. Вы сэкономите значительное количество времени, выполнив эту задачу заранее. Когда вы очищаете свои данные перед их использованием, вы сможете избежать множества ошибок. Если вы используете данные, содержащие ложные значения, ваши результаты не будут точными.
И есть вероятность, что вам придется переделывать всю задачу заново, что может привести к потере большого количества времени. Если вы решите очистить свои данные перед их использованием, вы сможете быстрее получить результаты и избежать повторного выполнения всей задачи.
Погрешность
Когда вы не используете точные данные для анализа, вы обязательно будете делать ошибки. Предположим, вы потратили много сил и времени на анализ определенной группы наборов данных. Вы очень хотите показать результаты своему начальнику, но на собрании ваш начальник указывает на несколько ошибок, и ситуация становится какой-то неловкой и болезненной.
Разве вы не хотели бы избежать подобных ошибок? Они не только вызывают смущение, но и тратят ресурсы впустую. Очистка данных поможет вам в этом отношении. Полная остановка — это широко распространенная практика, и вам следует изучить методы, используемые для очистки данных.
Использование простого алгоритма с чистыми данными намного лучше, чем использование продвинутого с нечистыми данными.
Определение качества данных
Данные действительны? (Период действия)
Достоверность ваших данных — это степень, в которой они соответствуют правилам ваших конкретных требований. Например, вы, как импортировать номера телефонов разных клиентов, но в некоторых местах вы добавили в данные адреса электронной почты. Теперь, поскольку вам явно нужны телефонные номера, адреса электронной почты будут недействительными.
Ошибки достоверности возникают, когда метод ввода не проверяется должным образом. Возможно, вы используете электронные таблицы для сбора данных. И вы можете ввести неверную информацию в ячейки электронной таблицы.
Существует несколько видов ограничений , которым должны соответствовать ваши данные, чтобы они были действительными. Они здесь:
Спектр:
Некоторые типы чисел должны находиться в определенном диапазоне. Например, количество продуктов, которые вы можете перевезти за день, должно иметь минимальное и максимальное значение. Наверняка будет определенный диапазон для данных. Будет начальная точка и конечная точка.
Тип данных:
Некоторым ячейкам данных могут потребоваться данные определенного типа, например числовые, логические и т. д. Например, в логический раздел нельзя добавлять числовое значение.
Обязательные ограничения:
В каждом сценарии есть некоторые обязательные ограничения, которым должны следовать ваши данные. Обязательные ограничения зависят от ваших конкретных потребностей. Конечно, определенные столбцы ваших данных не должны быть пустыми. Например, в списке имен ваших клиентов столбец «имя» не может быть пустым.
Кросс-полевое обследование:
Существуют определенные условия, которые влияют на несколько полей данных в определенной форме. Предположим, что время вылета рейса не может быть раньше его прибытия. В балансе сумма дебета и кредита клиента должна быть одинаковой. Это не может быть другим.
Эти значения связаны друг с другом, и поэтому вам может потребоваться провести перекрестное исследование.
Уникальные требования:
Отдельные типы данных имеют уникальные ограничения. Два клиента не могут иметь один и тот же билет в службу поддержки. Такие данные должны быть уникальными для определенного поля и не могут использоваться несколькими.
Ограничения на установленное членство:
Некоторые значения ограничены определенным набором. Например, пол может быть мужским, женским или неизвестным.
Обычные узоры:
Некоторые фрагменты данных имеют определенный формат. Например, адреса электронной почты имеют формат «[email protected]». Точно так же телефонные номера состоят из десяти цифр.
Если данные не в требуемом формате, они также будут недействительными.
Если человек опускает «@» при вводе адреса электронной почты, тогда адрес электронной почты будет недействительным, не так ли? Проверка достоверности ваших данных — это первый шаг к определению их качества. В большинстве случаев причиной ввода неверной информации является человеческий фактор.
Избавление от него поможет вам оптимизировать процесс и заранее избежать бесполезных значений данных.
Точность
Теперь, когда вы знаете, что большая часть имеющихся у вас данных верна, вам нужно сосредоточиться на установлении их точности. Даже если данные действительны, это не означает, что данные точны. А определение точности поможет вам выяснить, были ли введенные вами данные точными или нет.
Адрес клиента может быть в правильном формате, но он не обязательно должен быть правильным. Возможно, в электронном письме есть дополнительная цифра или символ, из-за которых оно неверно. Другой пример — номер телефона клиента.
Читайте: Лучшие API-интерфейсы машинного обучения для науки о данных
Если номер телефона состоит из всех цифр, это допустимое значение. Но это не значит, что это правда. Когда у вас есть определения допустимых значений, определить недопустимые несложно. Но это не помогает в проверке точности того же самого. Для проверки точности ваших значений данных необходимо использовать сторонние источники.
Это означает, что вам придется полагаться на источники данных, отличные от того, который вы используете в настоящее время. Вам придется перепроверить свои данные, чтобы выяснить, верны они или нет. В методах очистки данных не так много решений для проверки точности значений данных.
Однако в зависимости от того, какие данные вы используете, вы можете найти ресурсы, которые могут помочь вам в этом отношении. Не следует путать точность с точностью .
Точность против точности
В то время как точность зависит от того, были ли введенные вами данные правильными или нет, точность требует, чтобы вы предоставили более подробную информацию об этом. Клиент может ввести свое имя в поле данных. Но если нет фамилии, было бы сложно быть более точным.
Другим примером может быть адрес. Предположим, вы спрашиваете человека, где он живет. Они могут сказать, что живут в Лондоне. Это может быть правдой. Однако это не точный ответ, потому что вы не знаете, где они живут в Лондоне.
Точный ответ будет дать вам почтовый адрес.
Полнота
Получить всю необходимую информацию практически невозможно. Полнота — это степень, в которой вы знаете все требуемые значения. Добиться полноты немного сложнее, чем точности или достоверности. Это потому, что вы не можете принять значение. Вам нужно только ввести известные факты.
Вы можете попытаться дополнить свои данные, повторив действия по сбору данных (снова обратившись к клиентам, повторно опросив людей и т. д.). Но это не значит, что вы сможете полностью заполнить свои данные.
Предположим, вы повторно опросили людей для получения данных, которые вам были нужны ранее. Теперь у этого сценария есть проблема припоминания. Если вы снова зададите им те же вопросы, скорее всего, они не вспомнят, на что отвечали раньше. Это может привести к тому, что они дадут вам неправильный ответ.
Вы можете спросить его, какие книги они читали пять месяцев назад. А могут и не помнить. Точно так же вам может потребоваться ввести контактную информацию каждого клиента. Но у некоторых из них может не быть адресов электронной почты. В этом случае вам придется оставить эти столбцы пустыми.
Если у вас есть система, которая требует от вас заполнения всех столбцов, вы можете попробовать ввести туда «отсутствует» или «неизвестно». Но ввод таких значений не означает, что данные полны. Его все равно будут называть неполным.
Последовательность
За полнотой следует последовательность. Согласованность можно измерить, сравнив две похожие системы. Или вы можете проверить значения данных в одном и том же наборе данных, чтобы увидеть, согласуются ли они или нет. Согласованность может быть относительной. Например, возраст клиента может быть 15 лет, что является допустимым значением и может быть точным, но в той же системе он также может быть указан как пожилой гражданин.

В таких случаях вам потребуется перепроверить данные, как при измерении точности, и посмотреть, какое значение верно. Клиенту 15 лет? Или клиент пенсионер? Только одно из этих значений может быть истинным.
Есть несколько способов сделать ваши данные согласованными.
Проверьте различные системы:
Вы можете взглянуть на другую подобную систему, чтобы узнать, является ли ценность, которую вы имеете, реальной или нет. Если две из ваших систем противоречат друг другу, может помочь проверка третьей.
В нашем предыдущем примере предположим, что вы проверяете третью систему и обнаруживаете, что возраст клиента равен 65 годам. Это показывает, что вторая система, в которой говорится, что клиент является пожилым гражданином, будет работать.
Проверьте последние данные:
Еще один способ улучшить согласованность ваших данных — проверить более новое значение. Это может быть более полезным для вас в определенных сценариях. В вашей записи может быть два разных контактных номера клиента. Самый последний, вероятно, будет более надежным, потому что возможно, что клиент сменил номер.
Проверьте источник:
Самый надежный способ проверить достоверность данных — просто связаться с источником. В нашем примере с возрастом клиента вы можете напрямую связаться с клиентом и спросить его возраст. Однако это возможно не во всех сценариях, и прямой контакт с источником может быть очень сложным. Возможно, клиент не отвечает или его контактная информация недоступна.
Единообразие
Вы должны убедиться, что все значения, которые вы ввели в свой набор данных, выражены в одних и тех же единицах. Если вы вводите единицы СИ для измерений, вы не можете использовать имперскую систему в некоторых местах. С другой стороны, если в одном месте вы ввели время в секундах, то вы должны вводить его в этом формате по всему набору данных.
Читайте: SQL для науки о данных
Проверить единообразие ваших записей довольно просто. Простая проверка может показать, находится ли конкретное значение в требуемых единицах или нет. Единицы, которые вы используете для ввода данных, зависят от ваших конкретных требований.
Методы очистки данных
Ваш выбор методов очистки данных зависит от множества факторов. Во-первых, с какими данными вы имеете дело? Являются ли они числовыми значениями или строками? Если у вас слишком мало значений для обработки, вы не должны рассчитывать на очистку данных с помощью всего лишь одного метода.
Возможно, вам придется использовать несколько методов для лучшего результата. Чем больше типов данных вам приходится обрабатывать, тем больше методов очистки вам придется использовать. Знакомство со всеми этими методами поможет вам исправить ошибки и избавиться от бесполезных данных.
1. Удалите ненужные значения
Первое и главное, что вы должны сделать, это удалить бесполезные фрагменты данных из вашей системы. Любые бесполезные или нерелевантные данные — это те, которые вам не нужны. Это может не соответствовать контексту вашей проблемы.
Возможно, вам потребуется только измерить средний возраст вашего торгового персонала. Тогда их адрес электронной почты не потребуется. Другой пример: вы можете проверить, со сколькими клиентами вы связались за месяц. В этом случае вам не понадобятся данные людей, с которыми вы общались в предыдущем месяце.
Однако прежде чем удалить конкретный фрагмент данных, убедитесь, что он не имеет значения, поскольку он может понадобиться вам позже для проверки его коррелированных значений (для проверки непротиворечивости). И если вы можете получить второе мнение от более опытного эксперта перед удалением данных, не стесняйтесь делать это.
Вы бы не хотели удалить некоторые значения и потом пожалеть о своем решении. Но как только вы убедитесь, что данные не имеют значения, избавьтесь от них.
2. Избавьтесь от повторяющихся значений
Дубликаты аналогичны бесполезным значениям — они вам не нужны. Они только увеличивают объем данных, которые у вас есть, и тратят ваше время. Вы можете избавиться от них с помощью простого поиска. Повторяющиеся значения могут присутствовать в вашей системе по нескольким причинам.
Возможно, вы объединили данные из нескольких источников. Или, возможно, человек, отправивший данные, ошибочно повторил значение. Какой-то пользователь дважды нажал кнопку «Ввод», когда заполнял онлайн-форму. Вы должны удалить дубликаты, как только найдете их.
3. Избегайте опечаток (и подобных ошибок)
Опечатки являются результатом человеческой ошибки и могут присутствовать где угодно. Вы можете исправить опечатки с помощью нескольких алгоритмов и методов. Вы можете сопоставить значения и преобразовать их в правильное написание. Опечатки необходимо исправлять, поскольку модели по-разному обрабатывают разные значения. Строки во многом зависят от их написания и регистра.
«Джордж» отличается от «джордж», хотя они имеют одинаковое написание. Точно так же «Майк» и «Мыши» отличаются друг от друга, хотя у них одинаковое количество символов. Вам нужно будет искать опечатки, подобные этой, и исправлять их соответствующим образом.
Другая ошибка, похожая на опечатки, связана с размером строки. Возможно, вам придется дополнить их, чтобы сохранить их в том же формате. Например, ваш набор данных может потребовать, чтобы у вас были только 5-значные числа. Поэтому, если у вас есть какое-либо значение, которое состоит только из четырех цифр, например «3994», вы можете добавить ноль в начале, чтобы увеличить количество цифр.
Его значение останется таким же, как «03994», но ваши данные будут одинаковыми. Дополнительная ошибка со строками связана с пробелами. Убедитесь, что вы удалили их из своих строк, чтобы сохранить их согласованность.
4. Преобразование типов данных
Типы данных должны быть одинаковыми в вашем наборе данных. Строка не может быть числовой, а числовое значение не может быть логическим. Есть несколько вещей, которые вы должны иметь в виду, когда дело доходит до преобразования типов данных:
- Сохраняйте числовые значения как числовые
- Проверьте, является ли число строкой или нет. Если бы вы ввели его как строку, это было бы неправильно.
- Если вы не можете преобразовать определенное значение данных, вы должны ввести «значение NA» или что-то в этом роде. Убедитесь, что вы также добавили предупреждение, чтобы показать, что это конкретное значение неверно.
5. Позаботьтесь о пропущенных значениях
Всегда будет часть недостающих данных. Вы не можете этого избежать. Поэтому вы должны знать, как обращаться с ними, чтобы ваши данные были чистыми и безошибочными. В определенном столбце набора данных может быть слишком много пропущенных значений. В этом случае было бы разумно избавиться от всего столбца, потому что в нем недостаточно данных для работы.
Обратите внимание: вы не должны игнорировать пропущенные значения.
Игнорирование отсутствующих значений может быть серьезной ошибкой, поскольку они загрязнят ваши данные, и вы не получите точных результатов. Есть несколько способов справиться с пропущенными значениями.
Вменение пропущенных значений:
Вы можете вменить пропущенные значения, что означает, предполагая приблизительное значение. Вы можете использовать линейную регрессию или медиану для вычисления пропущенного значения. Однако этот метод имеет свои последствия, потому что вы не можете быть уверены, что это действительное значение.
Другой метод вменения отсутствующих значений — копирование данных из аналогичного набора данных. Этот метод называется «вменение горячей колоды». Вы добавляете значение в свою текущую запись, учитывая некоторые ограничения, такие как тип данных и диапазон.
Выделение отсутствующих значений:
Вменение не всегда является лучшей мерой для устранения пропущенных значений. Многие эксперты утверждают, что это приводит только к более неоднозначным результатам, поскольку они не являются «настоящими». Таким образом, вы можете использовать другой подход и сообщить модели об отсутствии данных. Сообщение модели (или алгоритму), что конкретное значение недоступно, также может быть частью информации.
Если случайные причины не несут ответственности за ваши пропущенные значения, может быть полезно выделить или отметить их. Например, в ваших записях может быть не так много ответов на конкретный вопрос вашего опроса, потому что ваш клиент изначально не хотел на него отвечать.
Если отсутствующее значение является числовым, вы можете использовать 0. Просто убедитесь, что вы игнорируете эти значения во время статистического анализа. С другой стороны, если отсутствующее значение является категориальным значением, вы можете заполнить «отсутствует».
Резюме
Мы надеемся, что вам понравилось наше подробное пошаговое руководство по методам очистки данных. Несомненно, было чему поучиться.
Узнайте больше об обработке данных из нашего видеоролика вебинара ниже.
Если у вас есть какие-либо вопросы по очистке данных, не стесняйтесь задавать их нашим специалистам.
Если вам интересно узнать о науке о данных, ознакомьтесь с программой IIIT-B & upGrad Executive PG по науке о данных, которая создана для работающих профессионалов и предлагает более 10 тематических исследований и проектов, практические семинары, наставничество с отраслевыми экспертами, 1 -на-1 с отраслевыми наставниками, более 400 часов обучения и помощи в трудоустройстве в ведущих фирмах.
Почему несоответствие данных является проблемой?
Когда одна и та же часть данных появляется в нескольких местах, возникает избыточность данных, тогда как несогласованность данных возникает, когда одни и те же данные появляются в нескольких таблицах в разных формах. К сожалению, избыточность данных может привести к несогласованности данных, что приведет к получению неточных и/или бесполезных данных для фирмы. Они не могут должным образом прогнозировать продажи, чтобы оптимизировать процедуры управления запасами и распределением; они не могут обнаружить проблемы с производством или цепочкой поставок, чтобы свести к минимуму перерасход средств и задержки; и они не могут оценить интерес клиентов к новому продукту, чтобы изменить дизайн или маркетинговые кампании.
Как часто нужно очищать ваши данные?
Частота, с которой вы должны очищать свои данные, полностью зависит от ваших бизнес-требований. Крупная компания будет быстро получать много данных, поэтому очистка данных может потребоваться каждые три-шесть месяцев. Предлагается, чтобы небольшие фирмы с меньшим объемом данных очищали свои данные не реже одного раза в год. Рекомендуется запланировать очистку данных, если вы подозреваете, что грязные данные стоят вам денег или негативно влияют на вашу производительность, эффективность или понимание.
Подходит ли Tableau для очистки данных?
Tableau Prep поставляется с рядом процедур очистки, которые вы можете использовать для очистки и формирования ваших данных прямо сейчас. Очистка грязных данных упрощает интеграцию и анализ ваших данных, а также позволяет другим понять ваши данные, когда вы ими делитесь.