Técnicas de limpeza de dados: aprenda maneiras simples e eficazes de limpar dados

Publicados: 2020-01-26

A limpeza de dados é uma parte essencial da ciência de dados. Trabalhar com dados impuros pode levar a muitas dificuldades. E hoje, vamos discutir o mesmo.

Você descobrirá por que a limpeza de dados é essencial, quais fatores afetam a qualidade dos dados e como você pode limpar os dados que possui. É um guia detalhado, portanto, certifique-se de marcá-lo para referência futura.

Vamos começar.

Índice

Por que a limpeza de dados é necessária

A limpeza de dados pode parecer monótona e desinteressante, mas é uma das tarefas mais importantes que você teria que fazer como profissional de ciência de dados. Ter dados errados ou de má qualidade pode ser prejudicial para seus processos e análises. Dados ruins podem fazer com que um algoritmo estelar falhe.

Por outro lado, dados de alta qualidade podem fazer com que um algoritmo simples forneça resultados excelentes. Existem muitas técnicas de limpeza de dados e você deve se familiarizar com elas para melhorar a qualidade de seus dados. Nem todos os dados são úteis. Portanto, esse é outro fator importante que afeta a qualidade dos dados.

Leia: Análise de cluster em R

Por exemplo, suponha que sua empresa tenha uma lista de endereços de funcionários. Agora, se seus dados também incluírem alguns endereços de seus clientes, isso não prejudicaria a lista? E seus esforços para analisar a lista não seriam em vão? Neste mercado baseado em dados, aprender ciência de dados para melhorar suas decisões de negócios é vital.

Há muitas razões pelas quais a limpeza de dados é essencial. Alguns deles estão listados abaixo:

Eficiência

Ter dados limpos (livres de valores errados e inconsistentes) pode ajudá-lo a realizar sua análise muito mais rapidamente. Você economizaria uma quantidade considerável de tempo fazendo essa tarefa com antecedência. Ao limpar seus dados antes de usá-los, você poderá evitar vários erros. Se você usar dados contendo valores falsos, seus resultados não serão precisos.

E as chances são de que você teria que refazer toda a tarefa novamente, o que pode causar muito desperdício de tempo. Se você optar por limpar seus dados antes de usá-los, poderá gerar resultados mais rapidamente e evitar refazer toda a tarefa novamente.

Margem de erro

Quando você não usa dados precisos para análise, certamente cometerá erros. Suponha que você tenha dedicado muito esforço e tempo para analisar um grupo específico de conjuntos de dados. Você está muito ansioso para mostrar os resultados ao seu superior, mas na reunião, seu superior aponta alguns erros e a situação fica meio constrangedora e dolorosa.

Você não gostaria de evitar que tais erros acontecessem? Eles não apenas causam constrangimento, mas também desperdiçam recursos. A limpeza de dados ajuda você nesse sentido, pois é uma prática generalizada, e você deve aprender os métodos usados ​​para limpar os dados.

Usar um algoritmo simples com dados limpos é muito melhor do que usar um avançado com dados sujos.

Como determinar a qualidade dos dados

Os dados são válidos? (Validade)

A validade de seus dados é o grau em que eles seguem as regras de seus requisitos particulares. Por exemplo, você como importar números de telefone de clientes diferentes, mas em alguns lugares, você adicionou endereços de e-mail nos dados. Agora, como suas necessidades eram explicitamente para números de telefone, os endereços de e-mail seriam inválidos.

Erros de validade ocorrem quando o método de entrada não é inspecionado corretamente. Você pode estar usando planilhas para coletar seus dados. E você pode inserir as informações erradas nas células da planilha.

Existem vários tipos de restrições que seus dados precisam estar em conformidade para serem válidos. Aqui estão eles:

Variedade:

Alguns tipos de números precisam estar em um intervalo específico. Por exemplo, o número de produtos que você pode transportar em um dia deve ter um valor mínimo e máximo. Certamente haveria um intervalo específico para os dados. Haveria um ponto de partida e um ponto de chegada.

Tipo de dados:

Algumas células de dados podem exigir um tipo específico de dados, como numérico, booleano, etc. Por exemplo, em uma seção booleana, você não adicionaria um valor numérico.

Restrições obrigatórias:

Em todos os cenários, existem algumas restrições obrigatórias que seus dados devem seguir. As restrições obrigatórias dependem de suas necessidades específicas. Certamente, colunas específicas de seus dados não devem estar vazias. Por exemplo, na lista de nomes de seus clientes, a coluna 'nome' não pode ficar vazia.

Exame de campo cruzado:

Existem certas condições que afetam vários campos de dados em um formulário específico. Suponha que a hora de partida de um voo não possa ser anterior à sua chegada. Em um balanço, a soma do débito e crédito do cliente deve ser a mesma. Não pode ser diferente.

Esses valores estão relacionados entre si, e é por isso que você pode precisar realizar um exame de campo cruzado.

Requisitos exclusivos:

Tipos particulares de dados têm restrições exclusivas. Dois clientes não podem ter o mesmo ticket de suporte ao cliente. Esse tipo de dado deve ser exclusivo para um campo específico e não pode ser compartilhado por vários.

Restrições de associação ao conjunto:

Alguns valores são restritos a um determinado conjunto. Tipo, o gênero pode ser Masculino, Feminino ou Desconhecido.

Padrões Regulares:

Alguns dados seguem um formato específico. Por exemplo, os endereços de e-mail têm o formato '[email protected]'. Da mesma forma, os números de telefone têm dez dígitos.

Se os dados não estiverem no formato necessário, também serão inválidos.

Se uma pessoa omitir o '@' ao inserir um endereço de e-mail, o endereço de e-mail será inválido, não é? Verificar a validade de seus dados é o primeiro passo para determinar sua qualidade. Na maioria das vezes, a causa da entrada de informações inválidas é um erro humano.

Livrar-se disso ajudará você a otimizar seu processo e evitar valores de dados inúteis de antemão.

Precisão

Agora que você sabe que a maioria dos dados que possui são válidas, você terá que se concentrar em estabelecer sua precisão. Mesmo que os dados sejam válidos, isso não significa que os dados sejam precisos. E determinar a precisão ajuda você a descobrir se os dados inseridos são precisos ou não.

O endereço de um cliente pode estar no formato correto, mas não precisa ser o correto. Talvez o e-mail tenha um dígito ou caractere adicional que o torne errado. Outro exemplo é o número de telefone de um cliente.

Leia: Principais APIs de aprendizado de máquina para ciência de dados

Se o número de telefone tiver todos os dígitos, é um valor válido. Mas isso não significa que seja verdade. Quando você tem definições para valores válidos, descobrir os inválidos é fácil. Mas isso não ajuda a verificar a precisão do mesmo. A verificação da precisão de seus valores de dados exige que você use fontes de terceiros.

Isso significa que você terá que confiar em fontes de dados diferentes daquelas que está usando atualmente. Você terá que cruzar seus dados para descobrir se são precisos ou não. As técnicas de limpeza de dados não têm muitas soluções para verificar a precisão dos valores dos dados.

No entanto, dependendo do tipo de dados que estiver usando, você poderá encontrar recursos que possam ajudá-lo nesse sentido. Você não deve confundir exatidão com precisão .

Exatidão x Precisão

Embora a precisão dependa de estabelecer se os dados inseridos estão corretos ou não, a precisão exige que você forneça mais detalhes sobre os mesmos. Um cliente pode inserir um primeiro nome em seu campo de dados. Mas se não houver sobrenome, seria um desafio ser mais preciso.

Outro exemplo pode ser de um endereço. Suponha que você pergunte a uma pessoa onde ela mora. Eles podem dizer que vivem em Londres. Isso pode ser verdade. No entanto, essa não é uma resposta precisa porque você não sabe onde eles moram em Londres.

Uma resposta precisa seria dar-lhe um endereço de rua.

Completude

É quase impossível ter todas as informações que você precisa. Completude é o grau em que você conhece todos os valores necessários. A completude é um pouco mais desafiadora do que a precisão ou a validade. Isso porque você não pode assumir um valor. Você só precisa inserir fatos conhecidos.

Você pode tentar completar seus dados refazendo as atividades de coleta de dados (aproximando-se dos clientes novamente, entrevistando novamente as pessoas, etc.). Mas isso não significa que você seria capaz de completar seus dados completamente.

Suponha que você volte a entrevistar as pessoas para obter os dados de que precisava anteriormente. Agora, esse cenário tem o problema de recall. Se você fizer as mesmas perguntas novamente, é provável que eles não se lembrem do que responderam antes. Isso pode levar a eles, dando-lhe a resposta errada.

Você pode perguntar a ele quais livros eles estavam lendo há cinco meses. E eles podem não se lembrar. Da mesma forma, pode ser necessário inserir as informações de contato de cada cliente. Mas alguns deles podem não ter endereços de e-mail. Nesse caso, você teria que deixar essas colunas vazias.

Se você tem um sistema que exige que você preencha todas as colunas, você pode tentar digitar 'ausente' ou 'desconhecido' lá. Mas inserir esses valores não significa que os dados estão completos. Ainda seria referido como incompleto.

Consistência

Ao lado da completude vem a consistência. Você pode medir a consistência comparando dois sistemas semelhantes. Ou você pode verificar os valores de dados no mesmo conjunto de dados para ver se eles são consistentes ou não. A consistência pode ser relacional. Por exemplo, a idade de um cliente pode ser 15 anos, o que é um valor válido e pode ser preciso, mas também pode ser declarado cidadão sênior no mesmo sistema.

Nesses casos, você precisará verificar os dados, semelhante à precisão da medição, e ver qual valor é verdadeiro. O cliente tem 15 anos? Ou o cliente é um idoso? Apenas um desses valores pode ser verdadeiro.

Existem várias maneiras de tornar seus dados consistentes.

Verifique os diferentes sistemas:

Você pode dar uma olhada em outro sistema semelhante para descobrir se o valor que você tem é real ou não. Se dois de seus sistemas estiverem se contradizendo, pode ser útil verificar o terceiro.

Em nosso exemplo anterior, suponha que você verifique o terceiro sistema e descubra que a idade do cliente é de 65 anos. Isso mostra que o segundo sistema, que dizia que o cliente é um idoso, seria válido.

Confira os dados mais recentes:

Outra maneira de melhorar a consistência de seus dados é verificar o valor mais recente. Pode ser mais benéfico para você em cenários específicos. Você pode ter dois números de contato diferentes para um cliente em seu registro. O mais recente provavelmente seria mais confiável porque é possível que o cliente tenha trocado de número.

Confira a fonte:

A maneira mais infalível de verificar a confiabilidade dos dados é entrar em contato com a fonte simplesmente. No nosso exemplo da idade do cliente, você pode optar por entrar em contato diretamente com o cliente e perguntar sua idade. No entanto, não é possível em todos os cenários e contatar diretamente a fonte pode ser altamente complicado. Talvez o cliente não responda ou suas informações de contato não estejam disponíveis.

Uniformidade

Você deve garantir que todos os valores inseridos em seu conjunto de dados estejam nas mesmas unidades. Se você estiver inserindo unidades do SI para medidas, não poderá usar o sistema Imperial em alguns lugares. Por outro lado, se em um lugar você inseriu o tempo em segundos, você deve inseri-lo neste formato em todo o conjunto de dados.

Leia: SQL para Ciência de Dados

Verificar a uniformidade de seus registros é bastante fácil. Uma simples inspeção pode revelar se um determinado valor está na unidade exigida ou não. As unidades que você usa para inserir seus dados dependem de seus requisitos específicos.

Técnicas de limpeza de dados

Sua escolha de técnicas de limpeza de dados depende de muitos fatores. Primeiro, com que tipo de dados você está lidando? São valores numéricos ou strings? A menos que você tenha poucos valores para manipular, não espere limpar seus dados com apenas uma técnica.

Você pode precisar usar várias técnicas para um melhor resultado. Quanto mais tipos de dados você tiver que manipular, mais técnicas de limpeza você terá que usar. Estar familiarizado com todos esses métodos ajudará você a corrigir erros e se livrar de dados inúteis.

1. Remova os valores irrelevantes

A primeira e mais importante coisa que você deve fazer é remover partes inúteis de dados do seu sistema. Qualquer dado inútil ou irrelevante é o que você não precisa. Pode não se encaixar no contexto do seu problema.

Talvez você só precise medir a idade média de sua equipe de vendas. Então o endereço de e-mail deles não seria necessário. Outro exemplo é que você pode estar verificando quantos clientes você contatou em um mês. Nesse caso, você não precisaria dos dados das pessoas que você alcançou no mês anterior.

No entanto, antes de remover um dado específico, certifique-se de que ele seja irrelevante, pois pode ser necessário verificar seus valores correlacionados posteriormente (para verificar a consistência). E se você puder obter uma segunda opinião de um especialista mais experiente antes de remover os dados, sinta-se à vontade para fazê-lo.

Você não gostaria de excluir alguns valores e se arrepender da decisão mais tarde. Mas quando tiver certeza de que os dados são irrelevantes, livre-se deles.

2. Livre-se de valores duplicados

Duplicatas são semelhantes a valores inúteis – você não precisa delas. Eles apenas aumentam a quantidade de dados que você tem e desperdiçam seu tempo. Você pode se livrar deles com pesquisas simples. Valores duplicados podem estar presentes em seu sistema por vários motivos.

Talvez você combinou os dados de várias fontes. Ou, talvez, a pessoa que enviou os dados repetiu um valor erroneamente. Alguns usuários clicaram duas vezes em 'entrar' quando estavam preenchendo um formulário online. Você deve remover as duplicatas assim que encontrá-las.

3. Evite erros de digitação (e erros semelhantes)

Erros de digitação são resultado de erro humano e podem estar presentes em qualquer lugar. Você pode corrigir erros de digitação por meio de vários algoritmos e técnicas. Você pode mapear os valores e convertê-los na ortografia correta. Erros de digitação são essenciais para corrigir porque os modelos tratam valores diferentes de maneira diferente. Strings dependem muito de suas grafias e casos.

'George' é diferente de 'george', embora tenham a mesma grafia. Da mesma forma, 'Mike' e 'Mice' são diferentes um do outro, embora tenham o mesmo número de caracteres. Você precisará procurar erros de digitação como esse e corrigi-los adequadamente.

Outro erro semelhante aos erros de digitação é o tamanho das strings. Talvez seja necessário preenchê-los para mantê-los no mesmo formato. Por exemplo, seu conjunto de dados pode exigir que você tenha apenas números de 5 dígitos. Portanto, se você tiver qualquer valor que tenha apenas quatro dígitos, como '3994', poderá adicionar um zero no início para aumentar o número de dígitos.

Seu valor permaneceria igual a '03994', mas manteria seus dados uniformes. Um erro adicional com strings é de espaços em branco. Certifique-se de removê-los de suas cordas para mantê-los consistentes.

4. Converter tipos de dados

Os tipos de dados devem ser uniformes em todo o conjunto de dados. Uma string não pode ser numérica nem um numérico pode ser um booleano. Há várias coisas que você deve ter em mente quando se trata de converter tipos de dados:

  • Manter valores numéricos como numéricos
  • Verifique se um numérico é uma string ou não. Se você a inserisse como uma string, ela estaria incorreta.
  • Se você não puder converter um valor de dados específico, deverá inserir 'valor NA' ou algo desse tipo. Certifique-se de adicionar um aviso também para mostrar que esse valor específico está errado.

5. Cuide dos valores ausentes

Sempre haveria um dado perdido. Você não pode evitá-lo. Portanto, você deve saber como lidar com eles para manter seus dados limpos e livres de erros. Uma coluna específica em seu conjunto de dados pode ter muitos valores ausentes. Nesse caso, seria sensato se livrar da coluna inteira porque ela não possui dados suficientes para trabalhar.

Ponto a ser observado: você não deve ignorar valores ausentes.

Ignorar valores ausentes pode ser um erro significativo, pois eles contaminarão seus dados e você não obterá resultados precisos. Existem várias maneiras de lidar com valores ausentes.

Atribuição de valores ausentes:

Você pode imputar valores ausentes, ou seja, assumindo o valor aproximado. Você pode usar regressão linear ou mediana para calcular o valor ausente. No entanto, esse método tem suas implicações porque você não pode ter certeza se esse seria o valor real.

Outro método para imputar valores ausentes é copiar os dados de um conjunto de dados semelhante. Este método é chamado de 'imputação de convés quente'. Você está agregando valor ao seu registro atual enquanto considera algumas restrições, como tipo de dados e intervalo.

Destacando valores ausentes:

A imputação nem sempre é a melhor medida para cuidar dos valores omissos. Muitos especialistas argumentam que isso só leva a resultados mais mistos, pois não são 'reais'. Assim, você pode adotar outra abordagem e informar ao modelo que os dados estão ausentes. Dizer ao modelo (ou algoritmo) que o valor específico não está disponível também pode ser uma informação.

Se motivos aleatórios não forem responsáveis ​​por seus valores ausentes, pode ser benéfico destacá-los ou sinalizá-los. Por exemplo, seus registros podem não ter muitas respostas para uma pergunta específica de sua pesquisa porque seu cliente não quis respondê-la em primeiro lugar.

Se o valor ausente for numérico, você poderá usar 0. Apenas certifique-se de ignorar esses valores durante a análise estatística. Por outro lado, se o valor ausente for um valor categórico, você pode preencher 'ausente'.

Resumo

Esperamos que você tenha gostado do nosso passo a passo detalhado das técnicas de limpeza de dados. Sem dúvida, havia muito a aprender.

Saiba mais sobre a disputa de dados em nosso vídeo do webinar abaixo.

Se você tiver alguma dúvida sobre a limpeza de dados, sinta-se à vontade para perguntar aos nossos especialistas.

Se você está curioso para aprender sobre ciência de dados, confira o Programa PG Executivo em Ciência de Dados do IIIT-B & upGrad, que é criado para profissionais que trabalham e oferece mais de 10 estudos de caso e projetos, workshops práticos práticos, orientação com especialistas do setor, 1 -on-1 com mentores do setor, mais de 400 horas de aprendizado e assistência de trabalho com as principais empresas.

Por que a inconsistência nos dados é um problema?

Quando o mesmo dado aparece em vários lugares, ocorre redundância de dados, enquanto a inconsistência de dados ocorre quando os mesmos dados aparecem em várias tabelas em diferentes formas. Infelizmente, a redundância de dados pode levar à inconsistência de dados, resultando em dados imprecisos e/ou inúteis para uma empresa. Eles não podem antecipar adequadamente as vendas para otimizar os procedimentos de gerenciamento de estoque e distribuição; eles não podem detectar problemas de fabricação ou cadeia de suprimentos para minimizar atrasos e excessos de custos; e eles não podem avaliar o interesse do cliente em um novo produto para alterar projetos ou campanhas de marketing.

Com que frequência seus dados devem ser limpos?

A frequência com que você deve limpar seus dados depende inteiramente de seus requisitos de negócios. Uma grande empresa adquirirá muitos dados rapidamente, portanto, a limpeza de dados pode ser necessária a cada três a seis meses. Sugere-se que empresas menores com menos dados limpem seus dados pelo menos uma vez por ano. É aconselhável planejar uma limpeza de dados se você suspeitar que dados sujos estão custando dinheiro ou impactando negativamente sua produtividade, eficiência ou insights.

O Tableau é adequado para limpeza de dados?

O Tableau Prep vem com vários procedimentos de limpeza que você pode usar para limpar e moldar seus dados imediatamente. A limpeza de dados sujos torna mais simples integrar e analisar seus dados, bem como para que outras pessoas compreendam seus dados quando você os compartilha.