Técnicas de limpieza de datos: aprenda formas simples y efectivas de limpiar datos
Publicado: 2020-01-26La limpieza de datos es una parte esencial de la ciencia de datos. Trabajar con datos impuros puede generar muchas dificultades. Y hoy, estaremos discutiendo lo mismo.
Descubrirá por qué la limpieza de datos es esencial, qué factores afectan la calidad de sus datos y cómo puede limpiar los datos que tiene. Es una guía detallada, así que asegúrese de marcarla como referencia futura.
Empecemos.
Tabla de contenido
Por qué es necesaria la limpieza de datos
La limpieza de datos puede parecer aburrida y poco interesante, pero es una de las tareas más importantes que debe realizar como profesional de la ciencia de datos. Tener datos erróneos o de mala calidad puede ser perjudicial para sus procesos y análisis. Los datos deficientes pueden hacer que un algoritmo estelar falle.
Por otro lado, los datos de alta calidad pueden hacer que un algoritmo simple le brinde resultados sobresalientes. Existen muchas técnicas de limpieza de datos y debe familiarizarse con ellas para mejorar la calidad de sus datos. No todos los datos son útiles. Ese es otro factor importante que afecta la calidad de sus datos.
Leer: Análisis de conglomerados en R
Por ejemplo, suponga que su empresa tiene una lista de direcciones de empleados. Ahora bien, si sus datos también incluyen algunas direcciones de sus clientes, ¿no dañaría la lista? ¿Y sus esfuerzos por analizar la lista no serían en vano? En este mercado respaldado por datos, aprender ciencia de datos para mejorar sus decisiones comerciales es vital.
Hay muchas razones por las que la limpieza de datos es esencial. Algunos de ellos se enumeran a continuación:
Eficiencia
Tener datos limpios (libres de valores incorrectos e inconsistentes) puede ayudarlo a realizar su análisis mucho más rápido. Ahorraría una cantidad considerable de tiempo si hiciera esta tarea de antemano. Cuando limpie sus datos antes de usarlos, podrá evitar múltiples errores. Si usa datos que contienen valores falsos, sus resultados no serán precisos.
Y lo más probable es que tenga que rehacer toda la tarea nuevamente, lo que puede causar una gran pérdida de tiempo. Si elige limpiar sus datos antes de usarlos, puede generar resultados más rápido y evitar tener que rehacer toda la tarea nuevamente.
margen de error
Cuando no utiliza datos precisos para el análisis, seguramente cometerá errores. Supongamos que ha dedicado mucho esfuerzo y tiempo a analizar un grupo específico de conjuntos de datos. Estás muy ansioso por mostrar los resultados a tu superior, pero en la reunión, tu superior señala algunos errores y la situación se vuelve un poco vergonzosa y dolorosa.
¿No le gustaría evitar que tales errores sucedan? No solo causan vergüenza, sino que también desperdician recursos. La limpieza de datos lo ayuda en ese sentido, punto final, es una práctica generalizada, y debe aprender los métodos utilizados para limpiar datos.
Usar un algoritmo simple con datos limpios es mucho mejor que usar uno avanzado con datos sucios.
Determinación de la calidad de los datos
¿Son válidos los datos? (Validez)
La validez de sus datos es el grado en que siguen las reglas de sus requisitos particulares. Por ejemplo, cómo importar números de teléfono de diferentes clientes, pero en algunos lugares, agregó direcciones de correo electrónico en los datos. Ahora, debido a que sus necesidades eran explícitamente de números de teléfono, las direcciones de correo electrónico no serían válidas.
Los errores de validez se producen cuando el método de entrada no se inspecciona correctamente. Es posible que esté utilizando hojas de cálculo para recopilar sus datos. Y podría ingresar la información incorrecta en las celdas de la hoja de cálculo.
Existen varios tipos de restricciones a las que deben ajustarse sus datos para ser válidos. Aquí están:
Rango:
Algunos tipos de números tienen que estar en un rango específico. Por ejemplo, la cantidad de productos que puedes transportar en un día debe tener un valor mínimo y máximo. Seguramente habría un rango particular para los datos. Habría un punto de partida y un punto final.
Tipo de datos:
Algunas celdas de datos pueden requerir un tipo específico de datos, como numéricos, booleanos, etc. Por ejemplo, en una sección booleana, no agregaría un valor numérico.
Restricciones obligatorias:
En cada escenario, hay algunas restricciones obligatorias que deben seguir sus datos. Las restricciones obligatorias dependen de sus necesidades específicas. Seguramente, las columnas específicas de sus datos no deberían estar vacías. Por ejemplo, en la lista de nombres de sus clientes, la columna de 'nombre' no puede estar vacía.
Examen de campo cruzado:
Hay ciertas condiciones que afectan múltiples campos de datos en un formulario particular. Supongamos que la hora de salida de un vuelo no puede ser anterior a su llegada. En un balance, la suma del débito y crédito del cliente debe ser la misma. No puede ser diferente.
Estos valores están relacionados entre sí, y es por eso que es posible que deba realizar un examen de campo cruzado.
Requisitos únicos:
Los tipos particulares de datos tienen restricciones únicas. Dos clientes no pueden tener el mismo ticket de atención al cliente. Este tipo de datos debe ser exclusivo de un campo en particular y no puede ser compartido por varios.
Restricciones de membresía del conjunto:
Algunos valores están restringidos a un conjunto particular. Por ejemplo, el género puede ser Masculino, Femenino o Desconocido.
Patrones regulares:
Algunos datos siguen un formato específico. Por ejemplo, las direcciones de correo electrónico tienen el formato '[email protected]'. Del mismo modo, los números de teléfono tienen diez dígitos.
Si los datos no están en el formato requerido, tampoco serán válidos.
Si una persona omite la '@' al ingresar una dirección de correo electrónico, entonces la dirección de correo electrónico no sería válida, ¿no es así? Verificar la validez de sus datos es el primer paso para determinar su calidad. La mayoría de las veces, la causa de la entrada de información no válida es un error humano.
Deshacerse de él lo ayudará a optimizar su proceso y evitar valores de datos inútiles de antemano.
Exactitud
Ahora que sabe que la mayoría de los datos que tiene son válidos, deberá concentrarse en establecer su precisión. Aunque los datos sean válidos, no significa que sean precisos. Y determinar la precisión lo ayuda a determinar si los datos que ingresó eran precisos o no.
La dirección de un cliente puede tener el formato correcto, pero no es necesario que sea el correcto. Tal vez el correo electrónico tiene un dígito o carácter adicional que lo hace incorrecto. Otro ejemplo es el número de teléfono de un cliente.
Leer: Principales API de aprendizaje automático para ciencia de datos
Si el número de teléfono tiene todos los dígitos, es un valor válido. Pero eso no significa que sea cierto. Cuando tiene definiciones para valores válidos, descubrir los no válidos es fácil. Pero eso no ayuda a verificar la precisión de la misma. Verificar la precisión de los valores de sus datos requiere que use fuentes de terceros.
Esto significa que tendrá que depender de fuentes de datos diferentes a la que está utilizando actualmente. Tendrás que cotejar tus datos para determinar si son precisos o no. Las técnicas de limpieza de datos no tienen muchas soluciones para verificar la precisión de los valores de los datos.
Sin embargo, según el tipo de datos que esté utilizando, es posible que pueda encontrar recursos que puedan ayudarlo en este sentido. No debe confundir exactitud con precisión .
Precisión vs Precisión
Si bien la precisión se basa en establecer si los datos que ingresó fueron correctos o no, la precisión requiere que brinde más detalles sobre lo mismo. Un cliente puede ingresar un nombre en su campo de datos. Pero si no hay apellido, sería difícil ser más preciso.
Otro ejemplo puede ser el de una dirección. Supongamos que le preguntas a una persona dónde vive. Podrían decir que viven en Londres. Eso podría ser cierto. Sin embargo, esa no es una respuesta precisa porque no sabes dónde viven en Londres.
Una respuesta precisa sería darle una dirección postal.
Lo completo
Es casi imposible tener toda la información que necesita. La integridad es el grado en que conoce todos los valores requeridos. La integridad es un poco más difícil de lograr que la precisión o la validez. Eso es porque no puedes asumir un valor. Sólo tienes que introducir hechos conocidos.
Puede intentar completar sus datos rehaciendo las actividades de recopilación de datos (acercarse nuevamente a los clientes, volver a entrevistar a las personas, etc.). Pero eso no significa que pueda completar sus datos a fondo.
Suponga que vuelve a entrevistar a las personas para obtener los datos que necesitaba anteriormente. Ahora, este escenario tiene el problema de recordar. Si les vuelve a hacer las mismas preguntas, lo más probable es que no recuerden lo que respondieron antes. Esto puede conducir a ellos, dándote la respuesta incorrecta.
Podrías preguntarle qué libros estaban leyendo hace cinco meses. Y es posible que no lo recuerden. Del mismo modo, es posible que deba ingresar la información de contacto de cada cliente. Pero algunos de ellos pueden no tener direcciones de correo electrónico. En este caso, tendría que dejar esas columnas vacías.
Si tiene un sistema que requiere que complete todas las columnas, puede intentar ingresar 'faltante' o 'desconocido' allí. Pero ingresar dichos valores no significa que los datos estén completos. Todavía sería referido como incompleto.
Consistencia
Junto a la integridad viene la consistencia. Puede medir la consistencia comparando dos sistemas similares. O bien, puede verificar los valores de datos dentro del mismo conjunto de datos para ver si son consistentes o no. La consistencia puede ser relacional. Por ejemplo, la edad de un cliente puede ser 15 años, que es un valor válido y podría ser preciso, pero también podría ser una persona mayor en el mismo sistema.

En tales casos, deberá verificar los datos, de manera similar a medir la precisión, y ver qué valor es verdadero. ¿El cliente tiene 15 años? ¿O el cliente es un ciudadano mayor? Sólo uno de estos valores podría ser cierto.
Hay varias formas de hacer que sus datos sean consistentes.
Consulta diferentes sistemas:
Puedes echar un vistazo a otro sistema similar para saber si el valor que tienes es real o no. Si dos de sus sistemas se contradicen entre sí, podría ser útil verificar el tercero.
En nuestro ejemplo anterior, suponga que verifica el tercer sistema y encuentra que la edad del cliente es 65. Esto muestra que el segundo sistema, que decía que el cliente es una persona mayor, se mantendría.
Consulta los últimos datos:
Otra forma de mejorar la consistencia de sus datos es verificar el valor más reciente. Puede ser más beneficioso para usted en escenarios específicos. Es posible que tenga dos números de contacto diferentes para un cliente en su registro. El más reciente probablemente sea más confiable porque es posible que el cliente haya cambiado de número.
Verifique la fuente:
La forma más infalible de comprobar la fiabilidad de los datos es simplemente ponerse en contacto con la fuente. En nuestro ejemplo de la edad del cliente, puede optar por contactar al cliente directamente y preguntarle su edad. Sin embargo, no es posible en todos los escenarios y contactar directamente a la fuente puede ser muy complicado. Tal vez el cliente no responde o su información de contacto no está disponible.
Uniformidad
Debe asegurarse de que todos los valores que ha ingresado en su conjunto de datos estén en las mismas unidades. Si está ingresando unidades SI para medidas, no puede usar el sistema imperial en algunos lugares. Por otro lado, si en un lugar ingresó el tiempo en segundos, debe ingresarlo en este formato en todo el conjunto de datos.
Leer: SQL para ciencia de datos
Verificar la uniformidad de sus registros es bastante fácil. Una simple inspección puede revelar si un valor particular está en la unidad requerida o no. Las unidades que utiliza para ingresar sus datos dependen de sus requisitos específicos.
Técnicas de limpieza de datos
Su elección de técnicas de limpieza de datos depende de muchos factores. Primero, ¿con qué tipo de datos estás tratando? ¿Son valores numéricos o cadenas? A menos que tenga muy pocos valores para manejar, no debe esperar limpiar sus datos con una sola técnica también.
Es posible que deba usar varias técnicas para obtener un mejor resultado. Cuantos más tipos de datos tenga que manejar, más técnicas de limpieza tendrá que usar. Estar familiarizado con todos estos métodos lo ayudará a corregir errores y deshacerse de datos inútiles.
1. Eliminar valores irrelevantes
Lo primero y más importante que debe hacer es eliminar los datos inútiles de su sistema. Cualquier dato inútil o irrelevante es el que no necesitas. Puede que no se ajuste al contexto de su problema.
Es posible que solo tenga que medir la edad promedio de su personal de ventas. Entonces su dirección de correo electrónico no sería necesaria. Otro ejemplo es que podría estar comprobando cuántos clientes contactó en un mes. En este caso, no necesitarías los datos de las personas a las que llegaste en un mes anterior.
Sin embargo, antes de eliminar un dato en particular, asegúrese de que sea irrelevante porque es posible que lo necesite para verificar sus valores correlacionados más adelante (para verificar la consistencia). Y si puede obtener una segunda opinión de un experto más experimentado antes de eliminar datos, no dude en hacerlo.
No querrá eliminar algunos valores y arrepentirse de la decisión más adelante. Pero una vez que esté seguro de que los datos son irrelevantes, deshágase de ellos.
2. Deshágase de los valores duplicados
Los duplicados son similares a los valores inútiles: no los necesita. Solo aumentan la cantidad de datos que tienes y te hacen perder el tiempo. Puedes deshacerte de ellos con búsquedas simples. Los valores duplicados pueden estar presentes en su sistema por varias razones.
Tal vez combinó los datos de múltiples fuentes. O quizás la persona que envió los datos repitió un valor por error. Algunos usuarios hicieron clic dos veces en 'ingresar' cuando estaban llenando un formulario en línea. Debe eliminar los duplicados tan pronto como los encuentre.
3. Evite los errores tipográficos (y errores similares)
Los errores tipográficos son el resultado de un error humano y pueden estar presentes en cualquier lugar. Puede corregir errores tipográficos a través de múltiples algoritmos y técnicas. Puede mapear los valores y convertirlos en la ortografía correcta. Los errores tipográficos son esenciales para corregir porque los modelos tratan diferentes valores de manera diferente. Las cadenas dependen mucho de su ortografía y casos.
'George' es diferente de 'george' a pesar de que tienen la misma ortografía. De manera similar, 'Mike' y 'Mice' son diferentes entre sí, aunque tienen la misma cantidad de caracteres. Deberá buscar errores tipográficos como este y corregirlos adecuadamente.
Otro error similar a los errores tipográficos es el del tamaño de las cadenas. Es posible que deba rellenarlos para mantenerlos en el mismo formato. Por ejemplo, su conjunto de datos puede requerir que solo tenga números de 5 dígitos. Entonces, si tiene un valor que solo tiene cuatro dígitos, como '3994', puede agregar un cero al principio para aumentar su número de dígitos.
Su valor seguiría siendo el mismo que '03994', pero mantendrá sus datos uniformes. Un error adicional con cadenas es de espacios en blanco. Asegúrate de eliminarlos de tus hilos para mantenerlos consistentes.
4. Convertir tipos de datos
Los tipos de datos deben ser uniformes en todo su conjunto de datos. Una cadena no puede ser numérica ni un numérico puede ser booleano. Hay varias cosas que debe tener en cuenta cuando se trata de convertir tipos de datos:
- Mantener los valores numéricos como numéricos
- Compruebe si un número es una cadena o no. Si lo ingresó como una cadena, sería incorrecto.
- Si no puede convertir un valor de datos específico, debe ingresar 'valor NA' o algo por el estilo. Asegúrese de agregar también una advertencia para mostrar que este valor en particular es incorrecto.
5. Ocúpese de los valores faltantes
Siempre habría un dato faltante. No puedes evitarlo. Por lo tanto, debe saber cómo manejarlos para mantener sus datos limpios y libres de errores. Una columna en particular en su conjunto de datos puede tener demasiados valores faltantes. En ese caso, sería prudente deshacerse de toda la columna porque no tiene suficientes datos con los que trabajar.
Punto a tener en cuenta: no debe ignorar los valores faltantes.
Ignorar los valores faltantes puede ser un error importante porque contaminará sus datos y no obtendrá resultados precisos. Hay varias formas de lidiar con los valores faltantes.
Imputación de valores faltantes:
Puede imputar valores faltantes, lo que significa, asumir el valor aproximado. Puede usar la regresión lineal o la mediana para calcular el valor faltante. Sin embargo, este método tiene sus implicaciones porque no puede estar seguro de si ese sería el valor real.
Otro método para imputar valores faltantes es copiar los datos de un conjunto de datos similar. Este método se llama 'imputación Hot-deck'. Está agregando valor en su registro actual mientras considera algunas restricciones, como el tipo de datos y el rango.
Resaltar valores faltantes:
La imputación no siempre es la mejor medida para solucionar los valores faltantes. Muchos expertos argumentan que solo conduce a resultados más mixtos, ya que no son "reales". Por lo tanto, puede adoptar otro enfoque e informar al modelo que faltan los datos. Decirle al modelo (o al algoritmo) que el valor específico no está disponible también puede ser un dato.
Si las razones aleatorias no son responsables de los valores faltantes, puede ser beneficioso resaltarlos o marcarlos. Por ejemplo, es posible que sus registros no tengan muchas respuestas a una pregunta específica de su encuesta porque su cliente no quería responderla en primer lugar.
Si el valor faltante es numérico, puede usar 0. Solo asegúrese de ignorar estos valores durante el análisis estadístico. Por otro lado, si el valor faltante es un valor categórico, puede completar 'faltante'.
Resumen
Esperamos que haya disfrutado de nuestro recorrido detallado de las técnicas de limpieza de datos. Sin duda, había mucho que aprender.
Obtenga más información sobre la disputa de datos en nuestro video de seminario web a continuación.
Si tiene alguna pregunta sobre la limpieza de datos, no dude en consultar a nuestros expertos.
Si tiene curiosidad por aprender sobre ciencia de datos, consulte el Programa ejecutivo PG en ciencia de datos de IIIT-B y upGrad, creado para profesionales que trabajan y ofrece más de 10 estudios de casos y proyectos, talleres prácticos, tutoría con expertos de la industria, 1 -on-1 con mentores de la industria, más de 400 horas de aprendizaje y asistencia laboral con las mejores empresas.
¿Por qué la inconsistencia en los datos es un problema?
Cuando el mismo dato aparece en varios lugares, se produce redundancia de datos, mientras que la inconsistencia de datos ocurre cuando los mismos datos aparecen en varias tablas en diferentes formas. Desafortunadamente, la redundancia de datos puede generar inconsistencias en los datos, lo que resulta en datos inexactos y/o inútiles para una empresa. No pueden anticipar adecuadamente las ventas para optimizar los procedimientos de gestión de inventario y distribución; no pueden detectar problemas de fabricación o de la cadena de suministro para minimizar los sobrecostos y los retrasos; y no pueden evaluar el interés del cliente en un nuevo producto para cambiar diseños o campañas de marketing.
¿Con qué frecuencia se deben limpiar sus datos?
La frecuencia con la que debe limpiar sus datos depende completamente de los requisitos de su negocio. Una gran empresa adquirirá una gran cantidad de datos rápidamente, por lo que es posible que se requiera una limpieza de datos cada tres a seis meses. Se sugiere que las empresas más pequeñas con menos datos limpien sus datos al menos una vez al año. Es recomendable planificar una limpieza de datos si alguna vez sospecha que los datos sucios le cuestan dinero o afectan negativamente su productividad, eficiencia o conocimientos.
¿Tableau es adecuado para la limpieza de datos?
Tableau Prep viene con una serie de procedimientos de limpieza que puede usar para limpiar y dar forma a sus datos de inmediato. Limpiar los datos sucios simplifica la integración y el análisis de sus datos, así como que otros comprendan sus datos cuando los comparte.