Análisis exploratorio de datos y su importancia para su negocio

Publicado: 2018-02-22

La mayoría de las discusiones sobre el análisis de datos se ocupan del aspecto "científico" del mismo. Sin duda, hay mucha ciencia detrás de todo el proceso: los algoritmos, las fórmulas y los cálculos, pero no se le puede quitar el "arte". Estructurar el proceso completo, desde la planificación del análisis hasta dar sentido al resultado final, no es poca cosa y no es menos que una forma de arte. Eso es exactamente lo que se incluye en nuestro tema del día: análisis exploratorio de datos. En este artículo, veremos qué es el análisis exploratorio de datos, cuáles son las herramientas y técnicas comunes para él y cómo ayuda a una organización.

Tabla de contenido

¿Qué es el análisis exploratorio de datos?

El análisis exploratorio de datos es uno de los pasos importantes en el proceso de análisis de datos. Aquí, la atención se centra en dar sentido a los datos disponibles, como formular las preguntas correctas para hacerle a su conjunto de datos, cómo manipular las fuentes de datos para obtener las respuestas requeridas y otros. Esto se hace observando detalladamente las tendencias, los patrones y los valores atípicos utilizando un método visual.
análisis exploratorio de datos
El análisis exploratorio de datos es un paso crucial antes de pasar al aprendizaje automático o al modelado de sus datos. Proporciona el contexto necesario para desarrollar un modelo adecuado e interpretar los resultados correctamente.
Manipulación de datos: ¿Cómo puede detectar mentiras de datos?

A lo largo de los años, el aprendizaje automático ha ido en aumento, y eso ha dado lugar a una serie de potentes algoritmos de aprendizaje automático. Tan poderosos que casi lo tientan a saltarse la fase de Análisis Exploratorio de Datos. Si bien es comprensible por qué querría aprovechar dichos algoritmos y omitir el EDA, no es una muy buena idea simplemente ingresar datos en una caja negra y esperar los resultados. Se ha observado una y otra vez que el análisis exploratorio de datos proporciona mucha información crítica que es muy fácil pasar por alto, información que ayuda al análisis a largo plazo, desde formular preguntas hasta mostrar resultados. Si es un principiante y está interesado en obtener más información sobre la ciencia de datos, consulte nuestra capacitación en ciencia de datos de las mejores universidades.

Si bien los aspectos de EDA han existido desde que tenemos datos para analizar, el análisis exploratorio de datos fue desarrollado oficialmente en la década de 1970 por John Turkey, el mismo científico que acuñó la palabra "Bit" (abreviatura de Dígito binario). EDA a menudo se ve y se describe como una filosofía más que una ciencia porque no existen reglas estrictas para abordarlo. La finalidad del Análisis Exploratorio de Datos es fundamental para abordar tareas específicas como:

    • Detectar datos faltantes y erróneos;

    • Mapear y comprender la estructura subyacente de sus datos;

    • Identificar las variables más importantes en su conjunto de datos;

    • Probar una hipótesis o verificar supuestos relacionados con un modelo específico;

    • Establecer un modelo parsimonioso (uno que pueda explicar sus datos utilizando variables mínimas);

  • Estimación de parámetros y cálculo de márgenes de error.

Herramientas y técnicas utilizadas en el análisis exploratorio de datos

S-Plus y R son los lenguajes de programación estadísticos más importantes utilizados para realizar análisis exploratorios de datos. Estos lenguajes vienen con una gran cantidad de herramientas que lo ayudan a realizar funciones estadísticas específicas como:

Técnicas de clasificación y reducción de dimensiones

análisis exploratorio de datos
La clasificación se usa esencialmente para agrupar diferentes conjuntos de datos en función de un parámetro/variable común. Los datos de los que estamos hablando son multidimensionales y no es fácil realizar una clasificación o agrupación en un conjunto de datos multidimensional. Por lo tanto, para ayudar con eso, se realizan técnicas de reducción de dimensionalidad como PCA y LDA, que reducen la dimensionalidad del conjunto de datos sin perder información valiosa de sus datos.
¿Cómo afecta la paradoja de Simpson a los datos?

Visualización univariante

análisis exploratorio de datos
Las visualizaciones univariadas son esencialmente distribuciones de probabilidad de todos y cada uno de los campos del conjunto de datos sin procesar, con estadísticas de resumen. Las visualizaciones univariadas utilizan tablas de distribución de frecuencia, gráficos de barras, histogramas o gráficos circulares para la representación gráfica.

Visualizaciones bivariadas

análisis exploratorio de datos
Estos permiten que los científicos de datos evalúen la relación entre las variables en su conjunto de datos y lo ayudan a identificar la variable que está viendo. Los gráficos apropiados para el análisis bivariado dependen del tipo de variable en cuestión. Por ejemplo, si está tratando con dos variables continuas, un diagrama de dispersión debería ser el gráfico de su elección. Si una es categórica y la otra es continua, se prefiere un diagrama de caja y cuando ambas variables son categóricas, se elige un diagrama de mosaico.
¡El negocio de la seguridad de datos está en auge!

Visualizaciones multivariantes

análisis exploratorio de datos
Las visualizaciones multivariadas ayudan a comprender las interacciones entre diferentes campos de datos. Implica la observación y el análisis de más de una variable de resultado estadístico en un momento dado.

Agrupamiento de K-medias

análisis exploratorio de datos
El agrupamiento de K-medias se usa básicamente para crear "centros" para cada grupo en función de la media más cercana. Es una técnica iterativa que sigue creando y recreando grupos, hasta que los grupos formados dejan de cambiar con las iteraciones. Se puede usar para encontrar valores atípicos en un conjunto de datos (los puntos que no serán una forma de ningún clúster serán idealmente valores atípicos).

Modelos predictivos

análisis exploratorio de datos
Como sugiere el nombre, el modelado predictivo es un método que utiliza estadísticas para predecir resultados. Aunque la mayoría de las predicciones apuntan a predecir lo que sucederá en el futuro, el modelado predictivo también se puede aplicar a cualquier evento desconocido, independientemente de cuándo sea probable que ocurra. Por ejemplo, esta técnica se puede utilizar para detectar delitos e identificar a los sospechosos incluso después de que se haya producido el delito. La forma más común de realizar el modelado predictivo es mediante la regresión lineal (ver la imagen).
El qué es qué del almacenamiento de datos y la minería de datos

¿Cómo ayuda el análisis exploratorio de datos a su negocio y dónde encaja?

El análisis exploratorio de datos proporciona el máximo valor a cualquier negocio al ayudar a los científicos a comprender si los resultados que han producido se interpretan correctamente y si se aplican a los contextos comerciales requeridos. Además de garantizar resultados técnicamente sólidos, el análisis exploratorio de datos también beneficia a las partes interesadas al confirmar si las preguntas que hacen son correctas o no. La ciencia de datos exploratoria a menudo presenta conocimientos impredecibles, que las partes interesadas o los científicos de datos ni siquiera se interesarían en investigar en general, pero que aún pueden resultar muy informativos sobre el negocio.
Hay una serie de conectores de datos que ayudan a las organizaciones a incorporar el análisis exploratorio de datos directamente en su software de Business Intelligence. También puede configurar esto para permitir que los datos fluyan en sentido contrario, creando y ejecutando modelos estadísticos en (por ejemplo) R que usan datos de BI y se actualizan automáticamente a medida que la nueva información fluye hacia el modelo.
Los posibles casos de uso del análisis de datos exploratorios son muy variados, pero en última instancia, todo se reduce a esto: el análisis de datos exploratorios se trata de conocer y comprender sus datos antes de hacer suposiciones al respecto o tomar cualquier paso en la dirección. de Minería de Datos. Le ayuda a evitar la creación de modelos inexactos o la creación de modelos precisos a partir de datos incorrectos.
Realizar este paso correctamente le dará a cualquier organización la confianza necesaria en sus datos, lo que eventualmente les permitirá comenzar a implementar poderosos algoritmos de aprendizaje automático. Sin embargo, ignorar este paso crucial puede llevarlo a construir su sistema de inteligencia comercial sobre una base muy inestable.
12 formas de conectar el análisis de datos a los resultados comerciales

En conclusión…
El análisis exploratorio de datos es claramente uno de los pasos importantes durante todo el proceso de extracción de conocimiento. Si desea establecer una base sólida para su proceso de análisis general, debe concentrarse con todas sus fuerzas y fuerzas en la fase EDA. Con toda honestidad, se requiere un poco de estadísticas para dar este paso. Si siente que está rezagado en ese frente, no olvide leer nuestro artículo sobre Conceptos básicos de las estadísticas necesarias para la ciencia de datos.

Aprenda cursos de ciencia de datos en línea de las mejores universidades del mundo. Obtenga programas Executive PG, programas de certificados avanzados o programas de maestría para acelerar su carrera.

Si está interesado en aprender Python y quiere ensuciarse las manos con varias herramientas y bibliotecas, consulte el Programa Executive PG en Data Science. Ah, y ¿qué opinas acerca de nuestra posición de considerar el "Análisis exploratorio de datos" como un arte más que una ciencia? ¡Háganos saber en los comentarios a continuación!

¿Por qué un científico de datos debería utilizar el análisis exploratorio de datos para mejorar su negocio?

El objetivo principal del análisis exploratorio de datos es ayudar en el análisis de datos antes de hacer suposiciones. Puede ayudar con la detección de errores obvios, una mejor comprensión de los patrones de datos, la detección de valores atípicos o eventos inesperados y el descubrimiento de correlaciones interesantes entre variables.

Los científicos de datos pueden emplear el análisis exploratorio para asegurarse de que los resultados que producen sean precisos y aceptables para los resultados y objetivos comerciales deseados. EDA también ayuda a las partes interesadas asegurándose de que hagan las preguntas adecuadas. Las desviaciones estándar, las variables categóricas y los intervalos de confianza se pueden responder con EDA. Tras la finalización de EDA y la extracción de información, sus funciones se pueden aplicar a análisis o modelado de datos más avanzados, incluido el aprendizaje automático.

¿Cuáles son los casos de uso más populares para EDA?

No es raro que los científicos de datos usen EDA antes de vincular otros tipos de modelos. A menudo se usa en el análisis de datos para observar conjuntos de datos para identificar valores atípicos, tendencias, patrones y errores. Por ejemplo, EDA se usa comúnmente en el comercio minorista donde las herramientas de BI y los expertos analizan datos para descubrir información sobre tendencias de ventas, categorías principales, etc. EDA también se usa en investigación de atención médica para identificar nuevas tendencias en un mercado o industria, determinando tensiones de gripe que puede ser más prevalente en la nueva temporada de gripe, verificando la homogeneidad de la población de pacientes, etc.

¿Cuáles son los tipos de análisis exploratorio de datos?

Los tipos de análisis exploratorio de datos son

1. No gráfico univariado: el propósito estándar de EDA no gráfico univariado es comprender la distribución/datos de la muestra y hacer observaciones de la población.
2. Gráficos univariados: histogramas, diagramas de tallo y hojas, diagramas de caja, etc.
3. No gráfico multivariante: estas técnicas de EDA utilizan tabulación cruzada o estadísticas para representar la relación entre dos o más variables de datos.
4. Gráficos multivariantes: las representaciones gráficas de las relaciones entre dos o más tipos de datos se utilizan en los datos multivariantes.