Visualización de diagramas de caja con pandas [Guía completa]

Publicado: 2020-09-03

Al tratar con cualquier proyecto de análisis de datos estadísticos, hay muchas herramientas útiles que puede aplicar. La idea básica es identificar la pregunta y usar la función necesaria para responderla. Por ejemplo, si es necesario ver la distribución de datos, la respuesta ideal es trazar una función de distribución de datos.

Si es necesario ver los valores y compararlos con el valor de las otras columnas, la mejor manera es trazar un gráfico de barras o un histograma. Pero, ¿qué sucede si es necesario satisfacer una consulta estadística? La tendencia se puede observar en una función de distribución, pero no hay una salida fácil si necesitamos verificar un percentil específico de datos. Consulte nuestra capacitación en ciencia de datos de universidades reconocidas para obtener ventaja sobre la competencia.

Boxplot viene como una solución al problema anterior. Los diagramas de caja se utilizan para describir los valores percentiles del atributo, según la columna en la que se representa. Boxplot puede ser muy útil en la ingeniería de modelos basada en reglas, así como en el análisis de datos exploratorios en general.

Boxplot trata con cuartiles.

Primero tracemos un diagrama de caja de pandas y luego comprendamos sus partes.

Tabla de contenido

Trazar un diagrama de caja de pandas

Para implementar un diagrama de caja de pandas, solo hay dos requisitos, Pandas y matplotlib. El uso de matplotlib es visualizar las parcelas y ver las parcelas dentro del cuaderno Jupyter.

Así es como importamos ambas bibliotecas. Usamos la función mágica en línea para que los gráficos se puedan ver directamente dentro del cuaderno.

Código:

importar pandas como pd

importar matplotlib.pyplot como plt

% matplotlib en línea

Ahora, importamos nuestros datos y los leemos en un DataFrame. Aquí está cómo hacerlo.

Código:

data = pd.read_csv(“FIFA 2018 Estadísticas.csv”)

DataFrame es la estructura de datos fundamental de Pandas. Aquí están las primeras cinco muestras de nuestros datos.

Después de importar los datos, podemos usar directamente la función de diagrama de caja de pandas sobre el objeto DataFrame. Aquí está cómo usarlo:

Código:

data.boxplot(by=”Round”, column=['Gol anotado'])

La función de diagrama de caja de pandas toma dos argumentos. El parámetro 'by' se utiliza para seleccionar el eje X. Y la 'columna' son los datos para trazar en el eje Y.

Aquí estamos trazando los goles marcados por ronda.

Aquí está la trama:

Pago: preguntas de la entrevista de Python

Leer los diagramas de caja

Ahora vamos a leer las tramas. Primero, comprenda los valores del eje. El eje Y tiene el número de goles marcados en el partido, y el eje X muestra las rondas en las que se jugó el partido. Tomemos el ejemplo de la ronda final.

Si observamos detenidamente, la caja se hace en algún lugar entre dos y cuatro, con la línea media en tres. El cuadro se traza utilizando tres valores: los valores de los percentiles 25, 50 y 75. La línea inferior del gráfico indica el percentil 25 de los goles marcados en el partido, la línea central indica el percentil 50 y la línea superior indica el percentil 75. Por lo tanto, boxplot funciona con el rango intercuartílico (IQR) de datos.

Leer: Tutorial de Python Pandas: todo lo que los principiantes necesitan saber sobre Python Pandas

Ahora, hay una cosa más dibujada encima y debajo del cuadro. Estas líneas se conocen como bigotes. Por lo tanto, a veces el diagrama de caja también se conoce como diagrama de caja y bigotes.

No existe una forma única de trazar los bigotes. La forma más común de indicar los bigotes es marcarlos en los valores mínimo y máximo en la columna de datos. Algunas bibliotecas como seaborn usan un valor multiplicativo del IQR para marcar los bigotes. El diagrama de caja de Pandas usa los valores máximo y mínimo para marcar los bigotes.

Si te fijas, hay algunos puntos entre el cuatro y el seis. Estos se conocen como valores atípicos. Los diagramas de caja son razonablemente útiles en los sistemas basados en reglas como cálculo de errores, o pueden identificar rápidamente las clasificaciones erróneas. Por ejemplo, en el gráfico, si solo necesita distinguir entre las rondas del tercer lugar y las rondas finales, puede crear fácilmente un sistema basado en reglas, que clasificará con precisión sus datos. Si entre cero y dos, marque la 3ra ronda, y si entre dos y cuatro, marque la ronda final.

Los diagramas de caja ayudan a comprender la distribución general de las columnas de datos. Las gráficas muestran las distribuciones usando los valores del cuartil. Le facilita el análisis rápido de los datos, ya que la distribución se ha marcado adecuadamente. Los bigotes denotan los valores restantes en la columna.

Conclusión

El extremo inferior indica los datos inferiores al 25 %, mientras que el extremo superior indica los superiores al 75 %. Si los valores atípicos son menores, los diagramas de caja de pandas pueden ayudar a identificarlos rápidamente. En general, si puede leerlos correctamente, los diagramas de caja son increíblemente útiles en el análisis de datos.

Si tiene curiosidad por aprender sobre ciencia de datos, consulte el Programa ejecutivo PG en ciencia de datos de IIIT-B y upGrad, creado para profesionales que trabajan y ofrece más de 10 estudios de casos y proyectos, talleres prácticos, tutoría con expertos de la industria, 1 -on-1 con mentores de la industria, más de 400 horas de aprendizaje y asistencia laboral con las mejores empresas.

¿Qué tipo de datos representa un diagrama de caja?

La visualización de diagramas de caja es muy utilizada en estadísticas descriptivas. Es un tipo de gráfico que se utiliza a menudo para el análisis exploratorio de datos. Al mostrar los cuartiles (porcentajes) y los promedios, los diagramas de caja pueden representar visualmente la distribución de datos numéricos junto con su asimetría.

El resumen de un conjunto de datos se muestra con la ayuda de diagramas de caja en formato visual en cinco categorías diferentes. Los datos proporcionados por el diagrama de caja son:

1. Puntuación mínima
2. Primero o podemos decir el cuartil inferior
3. Mediana del diagrama de caja Tercero o podemos decir el cuartil superior
4. Puntuación máxima

Los datos aquí se dividen en diferentes secciones para facilitar la representación de los datos y la comprensión visual de los datos con bastante facilidad.

¿Por qué se ha encontrado que los diagramas de caja son útiles?

El trabajo de los diagramas de caja es dividir un conjunto de datos en diferentes secciones, donde cada sección contiene aproximadamente el 25% de los datos. Se considera que los diagramas de caja son realmente útiles porque proporcionan un resumen visual de los datos presentes. Esto permite a los investigadores identificar fácilmente los valores medios, encontrar los signos de asimetría y conocer la dispersión de los conjuntos de datos.

El diagrama de caja puede proporcionarle una imagen visual para ver si el conjunto de datos estadísticos está sesgado o distribuido normalmente. Si tiene una distribución normal, la mediana estará en el medio de la caja y la caja será simétrica. Por otro lado, la caja será asimétrica y la mediana estará hacia la parte inferior o superior de la caja cuando la distribución sea sesgada.

¿Podemos utilizar Pandas para visualización de datos?

Se sabe que Pandas es la biblioteca más útil en lenguaje Python cuando se trata de ciencia de datos. Se ha descubierto que Pandas es realmente útil para manipular, importar y también limpiar los conjuntos de datos. Aparte de eso, Pandas también se utiliza ampliamente para la visualización de datos.

En la visualización de datos, Pandas se usa para trazar diferentes gráficos básicos. Las funcionalidades de esta biblioteca también se encuentran en la visualización de datos de series temporales. En palabras simples, se puede decir que si desea trazar una barra simple, contar gráficos o líneas, debe utilizar Pandas en la visualización de datos.