Principales bibliotecas de visualización de datos de Python que debe conocer
Publicado: 2020-03-20Python puede hacer muchas cosas con los datos. Y una de sus muchas capacidades es la visualización. Tiene múltiples bibliotecas que puede usar para este propósito. En este artículo, veremos algunas de sus bibliotecas destacadas y los diversos gráficos que puede trazar a través de ellas.
Tabla de contenido
Visualización de datos de Python
Hemos compartido varios ejemplos en este artículo, asegúrese de probarlos usando un conjunto de datos. Empecemos:
Bibliotecas de visualización de datos de Python
Python tiene muchas bibliotecas para crear hermosos gráficos. Todos ellos tienen varias características que mejoran su rendimiento y capacidades. Y están disponibles para todos los niveles de habilidad. Esto significa que puede realizar la visualización de datos en Python, ya sea un programador principiante o avanzado. Las siguientes son algunas bibliotecas destacadas:
- nacido en el mar
- matplotlib
- pandas
Hay muchas otras bibliotecas de Python para la ciencia de datos , pero por el momento nos hemos centrado en las más destacadas. Ahora discutiremos estas diferentes bibliotecas y comprenderemos cómo puede trazar gráficos usándolas y Python. Empecemos.
matplotlib
La biblioteca de Python más popular para trazar gráficos es Matplotlib. No requiere mucha experiencia, y para principiantes, es perfecto. Puede comenzar a aprender la visualización de datos a través de esta biblioteca y dominar una variedad de gráficos y visualizaciones. Te da mucha libertad, pero también tendrías que escribir mucho código.
La gente usa Matplotlib para visualizaciones simples como gráficos de barras e histogramas.
Leer : Marcos de datos en Python
Gráfico de linea
Para crear un gráfico de líneas, debe usar el método 'trazar'. Al hacer un bucle en las columnas, puede crear varias columnas en su gráfico. Use el siguiente código para este propósito:
# obtener columnas para trazar
columnas = iris.columnas.drop(['clase'])
# crear x datos
x_data = rango(0, iris.forma[0])
# crear figura y eje
higo, hacha = plt.subplots()
# graficar cada columna
para columna en columnas:
ax.plot(x_data, iris[columna], etiqueta=columna)
# establecer título y leyenda
ax.set_title('Conjunto de datos de iris')
hacha.leyenda()
Gráfico de dispersión
Puede crear un diagrama de dispersión usando el método de 'dispersión'. Debes crear un eje y una figura a través de 'plt.subplots' para darle a tu gráfico etiquetas y un título.
Usa el siguiente código:
# crear una figura y un eje
higo, hacha = plt.subplots()
# dispersar el sepal_length contra el sepal_width
ax.scatter(iris['sepal_length'], iris['sepal_width'])
# establecer un título y etiquetas
ax.set_title('Conjunto de datos de iris')
ax.set_xlabel('longitud_sépalo')
ax.set_ylabel('sepal_width')
Puede agregar color a los puntos de datos según sus clases. Para este propósito, deberá crear un diccionario que mapee de clase a color. También dispersaría cada punto usando un bucle for.
# crear diccionario de colores
colores = {'Iris-setosa':'r', 'Iris-versicolor':'g', 'Iris-virginica':'b'}
# crear una figura y un eje
higo, hacha = plt.subplots()
# trazar cada punto de datos
for i in range(len(iris['sepal_length'])):
ax.scatter(iris['sepal_length'][i], iris['sepal_width'][i],color=colors[iris['class'][i]])
# establecer un título y etiquetas
ax.set_title('Conjunto de datos de iris')
ax.set_xlabel('longitud_sépalo')
ax.set_ylabel('sepal_width')
Histograma
Puede usar el método 'hist' para crear un histograma en Matplotlib. Puede calcular con qué frecuencia ocurre cada clase si le damos datos categóricos. Aquí está el código que necesitaría usar para trazar un histograma en Matplotlib:
# crear figura y eje
higo, hacha = plt.subplots()
# trazar histograma
ax.hist(wine_reviews['puntos'])
# establecer título y etiquetas
ax.set_title('Puntuaciones de reseñas de vinos')
ax.set_xlabel('Puntos')
ax.set_ylabel('Frecuencia')
Gráfico de barras
Matplotlib tiene métodos sencillos para trazar diferentes gráficos. Por ejemplo, en este caso, para crear un gráfico de barras en Matplotlib, deberá usar 'barra'. No puede calcular la frecuencia de las categorías automáticamente, por lo que deberá usar la función 'value_counts' para resolver este problema. Si sus datos no tienen muchos tipos, entonces el gráfico de barras sería perfecto para su visualización.
# crear una figura y un eje
higo, hacha = plt.subplots()
# cuenta la ocurrencia de cada clase
data = wine_reviews['puntos'].value_counts()
# obtener datos x e y
puntos = datos.índice
frecuencia = datos.valores
# crear gráfico de barras
ax.bar(puntos, frecuencia)
# establecer título y etiquetas
ax.set_title('Puntuaciones de reseñas de vinos')
ax.set_xlabel('Puntos')
ax.set_ylabel('Frecuencia')
pandas
Pandas es una biblioteca de Python que es popular para el análisis y la manipulación de datos. Es una biblioteca de código abierto para que pueda usarla de forma gratuita. Ingresó al mercado en 2008 y, desde entonces, se ha convertido en una de las bibliotecas más populares para la estructuración de datos.
Al usar el marco de datos de pandas, puede crear fácilmente gráficos para sus datos. Su API es más avanzada que Matplotlib. Esto significa que puede crear gráficos con menos código en Pandas que en Matplotlib.
Gráfico de barras
En Pandas, deberá usar el método 'plot.bar()' para trazar un gráfico de barras. Primero, deberá contar las ocurrencias en su gráfico a través de 'value_count()' y luego ordenarlas con 'sort_index()'. Aquí hay un código de ejemplo para crear un gráfico de barras:

random_reviews['puntos'].value_counts().sort_index().plot.bar()
Puede usar el método 'plot.barh()' para crear un gráfico de barras horizontales en Pandas:
random_reviews['puntos'].value_counts().sort_index().plot.barh()
También puede trazar los datos a través del número de ocurrencias:
random_reviews.groupby(“país”).price.mean().sort_values(ascending=False)[:5].plot.bar()
Gráfico de linea
Deberá usar '<dataframe>.plot.line()' para crear un gráfico de líneas en Pandas. En Pandas, no necesitaría recorrer cada columna que necesita trazar, ya que puede hacerlo automáticamente. Esta función no está disponible en Matplotlib. Aquí está el código:
random.drop(['clase'], eje=1).plot.line(title='Conjunto de datos aleatorio')
Gráfico de dispersión
Puede crear un diagrama de dispersión en Pandas usando "<conjunto de datos>.plot.scatter()". Necesitaría pasarle dos argumentos, que son los nombres de la columna x y la columna y.
Aquí está su ejemplo:
random.plot.scatter(x='sepal_length', y='sepal_width', title=”Conjunto de datos aleatorios')
Histograma
Use 'plot.hist' para crear un histograma en Pandas. Aparte de eso, no hay mucho en este método. Tiene la opción de crear un solo histograma o varios histogramas.
Para crear un Histograma, use el siguiente código:
random_reviews['puntos'].plot.hist()
Para crear múltiples histogramas, use esto:
random.plot.hist(subplots=True, layout=(2,2), figsize=(10, 10), bins=20)
nacido en el mar
Seaborn se basa en Matplotlib y también es una biblioteca de Python bastante popular para la visualización de datos. Le brinda interfaces avanzadas para trazar sus datos. Tiene muchas características. Sus capacidades avanzadas le permiten crear excelentes gráficos con muchas menos líneas de código de las que necesitaría con Matplotlib.
Histograma
Gráfico de linea
Puede usar el método 'sns.line plot' para crear un gráfico de líneas en Seaborn. Puede usar el método 'sns.kdeplot' para redondear los bordes de las curvas de las líneas. Mantiene su trama bastante limpia si tiene muchos valores atípicos.
sns.lineplot(datos=aleatorio.drop(['clase'], eje=1))
Gráfico de dispersión
En Seaborn, puede crear un diagrama de dispersión mediante el método '.scatterplot'. Deberá agregar los nombres de las columnas x e y en este caso, tal como lo hicimos con Pandas. Pero hay una diferencia. No podemos llamar a la función sobre los datos como hicimos en Pandas, así que tendremos que pasarla como un argumento adicional.
sns.scatterplot(x='sepal_length', y='sepal_width', data=iris)
Al usar el argumento 'tono', también puede resaltar puntos específicos. Esta característica no es tan fácil en Matplotlib.
sns.scatterplot(x='sepal_length', y='sepal_width', hue='class', data=iris)
Gráfico de barras
Puede usar el método 'sns.countplot' para crear un gráfico de barras en Seaborn:
sns.countplot(random_reviews['puntos'])
Ahora que hemos discutido las bibliotecas críticas para la visualización de datos en Python, podemos echar un vistazo a otras formas de gráficos. Python y sus bibliotecas le permiten crear varios tipos de figuras para trazar sus datos.
Otros tipos de visualización de datos en Python
Gráfico circular
Los gráficos circulares muestran datos en diferentes secciones de un círculo. Debes haber visto muchos gráficos circulares en la escuela. Los gráficos circulares representan datos en porcentajes. La suma total de todos los segmentos de un gráfico circular debe ser igual al 100%. Aquí está el código de ejemplo:
plt.pie(df['Edad'], etiquetas = {“A”, “B”, “C”,
“D”, “E”, “F”,
“G”, “H”, “I”, “J”},
autopct ='% 1.1f %%', sombra = Verdadero)
plt.mostrar()
plt.pie(df['Ingresos'], etiquetas = {“A”, “B”, “C”,
“D”, “E”, “F”,
“G”, “H”, “I”, “J”},
autopct ='% 1.1f %%', sombra = Verdadero)
plt.mostrar()
plt.pie(df['Ventas'], etiquetas = {“A”, “B”, “C”,
“D”, “E”, “F”,
“G”, “H”, “I”, “J”},
autopct ='% 1.1f %%', sombra = Verdadero)
plt.mostrar()
Diagramas de caja
Los diagramas de caja se basan en el mínimo, el primer cuartil, la mediana, el tercer cuartil y el máximo de los datos estadísticos. El gráfico parece un cuadro (más específicamente, un rectángulo). Por eso tiene el nombre de 'diagrama de caja'. Aquí hay un código de ejemplo para crear un gráfico de diagrama de caja:
# Para cada atributo numérico del marco de datos
df.plot.box()
# diagrama de cuadro de atributo individual
plt.boxplot(df['Ingresos'])
plt.mostrar()
Lea también: Las 10 mejores herramientas de Python que todo desarrollador de Python debe conocer
Conclusión
Esperamos que este artículo le haya resultado útil. Hay muchos tipos de gráficos que puede trazar a través de Python y sus diversas bibliotecas. Si no ha realizado una visualización de datos de Python antes, debe comenzar con Matplotlib. Después de dominarlo, puede pasar a bibliotecas de visualización de datos más complejas y avanzadas, como Pandas y Seaborn.
Si tiene curiosidad por aprender sobre python, ciencia de datos, consulte el Diploma PG en ciencia de datos de IIIT-B y upGrad, creado para profesionales que trabajan y ofrece más de 10 estudios de casos y proyectos, talleres prácticos, tutoría con expertos de la industria, 1 a 1 con mentores de la industria, más de 400 horas de aprendizaje y asistencia laboral con las mejores empresas.
¿Cuáles son las mejores bibliotecas de visualización de datos en Python?
La visualización de datos se considera una parte extremadamente importante del análisis de datos. Esto se debe a que no hay mejor manera que comprender varias tendencias de datos e información en un formato visual. Si presenta los datos de su empresa en un formato escrito, a la gente le puede resultar aburrido. Pero, si presentas lo mismo en un formato visual, la gente definitivamente le prestará más atención.
Para simplificar el proceso de visualización de datos, hay ciertas bibliotecas en Python para ayudarte. No puede decir que ninguno en particular sea el mejor porque eso dependerá completamente de los requisitos. Algunas de las mejores bibliotecas de visualización de datos en Python son matplotlib, plotly, seaborn, GGplot y altair.
¿Cuál es una de las mejores bibliotecas de trazado en Python?
Hay muchos de ellos para facilitarle el trabajo cuando se trata de visualización de datos y bibliotecas de trazado. Se ha visto que, entre todas las bibliotecas disponibles, los usuarios consideran que Matplotlib es la mejor.
Matplotlib ocupa menos espacio y también tiene un mejor tiempo de ejecución. Aparte de eso, también proporciona una API orientada a objetos que permite a los usuarios trazar gráficos en la propia aplicación. Matplotlib también admite muchos tipos de salida, además de ser gratuito y de código abierto.
¿Cuál es la biblioteca de visualización de datos predeterminada para los científicos de datos?
Si le gusta la ciencia de datos, hay muchas posibilidades de que ya haya utilizado la biblioteca Matplotlib. Se ha visto que los principiantes y los profesionales experimentados prefieren usar esta biblioteca para crear visualizaciones de datos complejas.
La razón principal detrás de su gran consideración es la cantidad de flexibilidad que brinda a los usuarios como una biblioteca de trazado 2D. Si tiene experiencia en MATLAB, podrá notar que la interfaz Pyplot de Matplotlib le resulta bastante familiar. Por lo tanto, no necesitará mucho tiempo para comenzar con su primera visualización. El usuario puede controlar toda la visualización en Matplotlib desde el nivel más granular.