Tutorial de Python Pandas: Todo lo que los principiantes necesitan saber sobre Python Pandas

Publicado: 2020-03-26

En este artículo, echaremos un vistazo a una de las bibliotecas populares de Python esenciales para los profesionales de datos, Pandas. Llegarías a aprender sobre sus conceptos básicos, así como sus operaciones.

Empecemos.

Tabla de contenido

¿Qué es Pandas?

Python Pandas es popular por muchas razones. Su aplicación principal es la manipulación de datos, su análisis y limpieza. Puede usarlo para varios tipos de datos y conjuntos de datos, incluidos datos sin etiquetar y datos de series temporales ordenadas. En pocas palabras, podemos decir que Pandas es el hogar de sus datos. Puede realizar numerosas operaciones en sus datos con esta herramienta.

Puede convertir el formato de datos de un archivo, fusionar dos conjuntos de datos, hacer cálculos, visualizarlos con la ayuda de Matplotlib, etc. Con tantas funcionalidades, es una opción popular entre los profesionales de datos. Es por eso que aprender sobre él es esencial. Y sin comprender su funcionamiento, no puede usarlo, por lo que en este tutorial de Python Pandas, nos centraremos en lo mismo.

Leer: Bibliotecas de visualización de datos de Python

Papel de los pandas en la ciencia de datos

La biblioteca de Pandas es una parte integral del arsenal de cualquier profesional de datos. Se basa en NumPy, que es otra biblioteca popular de Python. Gran parte de la estructura de NumPy está presente en Pandas, por lo que si está familiarizado con el primero, no tendrá ninguna dificultad para familiarizarse con el segundo.

La mayoría de las veces, los expertos usan Pandas para alimentar datos en SciPy para el análisis estadístico. También usan estos datos con Matplotlib o Scikit-learn para sus funciones (funciones de trazado y aprendizaje automático, respectivamente).

Obtenga más información sobre las bibliotecas de aprendizaje automático de Python.

requisitos previos

Antes de comenzar a discutir el funcionamiento de Python Pandas y sus operaciones, primero debemos dejar en claro quién puede usarlo correctamente y quién no. Primero debe familiarizarse con el código subyacente de Python y NumPy.

El primero, es decir, los fundamentos de Python, es vital por razones obvias. No entenderías mucho sin saber cómo funciona el código de Python. E incluso si lo hace, no podrá probar el código, ya que primero deberá aprender el código subyacente.

El segundo, NumPy, es esencial para aprender porque Pandas se basa en él. Tener una comprensión de NumPy lo ayudará considerablemente a familiarizarse con Pandas.

Puede aprender sobre Python a través de nuestros blogs sobre ciencia de datos y Python . Tenemos muchas guías y artículos útiles que pueden ayudarlo a familiarizarse con los conceptos básicos. Es gratis, y si tienes dudas, puedes escribirlas en la sección de comentarios.

Si está familiarizado con los dos temas que mencionamos, echemos un vistazo a Pandas en profundidad:

Instalando pandas

Para usar Pandas, tendrás que instalarlo. Lo mejor es que la instalación e importación de Pandas es muy fácil. Simplemente abra la línea de comando (si usa una Mac, tendrá que abrir la terminal) e instale Pandas usando estos códigos:

Para usuarios de PC: pip install pandas

Para usuarios de Mac: conda install pandas

En Pandas, estarás lidiando con series y marcos de datos. Mientras que una serie se refiere a una columna, un marco de datos se refiere a una tabla multidimensional que tiene múltiples series. Ahora echemos un vistazo a las operaciones que puede realizar en Pandas.

Operaciones en Pandas

Ahora que hemos discutido su importancia y definición, ahora deberíamos considerar las acciones que puede realizar en este tutorial de Python Pandas. Pandas le brinda muchas funciones, y las discutimos a continuación:

visualización de datos

Querrá imprimir algunas de las filas de su conjunto de datos al principio para mantenerlas como referencia visual. Y puedes hacerlo con la función .head().

archivo1.cabeza()

Esta función le proporciona las primeras cinco filas del marco de datos. Si desea obtener más filas que las primeras cinco, simplemente puede pasar el número requerido en la función. Suponga que desea las primeras 15 filas del marco de datos, escribirá el siguiente código:

archivo1.cabeza(15)

También tiene la opción de ver las últimas cinco filas del marco de datos. Puede hacerlo usando la función .tail(). Y al igual que la función .head(), la función .tail() también puede aceptar un número y brindarle la cantidad requerida de filas.

archivo1.cola(20)

Este código le daría las últimas 20 filas de su marco de datos.

Consiguiendo información

Una de las primeras funciones que usan los científicos de datos con Pandas es .info(). Esto se debe a que muestra información sobre el marco de datos y le brinda una comprensión más profunda de con qué está trabajando. Así es como lo usas en Pandas:

archivo1.info()

Le proporciona mucha información útil sobre el conjunto de datos, como la cantidad de valores no nulos, la cantidad de filas, el tipo de datos presentes en una columna, etc.

Conocer el tipo de datos de los valores de su marco de datos es esencial en muchos casos. Suponga que necesita realizar operaciones aritméticas en los datos pero tiene cadenas. Cuando ejecutaría sus operaciones matemáticas, vería aparecer un error porque no puede realizar tales operaciones en cadenas. Si, por otro lado, usaría la función .info() antes de realizar cualquier operación, ya sabría que tiene cadenas.

Mientras que la función .info() le muestra la información general sobre su conjunto de datos, el atributo .shape le brinda una tupla de su marco de datos. Puede averiguar cuántas filas y columnas tiene su conjunto de datos con la ayuda del atributo .shape. Y puedes usarlo de la siguiente manera:

archivo1.forma

Este atributo no tiene paréntesis porque solo te da una tupla de filas y columnas. Utilizará el atributo .shape con bastante frecuencia mientras limpia sus datos.

Lea también: Salario de desarrollador de Python en India

Concatenación

Analicemos ahora el atributo de concatenación en este tutorial de Python Pandas. La concatenación se refiere a unir dos o más cosas. Entonces, con este atributo, puede combinar dos conjuntos de datos sin modificar sus valores o puntos de datos de ninguna manera. Se combinan como están. Tendrá que usar la función .concat() para este propósito. Así es cómo:

resultado = pd.concat([archivo1,archivo2])

Combinará los marcos de datos del archivo 1 y el archivo 2 y los mostrará como un solo marco de datos.

df1 = pd.DataFrame({“HPI”:[80,90,70,60],”Int_Rate”:[2,1,2,3], “IND_GDP”:[50,45,45,67]}, índice=[2001, 2002,2003,2004])

df2 = pd.DataFrame({“HPI”:[80,90,70,60],”Int_Rate”:[2,1,2,3],”IND_GDP”:[50,45,45,67]}, índice=[2005, 2006,2007,2008])

concat= pd.concat([df1,df2])

imprimir (concat)

La salida del código anterior:

HPI IND_GDP Int_Rate

2001 80 50 2

2002 90 45 1

2003 70 45 2

2004 60 67 3

2005 80 50 2

2006 90 45 1

2007 70 45 2

2008 60 67 3

Debes haber notado cómo la función .concat() combinó los dos marcos de datos y los convirtió en uno.

Cambiar el índice

También puede cambiar los valores de índice en su marco de datos. Para ese propósito, necesitará usar la función .set_index(). En los paréntesis de esta función, debe ingresar los detalles para cambiar el índice. Fíjate en el siguiente ejemplo para entenderlo mejor.

importar pandas como pd

df= pd.DataFrame({“Día”:[1,2,3,4], “Visitantes”:[200, 100,230,300], “Bounce_Rate”:[20,45,60,10]})

df.set_index(“Día”, en lugar= Verdadero)

imprimir (df)

La salida del código anterior:

Tasa de rebote de visitantes

Día

1 20 200

2 45 100

3 60 230

4 10 300

Puede ver que nuestro código cambió el valor del índice de los datos según los días.

Cambiar los encabezados de columna

También puede cambiar los encabezados de las columnas en Python Pandas. Todo lo que tienes que hacer es usar la función .rename(). Puede ingresar los nombres de columna que estaban presentes inicialmente entre paréntesis y los nombres de columna que desea que aparezcan en el código de salida.

Suponga que tiene una tabla con el encabezado de columna 'Tiempo' y desea cambiarlo a 'Horas'. Puede cambiar el nombre de esta columna con el siguiente código:

df = df.rename(columnas={“Tiempo”: “Horas”})

Este código cambiará el nombre del encabezado de la columna de 'Tiempo' a 'Horas'. Esta es una función excelente para prácticas eficientes. Echemos un vistazo a cómo puede convertir los formatos de sus datos.

Transporte de datos

Con la transferencia de datos, tiene la opción de convertir el formato de datos específicos. Puede convertir un archivo .csv en un archivo .html o viceversa. Aquí tienes un ejemplo de cómo puedes hacerlo:

importar pandas como pd

país= pd.read_csv(“D:UsersUser1Downloadsworld-bank-youth-unemploymentAPI_ILO_country_YU.csv”,index_col=0)

país.a_html('archivo1.html')

Una vez que haya ejecutado este código, creará un archivo HTML para usted, que puede ejecutar en su navegador. La recopilación de datos es una función excelente y encontrará su uso en muchas situaciones.

Conclusión

Y ahora, hemos llegado al final de este tutorial de Python Pandas. Esperamos que lo haya encontrado útil e informativo. Python Pandas es un tema amplio, y con las numerosas funciones que tiene, tomaría algún tiempo familiarizarse con él por completo.

Si está interesado en obtener más información sobre Python, sus diversas bibliotecas, incluidos Pandas, y su aplicación en la ciencia de datos, consulte el Diploma PG en ciencia de datos de IIIT-B y upGrad, creado para profesionales que trabajan y ofrece más de 10 estudios de casos y proyectos, talleres prácticos, tutoría con expertos de la industria, 1 a 1 con mentores de la industria, más de 400 horas de aprendizaje y asistencia laboral con las mejores empresas.

¿Necesito saber Python para usar Pandas?

Antes de comenzar con Pandas, debe comprender que es un paquete creado para Python. Por lo tanto, definitivamente necesita tener un control firme de los conceptos básicos, así como de la sintaxis de la programación de Python, para comenzar a usar Pandas con facilidad. Siempre que se trata de trabajar con datos tabulares en Python, Pandas se considera la mejor opción.

Pero debe aclarar la sintaxis que se usa en Python antes de comenzar con Pandas. No es necesario dedicarle una gran cantidad de tiempo, pero solo necesita dedicar el tiempo suficiente para aclarar la sintaxis básica para que pueda comenzar con tareas que involucran Pandas.

¿Cuánto tiempo lleva aprender Pandas en Python?

Pandas es la biblioteca de Python más utilizada para manejar datos tabulares. Puede usar Pandas para todas las tareas para las que podría usar Excel. Si ya conoce la programación de Python y su sintaxis, puede familiarizarse fácilmente con el funcionamiento de Pandas en dos semanas. Cuando comienza con Pandas, debe comenzar con los proyectos básicos de manipulación de datos para poder controlarlo.

A medida que avance, notará que Pandas es una herramienta de ciencia de datos muy útil que puede ser un factor clave para impulsar las decisiones comerciales en varias industrias.

¿Debería preferir aprender Numpy o Pandas primero?

Se prefiere aprender Numpy antes que Pandas porque Numpy es el módulo más fundamental en Python para computación científica. También recibirá el soporte de matrices multidimensionales altamente optimizadas que se consideran la estructura de datos más básica de cada algoritmo de aprendizaje automático.

Una vez que haya terminado de aprender Numpy, debe comenzar con Pandas porque Pandas se considera una extensión de Numpy. Esto se debe a que el código subyacente de Pandas utiliza ampliamente la biblioteca Numpy.