Hoja de trucos de Pandas: Comandos principales que debe conocer [2022]

Publicado: 2021-01-06

El análisis de datos se ha convertido en un nuevo género de estudio, y todo gracias a Python. Si usted es un analista de datos entusiasta que trabaja en Python y usa casi absolutamente la biblioteca de Pandas, entonces este artículo es para usted. Esta hoja de trucos de Pandas repasará todos los métodos esenciales que son útiles al analizar datos. Es posible que haya encontrado situaciones en las que es difícil recordar la sintaxis específica para hacer algo en Pandas. Estos comandos de la hoja de trucos de Pandas lo ayudarán a recordar y hacer referencia fácilmente a las operaciones más comunes de Pandas. Si es un principiante en Python y la ciencia de datos, los cursos de ciencia de datos de upGrad definitivamente pueden ayudarlo a profundizar en el mundo de los datos y el análisis.

Tabla de contenido

Uso de la hoja de trucos de Pandas
- 1. Importar datos de diferentes archivos
- 2. Exportar tramas de datos en diferentes formatos de archivo
- 3. Inspeccione una sección particular de su DataFrame o Serie
- 4. Seleccionar un subconjunto específico de sus datos
- 5. Comandos de limpieza de datos
- 6. Agrupar, ordenar y filtrar datos
- 7. Otros
Conclusión
- ¿Cuáles son las características más destacadas de las bibliotecas de Pandas?
- ¿Cuáles son las otras bibliotecas y herramientas que complementan la biblioteca de Pandas?
- Indicar las operaciones básicas de la trama de datos.

Uso de la hoja de trucos de Pandas

Antes de usar esta hoja de trucos de Pandas , debe aprender a fondo el Tutorial de Pandas y luego consultar esta hoja de trucos para recordar y borrar. La hoja de trucos de Pandas lo ayudará a buscar rápidamente los métodos que ya ha aprendido, y puede ser útil incluso si se presenta a un examen o una entrevista. Hemos recopilado y agrupado todos los comandos utilizados con frecuencia en Pandas por un analista de datos para una fácil detección. En esta hoja de trucos de Pandas , usaremos la siguiente abreviatura para representar diferentes objetos.

df: para representar cualquier objeto Pandas DataFrame
ser: Para representar cualquier objeto de la Serie Pandas

Debe usar las siguientes bibliotecas relevantes para implementar los métodos mencionados a continuación en este artículo.

importar pandas como pd
importar numpy como np

Debe leer: preguntas de la entrevista de pandas

1. Importar datos de diferentes archivos

Para leer todos los datos de un archivo CSV: pd.read_csv(file_name)
Para leer todos los datos de un archivo de texto delimitado (como TSV): pd.read_table(file_name)
Para leer de una hoja de Excel: pd.read_excel(file_name)
Para leer datos de una base de datos SQL: pd.read_sql(query, connectionObject)
Obtener los datos de una cadena o URL con formato JSON: pd.read_json(jsonString)
Para tomar el contenido de su portapapeles: pd.read_clipboard()

2. Exportar tramas de datos en diferentes formatos de archivo

Para escribir un DataFrame en un archivo CSV: df.to_csv(file_name)
Para escribir un DataFrame en un archivo de Excel: df.to_excel(file_name)
Para escribir un DataFrame en una tabla SQL: df.to_sql(tableName, connectionObject)
Para escribir un DataFrame en un archivo en formato JSON: df.to_json(file_name)

3. Inspeccione una sección particular de su DataFrame o Serie

Para obtener toda la información relacionada con el índice, el tipo de datos y la memoria: df.info()
Para extraer las filas iniciales 'n' de su DataFrame: df.head(n)
Para extraer las filas 'n' finales de su DataFrame: df.tail(n)
Para extraer el número de filas y columnas disponibles en su DataFrame: df.shape
Para resumir las estadísticas de las columnas numéricas: df.describe()
Para ver valores únicos junto con sus recuentos: ser.value_counts(dropna=False)

4. Seleccionar un subconjunto específico de sus datos

Extrae la primera fila: df.iloc[0,:]
Para extraer el primer elemento de la primera columna de su DataFrame: df.iloc[0,0]
Para devolver columnas con la etiqueta 'col' como Serie: df[col]
Para devolver columnas que tienen un nuevo DataFrame: df[[col1,col2]]
Para seleccionar datos por posición: ser.iloc[0]
Para seleccionar datos por índice: ser.loc['index_one']

5. Comandos de limpieza de datos

Para renombrar columnas en masas: df.rename(columns = lambda x: x + 1)
Para cambiar el nombre de las columnas de forma selectiva: df.rename(columns = {'oldName': 'newName'})
Para renombrar el índice en masas: df.rename(index = lambda x: x + 1)
Para cambiar el nombre de las columnas en secuencia: df.columns = ['x', 'y', 'z']
Para verificar si existen valores nulos, devuelve una matriz booleana en consecuencia: pd.isnull()
El reverso de pd.isnull(): pd.notnull()
Suelta todas las filas que contienen valores nulos: df.dropna()
Suelta todas las columnas que contienen valores nulos: df.dropna(axis=1)
Para reemplazar cada valor nulo con 'n': df.fillna(n)
Para convertir todos los tipos de datos de la serie en flotante: ser.astype(float)
Para reemplazar todos los números 1 con 'uno' y 3 con 'tres': ser.replace([1,2], ['uno', 'dos'])

Lea también: Pandas Dataframe Astype

6. Agrupar, ordenar y filtrar datos

Para devolver un objeto groupby para valores de columna: df.groupby(colm)
Para devolver un objeto groupby para varios valores de columna: df.groupby([colm1, colm2])
Para ordenar valores en orden ascendente (por columna): df.sort_values(colm1)
Para ordenar los valores en orden descendente (por columna): df.sort_values(colm2, ascendente=Falso)
Extraiga filas donde el valor de la columna sea mayor que 0.6: df[df[colm] > 0.6]

7. Otros

Agregue las filas del primer DataFrame al final del segundo DataFrame: df1.append(df2)
Agregue las columnas del primer DataFrame al final del segundo DataFrame: pd.concat([df1,df2],axis=1)
Para devolver la media de todas las columnas: df.mean()
Para devolver el número de valores no nulos: df.count()

Conclusión

Estas hojas de trucos de Pandas serán útiles solo para recordar rápidamente. Siempre es un buen enfoque practicar los comandos antes de saltar directamente a la hoja de trucos de Pandas .

Si tiene curiosidad por aprender sobre Pandas, consulte el Programa PG Ejecutivo en Ciencia de Datos de IIIT-B y upGrad, creado para profesionales que trabajan y ofrece más de 10 estudios de casos y proyectos, talleres prácticos, tutoría con expertos de la industria, 1- on-1 con mentores de la industria, más de 400 horas de aprendizaje y asistencia laboral con las mejores empresas.

¿Cuáles son las características más destacadas de las bibliotecas de Pandas?

Las siguientes son las características que hacen de Pandas una de las bibliotecas de Python más populares: Pandas nos brinda varios marcos de datos que no solo permiten una representación de datos eficiente sino que también nos permiten manipularlos. Proporciona características eficientes de alineación e indexación que brindan formas inteligentes de etiquetar y organizar los datos. Algunas características de Pandas hacen que el código sea limpio y aumentan su legibilidad, haciéndolo así más eficiente. También puede leer múltiples formatos de archivo. JSON, CSV, HDF5 y Excel son algunos de los formatos de archivo compatibles con Pandas. La fusión de múltiples conjuntos de datos ha sido un verdadero desafío para muchos programadores. Los pandas también superan esto y fusionan múltiples conjuntos de datos de manera muy eficiente. La biblioteca de Pandas también brinda acceso a otras bibliotecas de Python importantes como Matplotlib y NumPy, lo que la convierte en una biblioteca altamente eficiente.

¿Cuáles son las otras bibliotecas y herramientas que complementan la biblioteca de Pandas?

Pandas no solo funciona como una biblioteca central para crear marcos de datos, sino que también funciona con otras bibliotecas y herramientas de Python para ser más eficiente. Pandas se basa en el paquete NumPy Python, lo que indica que la mayor parte de la estructura de la biblioteca de Pandas se replica desde el paquete NumPy. El análisis estadístico de los datos en la biblioteca de Pandas es operado por SciPy, las funciones de trazado en Matplotlib y los algoritmos de aprendizaje automático en Scikit-learn. Jupyter Notebook es un entorno interactivo basado en web que funciona como un IDE y ofrece un buen entorno para Pandas.

Indicar las operaciones básicas de la trama de datos.

Es importante seleccionar un índice o una columna antes de iniciar cualquier operación, como agregar o eliminar. Una vez que aprenda cómo acceder a los valores y seleccionar columnas de un marco de datos, puede aprender a agregar índices, filas o columnas en un marco de datos de Pandas. Si el índice en el marco de datos no resulta ser el deseado, puede restablecerlo. Para restablecer el índice, puede utilizar la función "reset_index()".