Шпаргалка Pandas: лучшие команды, которые вы должны знать [2022]
Опубликовано: 2021-01-06Анализ данных стал новым жанром обучения, и все благодаря Python. Если вы энтузиаст-аналитик данных, который работает на Python и почти полностью использует библиотеку Pandas, то эта статья для вас. В этой шпаргалке Pandas будут рассмотрены все основные методы, которые пригодятся при анализе данных. Возможно, вы сталкивались с ситуациями, когда трудно вспомнить конкретный синтаксис для выполнения каких-либо действий в Pandas. Эти команды шпаргалки Pandas помогут вам легко запомнить и сослаться на наиболее распространенные операции Pandas. Если вы новичок в python и науке о данных, курсы upGrad по науке о данных определенно помогут вам глубже погрузиться в мир данных и аналитики.
Оглавление
Использование шпаргалки Pandas
Прежде чем использовать эту шпаргалку Pandas , вы должны тщательно изучить Pandas Tutorial, а затем обратиться к этой шпаргалке для запоминания и очистки. Шпаргалка Pandas поможет вам быстро найти методы, которые вы уже изучили, и может пригодиться, даже если вы собираетесь на экзамен или собеседование. Мы собрали и сгруппировали все команды, которые часто используются в Pandas аналитиком данных для легкого обнаружения. В этой шпаргалке Pandas мы будем использовать следующее сокращение для представления различных объектов.
- df: для представления любого объекта Pandas DataFrame.
- ser: для представления любого объекта серии Pandas.
Вы должны использовать следующие соответствующие библиотеки для реализации методов, упомянутых ниже в этой статье.
- импортировать панд как pd
- импортировать numpy как np
Должен прочитать: вопросы интервью Pandas
1. Импорт данных из разных файлов
- Чтобы прочитать все данные из CSV-файла: pd.read_csv(file_name)
- Чтобы прочитать все данные из текстового файла с разделителями (например, TSV): pd.read_table(file_name)
- Для чтения с листа Excel: pd.read_excel(file_name)
- Чтобы прочитать данные из базы данных SQL: pd.read_sql(query, connectionObject)
- Извлечение данных из строки или URL-адреса в формате JSON: pd.read_json(jsonString)
- Чтобы взять содержимое буфера обмена: pd.read_clipboard()
2. Экспортируйте DataFrames в файлы разных форматов.
- Чтобы записать DataFrame в файл CSV: df.to_csv(file_name)
- Чтобы записать DataFrame в файл Excel: df.to_excel(file_name)
- Чтобы записать DataFrame в таблицу SQL: df.to_sql(tableName, connectionObject)
- Чтобы записать DataFrame в файл в формате JSON: df.to_json(file_name)
3. Проверьте определенный раздел вашего DataFrame или Series
- Чтобы получить всю информацию, связанную с индексом, типом данных и памятью: df.info()
- Чтобы извлечь начальные строки «n» вашего DataFrame: df.head(n)
- Чтобы извлечь конечные строки «n» вашего DataFrame: df.tail(n)
- Чтобы извлечь количество строк и столбцов, доступных в вашем DataFrame: df.shape
- Чтобы обобщить статистику для числовых столбцов: df.describe()
- Чтобы просмотреть уникальные значения вместе с их количеством: ser.value_counts(dropna=False)
4. Выбор определенного подмножества ваших данных
- Извлеките первую строку: df.iloc[0,:]
- Чтобы извлечь первый элемент первого столбца вашего DataFrame: df.iloc[0,0]
- Чтобы вернуть столбцы с меткой «col» как серию: df[col]
- Чтобы вернуть столбцы с новым DataFrame: df[[col1,col2]]
- Для выбора данных по положению: ser.iloc[0]
- Чтобы выбрать данные по индексу: ser.loc['index_one']
5. Команды очистки данных
- Чтобы переименовать столбцы в массах: df.rename(columns = lambda x: x + 1)
- Для выборочного переименования столбцов: df.rename(columns = {'oldName': 'newName'})
- Чтобы переименовать индекс в массах: df.rename(index = lambda x: x + 1)
- Чтобы последовательно переименовать столбцы: df.columns = ['x', 'y', 'z']
- Чтобы проверить, существуют ли нулевые значения, возвращает логический массив соответственно: pd.isnull()
- Обратная сторона pd.isnull(): pd.notnull()
- Удаляет все строки, содержащие нулевые значения: df.dropna()
- Удаляет все столбцы, содержащие нулевые значения: df.dropna(axis=1)
- Чтобы заменить каждое нулевое значение на «n»: df.fillna(n)
- Чтобы преобразовать все типы данных серии в число с плавающей запятой: ser.astype(float)
- Чтобы заменить все пронумерованные 1 на «один» и 3 на «три»: ser.replace([1,2], ['один','два'])
Читайте также: Pandas Dataframe Astype

6. Группировка, сортировка и фильтрация данных
- Чтобы вернуть объект groupby для значений столбца: df.groupby(colm)
- Чтобы вернуть объект groupby для нескольких значений столбца: df.groupby([colm1, colm2])
- Чтобы отсортировать значения в порядке возрастания (по столбцу): df.sort_values(colm1)
- Чтобы отсортировать значения в порядке убывания (по столбцу): df.sort_values (colm2, по возрастанию = False)
- Извлечь строки, в которых значение столбца больше 0,6: df[df[colm] > 0,6]
7. Другие
- Добавьте строки первого кадра данных в конец второго кадра данных: df1.append(df2)
- Добавьте столбцы первого кадра данных в конец второго кадра данных: pd.concat([df1,df2],axis=1)
- Чтобы вернуть среднее значение всех столбцов: df.mean()
- Чтобы вернуть количество ненулевых значений: df.count()
Заключение
Эти шпаргалки Pandas будут полезны только для быстрого вспоминания. Всегда полезно попрактиковаться в командах, прежде чем сразу переходить к шпаргалке Pandas .
Если вам интересно узнать о Pandas, ознакомьтесь с программой Executive PG IIIT-B и upGrad по науке о данных, которая создана для работающих профессионалов и предлагает более 10 тематических исследований и проектов, практические семинары, наставничество с отраслевыми экспертами, 1- on-1 с отраслевыми наставниками, более 400 часов обучения и помощи в трудоустройстве в ведущих фирмах.
Каковы основные особенности библиотек Pandas?
Ниже перечислены функции, которые делают Pandas одной из самых популярных библиотек Python: Pandas предоставляет нам различные фреймы данных, которые не только обеспечивают эффективное представление данных, но и позволяют нам манипулировать ими. Он обеспечивает эффективные функции выравнивания и индексации, которые обеспечивают интеллектуальные способы маркировки и организации данных. Некоторые функции Pandas делают код чистым и повышают его читабельность, что делает его более эффективным. Он также может читать несколько форматов файлов. JSON, CSV, HDF5 и Excel — это некоторые из форматов файлов, поддерживаемых Pandas. Слияние нескольких наборов данных стало настоящей проблемой для многих программистов. Панды преодолевают и это и очень эффективно объединяют несколько наборов данных. Библиотека Pandas также предоставляет доступ к другим важным библиотекам Python, таким как Matplotlib и NumPy, что делает ее высокоэффективной библиотекой.
Какие другие библиотеки и инструменты дополняют библиотеку Pandas?
Pandas работает не только как центральная библиотека для создания фреймов данных, но и работает с другими библиотеками и инструментами Python для большей эффективности. Pandas построен на основе пакета NumPy Python, что указывает на то, что большая часть структуры библиотеки Pandas реплицирована из пакета NumPy. Статистический анализ данных в библиотеке Pandas выполняется SciPy, функции построения графиков — в Matplotlib, а алгоритмы машинного обучения — в Scikit-learn. Jupyter Notebook — это интерактивная веб-среда, которая работает как IDE и предлагает хорошую среду для Pandas.
Укажите основные операции фрейма данных
Важно выбрать индекс или столбец перед началом любой операции, такой как добавление или удаление. Как только вы научитесь получать доступ к значениям и выбирать столбцы из фрейма данных, вы сможете научиться добавлять индекс, строку или столбец в фрейм данных Pandas. Если индекс во фрейме данных не соответствует вашим ожиданиям, вы можете сбросить его. Для сброса индекса вы можете использовать функцию «reset_index()».