Шпаргалка Pandas: лучшие команды, которые вы должны знать [2022]

Опубликовано: 2021-01-06

Анализ данных стал новым жанром обучения, и все благодаря Python. Если вы энтузиаст-аналитик данных, который работает на Python и почти полностью использует библиотеку Pandas, то эта статья для вас. В этой шпаргалке Pandas будут рассмотрены все основные методы, которые пригодятся при анализе данных. Возможно, вы сталкивались с ситуациями, когда трудно вспомнить конкретный синтаксис для выполнения каких-либо действий в Pandas. Эти команды шпаргалки Pandas помогут вам легко запомнить и сослаться на наиболее распространенные операции Pandas. Если вы новичок в python и науке о данных, курсы upGrad по науке о данных определенно помогут вам глубже погрузиться в мир данных и аналитики.

Оглавление

Использование шпаргалки Pandas

Прежде чем использовать эту шпаргалку Pandas , вы должны тщательно изучить Pandas Tutorial, а затем обратиться к этой шпаргалке для запоминания и очистки. Шпаргалка Pandas поможет вам быстро найти методы, которые вы уже изучили, и может пригодиться, даже если вы собираетесь на экзамен или собеседование. Мы собрали и сгруппировали все команды, которые часто используются в Pandas аналитиком данных для легкого обнаружения. В этой шпаргалке Pandas мы будем использовать следующее сокращение для представления различных объектов.

  • df: для представления любого объекта Pandas DataFrame.
  • ser: для представления любого объекта серии Pandas.

Вы должны использовать следующие соответствующие библиотеки для реализации методов, упомянутых ниже в этой статье.

  • импортировать панд как pd
  • импортировать numpy как np

Должен прочитать: вопросы интервью Pandas

1. Импорт данных из разных файлов

  • Чтобы прочитать все данные из CSV-файла: pd.read_csv(file_name)
  • Чтобы прочитать все данные из текстового файла с разделителями (например, TSV): pd.read_table(file_name)
  • Для чтения с листа Excel: pd.read_excel(file_name)
  • Чтобы прочитать данные из базы данных SQL: pd.read_sql(query, connectionObject)
  • Извлечение данных из строки или URL-адреса в формате JSON: pd.read_json(jsonString)
  • Чтобы взять содержимое буфера обмена: pd.read_clipboard()

2. Экспортируйте DataFrames в файлы разных форматов.

  • Чтобы записать DataFrame в файл CSV: df.to_csv(file_name)
  • Чтобы записать DataFrame в файл Excel: df.to_excel(file_name)
  • Чтобы записать DataFrame в таблицу SQL: df.to_sql(tableName, connectionObject)
  • Чтобы записать DataFrame в файл в формате JSON: df.to_json(file_name)

3. Проверьте определенный раздел вашего DataFrame или Series

  • Чтобы получить всю информацию, связанную с индексом, типом данных и памятью: df.info()
  • Чтобы извлечь начальные строки «n» вашего DataFrame: df.head(n)
  • Чтобы извлечь конечные строки «n» вашего DataFrame: df.tail(n)
  • Чтобы извлечь количество строк и столбцов, доступных в вашем DataFrame: df.shape
  • Чтобы обобщить статистику для числовых столбцов: df.describe()
  • Чтобы просмотреть уникальные значения вместе с их количеством: ser.value_counts(dropna=False)

4. Выбор определенного подмножества ваших данных

  • Извлеките первую строку: df.iloc[0,:]
  • Чтобы извлечь первый элемент первого столбца вашего DataFrame: df.iloc[0,0]
  • Чтобы вернуть столбцы с меткой «col» как серию: df[col]
  • Чтобы вернуть столбцы с новым DataFrame: df[[col1,col2]]
  • Для выбора данных по положению: ser.iloc[0]
  • Чтобы выбрать данные по индексу: ser.loc['index_one']

5. Команды очистки данных

  • Чтобы переименовать столбцы в массах: df.rename(columns = lambda x: x + 1)
  • Для выборочного переименования столбцов: df.rename(columns = {'oldName': 'newName'})
  • Чтобы переименовать индекс в массах: df.rename(index = lambda x: x + 1)
  • Чтобы последовательно переименовать столбцы: df.columns = ['x', 'y', 'z']
  • Чтобы проверить, существуют ли нулевые значения, возвращает логический массив соответственно: pd.isnull()
  • Обратная сторона pd.isnull(): pd.notnull()
  • Удаляет все строки, содержащие нулевые значения: df.dropna()
  • Удаляет все столбцы, содержащие нулевые значения: df.dropna(axis=1)
  • Чтобы заменить каждое нулевое значение на «n»: df.fillna(n)
  • Чтобы преобразовать все типы данных серии в число с плавающей запятой: ser.astype(float)
  • Чтобы заменить все пронумерованные 1 на «один» и 3 на «три»: ser.replace([1,2], ['один','два'])

Читайте также: Pandas Dataframe Astype

6. Группировка, сортировка и фильтрация данных

  • Чтобы вернуть объект groupby для значений столбца: df.groupby(colm)
  • Чтобы вернуть объект groupby для нескольких значений столбца: df.groupby([colm1, colm2])
  • Чтобы отсортировать значения в порядке возрастания (по столбцу): df.sort_values(colm1)
  • Чтобы отсортировать значения в порядке убывания (по столбцу): df.sort_values ​​(colm2, по возрастанию = False)
  • Извлечь строки, в которых значение столбца больше 0,6: df[df[colm] > 0,6]

7. Другие

  • Добавьте строки первого кадра данных в конец второго кадра данных: df1.append(df2)
  • Добавьте столбцы первого кадра данных в конец второго кадра данных: pd.concat([df1,df2],axis=1)
  • Чтобы вернуть среднее значение всех столбцов: df.mean()
  • Чтобы вернуть количество ненулевых значений: df.count()

Заключение

Эти шпаргалки Pandas будут полезны только для быстрого вспоминания. Всегда полезно попрактиковаться в командах, прежде чем сразу переходить к шпаргалке Pandas .

Если вам интересно узнать о Pandas, ознакомьтесь с программой Executive PG IIIT-B и upGrad по науке о данных, которая создана для работающих профессионалов и предлагает более 10 тематических исследований и проектов, практические семинары, наставничество с отраслевыми экспертами, 1- on-1 с отраслевыми наставниками, более 400 часов обучения и помощи в трудоустройстве в ведущих фирмах.

Каковы основные особенности библиотек Pandas?

Ниже перечислены функции, которые делают Pandas одной из самых популярных библиотек Python: Pandas предоставляет нам различные фреймы данных, которые не только обеспечивают эффективное представление данных, но и позволяют нам манипулировать ими. Он обеспечивает эффективные функции выравнивания и индексации, которые обеспечивают интеллектуальные способы маркировки и организации данных. Некоторые функции Pandas делают код чистым и повышают его читабельность, что делает его более эффективным. Он также может читать несколько форматов файлов. JSON, CSV, HDF5 и Excel — это некоторые из форматов файлов, поддерживаемых Pandas. Слияние нескольких наборов данных стало настоящей проблемой для многих программистов. Панды преодолевают и это и очень эффективно объединяют несколько наборов данных. Библиотека Pandas также предоставляет доступ к другим важным библиотекам Python, таким как Matplotlib и NumPy, что делает ее высокоэффективной библиотекой.

Какие другие библиотеки и инструменты дополняют библиотеку Pandas?

Pandas работает не только как центральная библиотека для создания фреймов данных, но и работает с другими библиотеками и инструментами Python для большей эффективности. Pandas построен на основе пакета NumPy Python, что указывает на то, что большая часть структуры библиотеки Pandas реплицирована из пакета NumPy. Статистический анализ данных в библиотеке Pandas выполняется SciPy, функции построения графиков — в Matplotlib, а алгоритмы машинного обучения — в Scikit-learn. Jupyter Notebook — это интерактивная веб-среда, которая работает как IDE и предлагает хорошую среду для Pandas.

Укажите основные операции фрейма данных

Важно выбрать индекс или столбец перед началом любой операции, такой как добавление или удаление. Как только вы научитесь получать доступ к значениям и выбирать столбцы из фрейма данных, вы сможете научиться добавлять индекс, строку или столбец в фрейм данных Pandas. Если индекс во фрейме данных не соответствует вашим ожиданиям, вы можете сбросить его. Для сброса индекса вы можете использовать функцию «reset_index()».