Учебное пособие по Python Pandas: все, что нужно знать новичкам о Python Pandas

Опубликовано: 2020-03-26

В этой статье мы рассмотрим одну из популярных библиотек Python, необходимых для специалистов по данным, Pandas. Вы узнаете о его основах, а также о его операциях.

Давайте начнем.

Оглавление

Что такое Панды?

Python Pandas популярен по многим причинам. Его основным применением является манипулирование данными, их анализ, а также очистка. Вы можете использовать его для различных типов данных и наборов данных, включая немаркированные данные и упорядоченные данные временных рядов. Проще говоря, мы можем сказать, что Pandas — это дом ваших данных. С помощью этого инструмента вы можете выполнять многочисленные операции с вашими данными.

Вы можете преобразовать формат данных файла, объединить два набора данных, выполнить расчеты, визуализировать их, воспользовавшись помощью Matplotlib и т. д. Обладая таким большим количеством функций, это популярный выбор среди специалистов по данным. Вот почему изучение этого важно. И без понимания того, как он работает, вы не сможете его использовать, поэтому в этом руководстве по Python Pandas мы сосредоточимся на том же.

Читайте: Библиотеки визуализации данных Python

Роль панд в науке о данных

Библиотека Pandas является неотъемлемой частью арсенала любого специалиста по работе с данными. Он основан на NumPy, еще одной популярной библиотеке Python. Большая часть структуры NumPy присутствует в Pandas, поэтому, если вы знакомы с первым, вам не составит труда познакомиться со вторым.

В большинстве случаев эксперты используют Pandas для подачи данных в SciPy для статистического анализа. Они также используют эти данные с Matplotlib или Scikit-learn для своих функций (графические функции и машинное обучение соответственно).

Узнайте больше о библиотеках машинного обучения Python.

Предпосылки

Прежде чем мы начнем обсуждать работу Python Pandas и его операции, мы должны сначала прояснить, кто может использовать его правильно, а кто нет. Сначала вы должны быть знакомы с базовым кодом Python и NumPy.

Первый из них, т. е. основы Python, жизненно важен по очевидным причинам. Вы мало что поймете, не зная, как работает код Python. И даже если вы это сделаете, вы не сможете попробовать код, поскольку вам все равно нужно сначала изучить базовый код.

Второй, NumPy, необходимо изучить, потому что Pandas основан на нем. Понимание NumPy значительно поможет вам познакомиться с Pandas.

Вы можете узнать о Python из наших блогов, посвященных науке о данных и Python . У нас есть много полезных руководств и статей, которые помогут вам ознакомиться с основами. Это бесплатно, и если у вас есть какие-либо сомнения, вы можете написать их в разделе комментариев.

Если вы знакомы с обеими темами, которые мы упомянули, давайте подробно рассмотрим Pandas:

Установка панд

Чтобы использовать Pandas, вам нужно установить его. Лучше всего то, что установка и импорт Pandas очень просты. Просто откройте командную строку (если вы используете Mac, вам придется открыть терминал) и установите Pandas, используя эти коды:

Для пользователей ПК: pip install pandas

Для пользователей Mac: conda install pandas

В Pandas вы будете иметь дело с сериями и кадрами данных. В то время как ряд относится к столбцу, фрейм данных относится к многомерной таблице с несколькими рядами. Давайте теперь посмотрим на операции, которые вы можете выполнять в Pandas.

Операции в пандах

Теперь, когда мы обсудили его важность и определение, теперь мы должны рассмотреть действия, которые вы можете выполнить в этом руководстве по Python Pandas. Pandas предоставляет вам множество функций, и мы обсудили их ниже:

Просмотр данных

Вы захотите распечатать некоторые строки вашего набора данных в начале, чтобы сохранить их в качестве визуального справочника. И вы можете сделать это с помощью функции .head().

файл1.голова()

Эта функция дает вам первые пять строк фрейма данных. Если вы хотите получить больше строк, чем первые пять, вы можете просто передать нужное число в функцию. Предположим, вам нужны первые 15 строк фрейма данных, вы напишете следующий код:

файл1.head(15)

У вас также есть возможность просмотреть последние пять строк фрейма данных. Вы можете сделать это с помощью функции .tail(). И точно так же, как функция .head(), функция .tail() также может принимать число и давать вам необходимое количество строк.

файл1.хвост(20)

Этот код даст вам последние 20 строк вашего фрейма данных.

Получение информации

Одна из первых функций, которые специалисты по данным используют в Pandas, — это .info(). Это потому, что он отображает информацию о фрейме данных и дает вам более глубокое понимание того, с чем вы работаете. Вот как вы используете его в Pandas:

файл1.информация()

Он предоставляет вам много полезной информации о наборе данных, например, количество ненулевых значений, количество строк, тип данных, представленных в столбце, и т. д.

Во многих случаях важно знать тип данных значений вашего фрейма данных. Предположим, вам нужно выполнить арифметические операции с данными, но они содержат строки. Когда вы запускаете свои математические операции, вы увидите всплывающую ошибку, потому что вы не можете выполнять такие операции со строками. С другой стороны, если бы вы использовали функцию .info() перед выполнением каких-либо операций, вы бы уже знали, что у вас есть строки.

В то время как функция .info() показывает вам общую информацию о вашем наборе данных, атрибут .shape дает вам кортеж вашего фрейма данных. Вы можете узнать, сколько строк и столбцов в вашем наборе данных, с помощью атрибута .shape. И вы можете использовать его следующим образом:

файл1.форма

Этот атрибут не имеет круглых скобок, потому что он дает вам только кортеж строк и столбцов. Вы будете часто использовать атрибут .shape при очистке данных.

Также узнайте: Зарплата разработчиков Python в Индии

Конкатенация

Давайте теперь обсудим атрибут конкатенации в этом руководстве по Python Pandas. Конкатенация означает соединение двух или более объектов вместе. Таким образом, с помощью этого атрибута вы можете комбинировать два набора данных без какого-либо изменения их значений или точек данных. Они объединяются вместе, как есть. Для этой цели вам придется использовать функцию .concat(). Вот как:

результат = pd.concat ([файл1, файл2])

Он объединит кадры данных file1 и file2 и покажет их как один кадр данных.

df1 = pd.DataFrame({"HPI":[80,90,70,60],"Int_Rate":[2,1,2,3], "IND_GDP":[50,45,45,67]}, индекс = [2001, 2002, 2003, 2004])

df2 = pd.DataFrame({"HPI":[80,90,70,60],"Int_Rate":[2,1,2,3],"IND_GDP":[50,45,45,67]}, индекс = [2005, 2006, 2007, 2008])

concat = pd.concat ([df1, df2])

печать (конкат)

Вывод приведенного выше кода:

HPI IND_GDP Int_Rate

2001 80 50 2

2002 90 45 1

2003 70 45 2

2004 60 67 3

2005 80 50 2

2006 90 45 1

2007 70 45 2

2008 60 67 3

Вы, должно быть, заметили, как функция .concat() объединила два фрейма данных и преобразовала их в один.

Изменение индекса

Вы также можете изменить значения индекса в своем фрейме данных. Для этого вам нужно использовать функцию .set_index(). В скобках этой функции вам нужно будет ввести данные для изменения индекса. Взгляните на следующий пример, чтобы понять его лучше.

импортировать панд как pd

df= pd.DataFrame({"День":[1,2,3,4], "Посетители":[200, 100,230,300], "Bounce_Rate":[20,45,60,10]})

df.set_index («День», inplace = Истина)

печать (дф)

Вывод приведенного выше кода:

Bounce_Rate посетителей

День

1 20 200

2 45 100

3 60 230

4 10 300

Вы можете видеть, что наш код изменил значение индекса данных в зависимости от дней.

Изменение заголовков столбцов

Вы также можете изменить заголовки столбцов в Python Pandas. Все, что вам нужно сделать, это использовать функцию .rename(). Вы можете ввести имена столбцов, которые изначально присутствовали в круглых скобках, и имена столбцов, которые вы хотите отобразить в выходном коде.

Предположим, у вас есть таблица с заголовком столбца «Время», и вы хотите изменить его на «Часы». Вы можете изменить имя этого столбца с помощью следующего кода:

df = df.rename(columns={"Время" : "Часы"})

Этот код изменит название заголовка столбца с «Время» на «Часы». Это отличная функция для эффективной практики. Давайте посмотрим, как вы можете конвертировать форматы ваших данных.

Манипулирование данными

При обработке данных у вас есть возможность преобразовать формат определенных данных. Вы можете преобразовать файл .csv в файл .html или наоборот. Вот пример того, как вы можете это сделать:

импортировать панд как pd

country= pd.read_csv("D:UsersUser1Downloadsworld-bank-youth-unemploymentAPI_ILO_country_YU.csv",index_col=0)

страна.to_html('file1.html')

После того, как вы запустите этот код, он создаст для вас файл HTML, который вы сможете запустить в своем браузере. Подгонка данных — отличная функция, и вы найдете ей применение во многих ситуациях.

Заключение

И вот мы подошли к концу этого руководства по Python Pandas. Мы надеемся, что вы нашли его полезным и информативным. Python Pandas — это обширная тема, и с ее многочисленными функциями потребуется некоторое время, чтобы полностью с ней ознакомиться.

Если вы хотите узнать больше о Python, его различных библиотеках, включая Pandas, и его применении в науке о данных, ознакомьтесь с дипломом PG IIIT-B & upGrad по науке о данных, который создан для работающих профессионалов и предлагает более 10 тематических исследований и проекты, практические семинары, наставничество с отраслевыми экспертами, индивидуальные встречи с отраслевыми наставниками, более 400 часов обучения и помощь в трудоустройстве в ведущих фирмах.

Нужно ли мне знать Python для использования Pandas?

Прежде чем начать работу с Pandas, вам нужно понять, что это пакет, созданный для Python. Итак, вам определенно нужно хорошо знать основы, а также синтаксис программирования на Python, чтобы с легкостью начать использовать Pandas. Когда дело доходит до работы с табличными данными в Python, Pandas считается лучшим выбором.

Но вам нужно разобраться с синтаксисом, используемым в Python, прежде чем начинать с Pandas. Нет необходимости тратить на это огромное количество времени, но вам нужно только уделить достаточно времени, чтобы разобраться с основным синтаксисом, чтобы вы могли начать с задач, связанных с Pandas.

Сколько времени нужно, чтобы изучить Pandas в Python?

Pandas — наиболее широко используемая библиотека Python для работы с табличными данными. Вы можете использовать Pandas для всех задач, для которых вы можете использовать Excel. Если вы уже знакомы с программированием на Python и его синтаксисом, то вы легко сможете ознакомиться с функционированием Pandas в течение двух недель. Когда вы начинаете работать с Pandas, вам следует начать с базовых проектов по обработке данных, чтобы получить представление.

По мере вашего продвижения вы заметите, что Pandas — это очень полезный инструмент обработки данных, который может стать ключевым фактором, влияющим на принятие бизнес-решений в нескольких отраслях.

Должен ли я сначала изучить Numpy или Pandas?

Предпочтительнее изучать Numpy перед Pandas, потому что Numpy — это самый фундаментальный модуль Python для научных вычислений. Вы также получите поддержку высокооптимизированных многомерных массивов, которые считаются самой базовой структурой данных каждого алгоритма машинного обучения.

Как только вы закончите изучение Numpy, вы должны начать с Pandas, потому что Pandas считается расширением Numpy. Это связано с тем, что базовый код Pandas широко использует библиотеку Numpy.