Samouczek Python Pandas: Wszystko, co początkujący powinni wiedzieć o Python Pandas

Opublikowany: 2020-03-26

W tym artykule przyjrzymy się jednej z popularnych bibliotek Pythona, niezbędnych dla profesjonalistów zajmujących się danymi, Pandas. Dowiesz się o jego podstawach, a także o jego działaniu.

Zacznijmy.

Spis treści

Co to są Pandy?

Python Pandas jest popularny z wielu powodów. Jego głównym zastosowaniem jest manipulacja danymi, ich analiza oraz czyszczenie. Można go używać do różnych typów danych i zestawów danych, w tym danych nieoznaczonych i uporządkowanych danych szeregów czasowych. Mówiąc prościej, możemy powiedzieć, że Pandy to dom Twoich danych. Za pomocą tego narzędzia możesz wykonywać wiele operacji na swoich danych.

Możesz konwertować format danych z pliku, łączyć dwa zestawy danych, wykonywać obliczenia, wizualizować je, korzystając z pomocy Matplotlib, itp. Przy tak wielu funkcjach jest to popularny wybór wśród profesjonalistów zajmujących się danymi. Dlatego nauka o tym jest niezbędna. Bez zrozumienia jego działania nie można go używać, więc w tym samouczku Python Pandas skupimy się na tym samym.

Przeczytaj: Biblioteki wizualizacji danych w Pythonie

Rola Pand w Data Science

Biblioteka Pandas jest integralną częścią arsenału każdego profesjonalisty ds. danych. Opiera się na NumPy, kolejnej popularnej bibliotece Pythona. Wiele struktur NumPy jest obecnych w Pandach, więc jeśli znasz tę pierwszą, nie będziesz miał trudności z zapoznaniem się z drugą.

Przez większość czasu eksperci używają Pand do wprowadzania danych w SciPy do analizy statystycznej. Używają również tych danych z Matplotlib lub Scikit-learn dla swoich funkcji (odpowiednio funkcji kreślenia i uczenia maszynowego).

Dowiedz się więcej o bibliotekach uczenia maszynowego Pythona.

Warunki wstępne

Zanim zaczniemy omawiać działanie Python Pandas i jego działania, powinniśmy najpierw wyjaśnić, kto może go właściwie używać, a kto nie. Powinieneś najpierw zapoznać się z podstawowym kodem Pythona i NumPy.

Pierwsza z nich, czyli podstawy Pythona, jest ważna z oczywistych powodów. Niewiele zrozumiesz, nie wiedząc, jak działa kod w Pythonie. A nawet jeśli to zrobisz, nie będziesz w stanie wypróbować kodu, ponieważ nadal będziesz musiał najpierw nauczyć się kodu bazowego.

Drugi, NumPy, jest niezbędny do nauki, ponieważ opiera się na nim Pandas. Znajomość NumPy znacznie pomoże w zapoznaniu się z Pandami.

Możesz dowiedzieć się o Pythonie z naszych blogów poświęconych nauce o danych i Pythonie . Mamy wiele pomocnych przewodników i artykułów, które pomogą Ci zapoznać się z podstawami. To nic nie kosztuje, a jeśli masz jakiekolwiek wątpliwości, możesz je zapisać w sekcji komentarzy.

Jeśli znasz oba wymienione przez nas tematy, przyjrzyjmy się uważnie Pandzie:

Instalowanie Pand

Aby korzystać z Pandy, musisz ją zainstalować. Najlepsze jest to, że instalacja i import Pand jest bardzo prosta. Po prostu otwórz wiersz poleceń (jeśli używasz komputera Mac, będziesz musiał otworzyć terminal) i zainstaluj Pandy, używając tych kodów:

Dla użytkowników komputerów PC: pip install pandy

Dla użytkowników komputerów Mac: conda install pandy

W Pandas będziesz miał do czynienia z seriami i ramkami danych. Podczas gdy seria odnosi się do kolumny, ramka danych odnosi się do wielowymiarowej tabeli zawierającej wiele serii. Przyjrzyjmy się teraz operacjom, które możesz wykonać w Pandas.

Operacje w Pandach

Teraz, gdy omówiliśmy jego znaczenie i definicję, powinniśmy teraz rozważyć działania, które możesz wykonać w tym samouczku Python Pandas. Pandas udostępnia wiele funkcji, które omówiliśmy poniżej:

Przeglądanie danych

Na początku będziesz chciał wydrukować niektóre wiersze swojego zestawu danych, aby zachować je jako wizualne odniesienie. Możesz to zrobić za pomocą funkcji .head().

plik1.head()

Ta funkcja daje pierwsze pięć wierszy ramki danych. Jeśli chcesz uzyskać więcej wierszy niż pierwszych pięciu, możesz po prostu podać wymaganą liczbę w funkcji. Załóżmy, że potrzebujesz pierwszych 15 wierszy ramki danych, napiszesz następujący kod:

plik1.head(15)

Masz również możliwość przeglądania ostatnich pięciu wierszy ramki danych. Możesz to zrobić za pomocą funkcji .tail(). I podobnie jak funkcja .head(), funkcja .tail() również akceptuje liczbę i daje wymaganą liczbę wierszy.

file1.tail(20)

Ten kod da ci ostatnie 20 wierszy ramki danych.

Zbierać informacje

Jedną z pierwszych funkcji, których używają naukowcy zajmujący się danymi w Pandas, jest .info(). Dzieje się tak, ponieważ wyświetla informacje o ramce danych i zapewnia głębsze zrozumienie tego, z czym pracujesz. Oto jak używasz go w Pandas:

plik1.info()

Zapewnia wiele przydatnych informacji o zestawie danych, takich jak ilość wartości innych niż null, liczba wierszy, typ danych obecnych w kolumnie itp.

Znajomość typu danych wartości ramki danych jest niezbędna w wielu przypadkach. Załóżmy, że musisz wykonać operacje arytmetyczne na danych, ale mają one ciągi. Gdy uruchomisz swoje operacje matematyczne, zobaczysz wyskakujący błąd, ponieważ nie możesz wykonać takich operacji na łańcuchach. Gdybyś z drugiej strony użył funkcji .info() przed wykonaniem jakichkolwiek operacji, wiedziałbyś już, że masz ciągi.

Podczas gdy funkcja .info() pokazuje ogólne informacje o zestawie danych, atrybut .shape daje krotkę ramki danych. Możesz dowiedzieć się, ile wierszy i kolumn ma Twój zbiór danych za pomocą atrybutu .shape. Możesz go użyć w następujący sposób:

plik1.kształt

Ten atrybut nie ma nawiasów, ponieważ daje tylko krotkę wierszy i kolumn. Podczas czyszczenia danych będziesz często używać atrybutu .shape.

Dowiedz się również: Wynagrodzenie programisty Pythona w Indiach

Powiązanie

Omówmy teraz atrybut konkatenacji w tym samouczku Python Pandas. Konkatenacja odnosi się do łączenia dwóch lub więcej rzeczy razem. Tak więc za pomocą tego atrybutu możesz połączyć dwa zestawy danych bez modyfikowania ich wartości lub punktów danych w jakikolwiek sposób. Łączą się ze sobą, tak jak jest. W tym celu będziesz musiał użyć funkcji .concat(). Oto jak:

wynik = pd.concat([plik1,plik2])

Połączy ramki danych file1 i file2 i pokaże je jako pojedynczą ramkę danych.

df1 = pd.DataFrame({„HPI”:[80,90,70,60]”,Int_Rate”:[2,1,2,3], „IND_PKB”:[50,45,45,67]}, indeks=[2001, 2002,2003,2004])

df2 = pd.DataFrame({„HPI”:[80,90,70,60]”,Int_Rate”:[2,1,2,3]”,IND_PKB”:[50,45,45,67]}, indeks=[2005, 2006,2007,2008])

concat= pd.concat([df1,df2])

drukuj (konkat)

Wyjście powyższego kodu:

HPI IND_PKB Int_Rate

2001 80 50 2

2002 90 45 1

2003 70 45 2

2004 60 67 3

2005 80 50 2

2006 90 45 1

2007 70 45 2

2008 60 67 3

Na pewno zauważyłeś, jak funkcja .concat() połączyła dwie ramki danych i przekształciła je w jedną.

Zmiana indeksu

Możesz również zmienić wartości indeksu w ramce danych. W tym celu będziesz musiał użyć funkcji .set_index(). W nawiasach tej funkcji musisz podać szczegóły, aby zmienić indeks. Spójrz na poniższy przykład, aby lepiej go zrozumieć.

importuj pandy jako PD

df= pd.DataFrame({"Dzień":[1,2,3,4], "Odwiedzający":[200, 100,230,300], "Współczynnik_odrzuceń":[20,45,60,10]})

df.set_index("Dzień", inplace= Prawda)

drukuj(df)

Wyjście powyższego kodu:

Odwiedzający wskaźnik_odrzuceń

Dzień

1 20 200

2 45 100

3 60 230

4 10 300

Widać, że nasz kod zmienił wartość indeksu danych według dni.

Zmiana nagłówków kolumn

Możesz również zmienić nagłówki kolumn w Python Pandas. Wystarczy użyć funkcji .rename(). Możesz wprowadzić nazwy kolumn, które były początkowo obecne w nawiasach, oraz nazwy kolumn, które mają się pojawiać w kodzie wyjściowym.

Załóżmy, że masz tabelę z nagłówkiem kolumny „Godzina” i chcesz ją zmienić na „Godziny”. Możesz zmienić nazwę tej kolumny za pomocą następującego kodu:

df = df.rename(kolumny={"Czas" : "Godziny"})

Ten kod zmieni nazwę nagłówka kolumny z „Czas” na „Godziny”. Jest to doskonała funkcja do efektywnych praktyk. Przyjrzyjmy się, jak przekonwertować formaty swoich danych.

Bezpowrotnie zniszczenie lub zmiana danych

Dzięki przetwarzaniu danych masz możliwość konwersji formatu określonych danych. Możesz przekonwertować plik .csv na plik .html lub odwrotnie. Oto przykład, jak możesz to zrobić:

importuj pandy jako PD

country= pd.read_csv("D:UsersUser1Downloadsworld-bank-youth-unemploymentAPI_ILO_country_YU.csv",index_col=0)

kraj.to_html('plik1.html')

Po uruchomieniu tego kodu utworzy on dla Ciebie plik HTML, który możesz uruchomić w swojej przeglądarce. Pochłanianie danych to doskonała funkcja, która przyda się w wielu sytuacjach.

Wniosek

A teraz dotarliśmy do końca tego samouczka Python Pandas. Mamy nadzieję, że okazało się to przydatne i pouczające. Python Pandy to obszerny temat, a dzięki licznym funkcjom, które posiada, pełne zapoznanie się z nim zajęłoby trochę czasu.

Jeśli chcesz dowiedzieć się więcej o Pythonie, jego różnych bibliotekach, w tym Pandas, i jego zastosowaniu w nauce o danych, sprawdź IIIT-B i upGrad's PG Diploma in Data Science, który jest stworzony dla pracujących profesjonalistów i oferuje ponad 10 studiów przypadków i projekty, praktyczne warsztaty praktyczne, mentoring z ekspertami z branży, indywidualny z mentorami z branży, ponad 400 godzin nauki i pomocy w pracy z najlepszymi firmami.

Czy muszę znać Pythona, aby używać Pand?

Zanim zaczniesz korzystać z Pand, musisz zrozumieć, że jest to pakiet zbudowany dla Pythona. Dlatego zdecydowanie musisz dobrze opanować podstawy, a także składnię programowania w Pythonie, aby z łatwością zacząć korzystać z Pand. Zawsze, gdy chodzi o pracę z danymi tabelarycznymi w Pythonie, Pandas jest uważany za najlepszy wybór.

Ale musisz wyjaśnić składnię używaną w Pythonie przed rozpoczęciem pracy z Pandami. Nie trzeba poświęcać na to dużej ilości czasu, ale wystarczy poświęcić wystarczająco dużo czasu, aby zapoznać się z podstawową składnią, aby móc zacząć od zadań związanych z Pandami.

Jak długo trwa nauka Pand w Pythonie?

Pandas to najczęściej używana biblioteka Pythona do obsługi danych tabelarycznych. Możesz używać Pand do wszystkich zadań, do których możesz używać programu Excel. Jeśli znasz już programowanie w Pythonie i jego składnię, to w ciągu dwóch tygodni możesz łatwo zapoznać się z działaniem Pand. Kiedy zaczynasz z Pandami, powinieneś zacząć od podstawowych projektów manipulacji danymi, aby się ogarnąć.

W miarę postępów zauważysz, że Pandas to bardzo przydatne narzędzie do nauki o danych, które może być kluczowym czynnikiem wpływającym na decyzje biznesowe w kilku branżach.

Czy powinienem najpierw nauczyć się Numpy czy Pandy?

Preferuje się naukę Numpy przed Pandas, ponieważ Numpy jest najbardziej podstawowym modułem w Pythonie do obliczeń naukowych. Otrzymasz również wsparcie wysoce zoptymalizowanych tablic wielowymiarowych, które są uważane za najbardziej podstawową strukturę danych każdego algorytmu uczenia maszynowego.

Gdy skończysz naukę Numpy, powinieneś zacząć od Pand, ponieważ Pandy są uważane za rozszerzenie Numpy. Dzieje się tak, ponieważ kod bazowy Pand intensywnie wykorzystuje bibliotekę Numpy.