Ściągawka Pandy: Najważniejsze polecenia, które powinieneś wiedzieć [2022]

Opublikowany: 2021-01-06

Analiza danych stała się nowym gatunkiem nauki, a wszystko to dzięki Pythonowi. Jeśli jesteś entuzjastą analityka danych, który pracuje w Pythonie, prawie całkowicie korzystasz z biblioteki Pandas, ten artykuł jest dla Ciebie. Ta ściągawka Pandy zawiera wszystkie niezbędne metody, które przydają się podczas analizy danych. Być może napotkałeś sytuacje, w których trudno jest zapamiętać konkretną składnię robienia czegoś w Pandach. Te polecenia dotyczące ściągawek Pandy pomogą Ci łatwo zapamiętać i odnieść się do najczęstszych operacji Pand. Jeśli jesteś początkującym w Pythonie i nauce o danych, kursy data science w upGrad z pewnością pomogą Ci głębiej zagłębić się w świat danych i analityki.

Spis treści

Korzystanie ze ściągawki Pandy

Przed użyciem tej ściągawki Pandy , powinieneś dokładnie zapoznać się z Samouczkiem Pand , a następnie zapoznać się z tą ściągawką, aby zapamiętać i wyczyścić. Ściągawka Pandy pomoże Ci szybko znaleźć metody, których już się nauczyłeś i może się przydać, nawet jeśli idziesz na egzamin lub rozmowę kwalifikacyjną. Zebraliśmy i pogrupowaliśmy wszystkie polecenia często używane w Pandach przez analityka danych, aby ułatwić ich wykrycie. W tej ściągawce Pandy użyjemy następującego skrótu do przedstawiania różnych obiektów.

  • df: Do reprezentowania dowolnego obiektu Pandas DataFrame
  • ser: Do reprezentowania dowolnego obiektu z serii Pandas

Aby wdrożyć metody wymienione poniżej w tym artykule, należy użyć następujących odpowiednich bibliotek.

  • importuj pandy jako PD
  • importuj numer jako np

Musisz przeczytać: Pytania do wywiadu z Pandami

1. Importuj dane z różnych plików

  • Aby odczytać wszystkie dane z pliku CSV: pd.read_csv(nazwa_pliku)
  • Aby odczytać wszystkie dane z rozdzielanego pliku tekstowego (np. TSV): pd.read_table(nazwa_pliku)
  • Aby odczytać z arkusza Excela: pd.read_excel(nazwa_pliku)
  • Aby odczytać dane z bazy danych SQL: pd.read_sql(query, connectionObject)
  • Pobieranie danych z ciągu znaków w formacie JSON lub adresu URL: pd.read_json(jsonString)
  • Aby pobrać zawartość schowka: pd.read_clipboard()

2. Eksportuj DataFrames w różnych formatach plików

  • Aby zapisać DataFrame do pliku CSV: df.to_csv(nazwa_pliku)
  • Aby zapisać DataFrame do pliku Excel: df.to_excel(nazwa_pliku)
  • Aby zapisać DataFrame do tabeli SQL: df.to_sql(nazwa_tabeli, obiekt połączenia)
  • Aby zapisać DataFrame do pliku w formacie JSON: df.to_json(nazwa_pliku)

3. Sprawdź konkretną sekcję ramki DataFrame lub serii

  • Aby pobrać wszystkie informacje związane z indeksem, typem danych i pamięcią: df.info()
  • Aby wyodrębnić początkowe „n” wierszy z ramki DataFrame: df.head(n)
  • Aby wyodrębnić końcowe „n” wierszy z ramki DataFrame: df.tail(n)
  • Aby wyodrębnić liczbę wierszy i kolumn dostępnych w ramce DataFrame: df.shape
  • Podsumowując statystyki dla kolumn liczbowych: df.describe()
  • Aby wyświetlić unikalne wartości wraz z ich liczbą: ser.value_counts(dropna=False)

4. Wybór określonego podzbioru danych

  • Wyodrębnij pierwszy wiersz: df.iloc[0,:]
  • Aby wyodrębnić pierwszy element z pierwszej kolumny DataFrame: df.iloc[0,0]
  • Aby zwrócić kolumny z etykietą „col” jako Seria: df[col]
  • Aby zwrócić kolumny z nową ramką DataFrame: df[[kol1,kol2]]
  • Aby wybrać dane według pozycji: ser.iloc[0]
  • Aby wybrać dane według indeksu: ser.loc['index_one']

5. Polecenia czyszczenia danych

  • Aby zmienić nazwy kolumn w masach: df.rename(columns = lambda x: x + 1)
  • Aby selektywnie zmienić nazwy kolumn: df.rename(columns = {'oldName': 'newName'})
  • Aby zmienić nazwę indeksu w masach: df.rename(index = lambda x: x + 1)
  • Aby zmienić nazwy kolumn w kolejności: df.columns = ['x', 'y', 'z']
  • Aby sprawdzić, czy istnieją wartości null, zwraca odpowiednio tablicę logiczną: pd.isnull()
  • Odwrotność funkcji pd.isnull(): pd.notnull()
  • Usuwa wszystkie wiersze zawierające wartości null: df.dropna()
  • Usuwa wszystkie kolumny zawierające wartości null: df.dropna(axis=1)
  • Aby zastąpić każdą wartość pustą 'n': df.fillna(n)
  • Aby przekonwertować wszystkie typy danych serii na float: ser.astype(float)
  • Aby zastąpić wszystkie cyfry 1 przez 'jeden' i 3 przez 'trzy': ser.replace([1,2], ['jeden','dwa'])

Przeczytaj także: Pandas Dataframe Astype

6. Grupuj, sortuj i filtruj dane

  • Aby zwrócić obiekt groupby dla wartości kolumn: df.groupby(colm)
  • Aby zwrócić obiekt groupby dla wielu wartości kolumn: df.groupby([kolumna1, kolumna2])
  • Aby posortować wartości w kolejności rosnącej (według kolumny): df.sort_values(colm1)
  • Aby posortować wartości w kolejności malejącej (według kolumny): df.sort_values(colm2, ascending=False)
  • Wyodrębnij wiersze, w których wartość kolumny jest większa niż 0,6: df[df[kolumna] > 0,6]

7. Inne

  • Dodaj wiersze pierwszej ramki DataFrame na końcu drugiej ramki DataFrame: df1.append(df2)
  • Dodaj kolumny pierwszej ramki DataFrame na końcu drugiej ramki DataFrame: pd.concat([df1,df2],axis=1)
  • Aby zwrócić średnią wszystkich kolumn: df.mean()
  • Aby zwrócić liczbę wartości innych niż null: df.count()

Wniosek

Te ściągawki Pandy będą przydatne tylko do szybkiego przywołania. Zawsze dobrze jest przećwiczyć komendy przed bezpośrednim przejściem do ściągawki Pandy .

Jeśli chcesz dowiedzieć się czegoś o Pandach, sprawdź program Executive PG w dziedzinie Data Science IIIT-B i upGrad, który jest stworzony dla pracujących profesjonalistów i oferuje ponad 10 studiów przypadków i projektów, praktyczne warsztaty praktyczne, mentoring z ekspertami branżowymi, 1- on-1 z mentorami branżowymi, ponad 400 godzin nauki i pomocy w pracy z najlepszymi firmami.

Jakie są najważniejsze cechy bibliotek Pandy?

Oto cechy, które sprawiają, że Pandas jest jedną z najpopularniejszych bibliotek Pythona: Pandas udostępnia nam różne ramki danych, które nie tylko umożliwiają wydajną reprezentację danych, ale także umożliwiają nam manipulowanie nimi. Zapewnia wydajne funkcje wyrównywania i indeksowania, które zapewniają inteligentne sposoby etykietowania i organizowania danych. Niektóre cechy Pand sprawiają, że kod jest czysty i zwiększa jego czytelność, dzięki czemu jest bardziej wydajny. Może również czytać wiele formatów plików. JSON, CSV, HDF5 i Excel to tylko niektóre z formatów plików obsługiwanych przez Pandy. Łączenie wielu zestawów danych było prawdziwym wyzwaniem dla wielu programistów. Pandy również to przezwyciężają i bardzo skutecznie łączą wiele zestawów danych. Biblioteka Pandas zapewnia również dostęp do innych ważnych bibliotek Pythona, takich jak Matplotlib i NumPy, co czyni ją bardzo wydajną biblioteką.

Jakie są inne biblioteki i narzędzia, które uzupełniają bibliotekę Pandy?

Pandas działa nie tylko jako centralna biblioteka do tworzenia ramek danych, ale współpracuje również z innymi bibliotekami i narzędziami Pythona, aby być bardziej wydajnym. Pandas jest zbudowany na pakiecie NumPy Python, co wskazuje, że większość struktury biblioteki Pandas jest replikowana z pakietu NumPy. Analiza statystyczna danych w bibliotece Pandas jest obsługiwana przez SciPy, wykreślanie funkcji w Matplotlib, a algorytmy uczenia maszynowego w Scikit-learn. Jupyter Notebook to interaktywne środowisko internetowe, które działa jako środowisko IDE i oferuje dobre środowisko dla Pand.

Podaj podstawowe operacje na ramce danych

Wybór indeksu lub kolumny przed rozpoczęciem jakiejkolwiek operacji, takiej jak dodawanie lub usuwanie, jest ważne. Gdy nauczysz się, jak uzyskać dostęp do wartości i wybrać kolumny z ramki danych, możesz nauczyć się dodawać indeks, wiersz lub kolumnę w ramce danych Pandas. Jeśli indeks w ramce danych nie jest zgodny z oczekiwaniami, możesz go zresetować. Aby zresetować indeks, możesz użyć funkcji „reset_index()”.