Dodawanie nowej kolumny do istniejącej ramki danych w Pandas [2022]

Opublikowany: 2021-01-06

Python, interpretowany, uniwersalny język programowania wysokiego poziomu, stał się ostatnio fenomenalnym językiem komputerowym ze względu na obszerną kolekcję bibliotek i łatwą do wdrożenia naturę. Popularność Pythona gwałtownie wzrosła wraz z wdrożeniem nauki o danych i analizy danych. Istnieją tysiące bibliotek, które można zintegrować z Pythonem, aby działał wydajnie w dowolnej pionie.

Pandas to jedna z takich bibliotek do analizy danych, zaprojektowana specjalnie dla Pythona do wykonywania manipulacji danymi i analizy danych. Biblioteka Pandas składa się z określonych struktur danych i operacji do obsługi tabel liczbowych, analizowania danych i pracy z szeregami czasowymi. W tym artykule dowiesz się, jak dodać kolumny do DataFrame w Pandas, które już istnieją.

Przeczytaj: Pandy Dataframe Astype

Spis treści

Co to jest DataFrame?

Zanim dowiesz się, jak dodać nową kolumnę do istniejącej ramki DataFrame , przyjrzyjmy się najpierw ramkom DataFrame w Pandas . DataFrame to zmienna struktura danych w postaci dwuwymiarowej tablicy, która może przechowywać heterogeniczne wartości z oznaczonymi osiami (wiersze i kolumny). DataFrame to struktura danych, w której dane są przechowywane w logicznym układzie tabelarycznym (przecinające się wiersze i kolumny). Trzy główne składniki DataFrame to wiersze, kolumny i dane. Tworzenie DataFrame w Pythonie jest bardzo proste.

importuj pandy jako PD

l = ['To', 'jest', 'a', 'Lista', 'przygotowuję', 'do', 'DataFrame']

datafr = pd.DataFrame(l)

drukuj(datfr)

Powyższy program utworzy DataFrame z 7 wierszami i jedną kolumną.

istniejąca dataframe w Pandas

Jak dodać kolumny do istniejących ramek danych?

Istnieją różne sposoby dodawania nowych kolumn do DataFrame w Pandas . Zebraliśmy już pomysł, jak stworzyć podstawową DataFrame przy użyciu biblioteki Pandas . Przygotujmy teraz już istniejącą bibliotekę i pracujmy nad nią.

importuj pandy jako PD

# Zdefiniuj słownik zawierający dane profesjonalistów

datfr = {'Imię': ['Karl', 'Gaurav', 'Ray', 'Mimo'],

„Wysokość”: [6.2, 5.7, 6.1, 5.9],

„Oznaczenie”: [„Naukowiec”, „Profesor”, „Analityk danych”, „Analityk ds. bezpieczeństwa”]}

df = pd.DataFrame(datfr)

drukuj(df)

Wyjście:

Przeczytaj: samouczek Python Pandas

Technika 1: metoda insert()

Teraz, aby dodać nowe kolumny do istniejącej ramki DataFrame, musimy użyć metody insert(). Przed wdrożeniem metody insert() poinformuj nas o jej działaniu. DataFrame.insert() umożliwia dodanie kolumny w dowolnej pozycji, jaką chce analityk danych. Zawiera również kilka możliwości wstrzykiwania wartości kolumn. Programiści mogą określić indeks, aby wstrzyknąć kolumnę danych w tej konkretnej pozycji.

importuj pandy jako PD

# Zdefiniuj słownik zawierający dane profesjonalistów

datfr = {'Imię': ['Karl', 'Gaurav', 'Ray', 'Mimo'],

„Wysokość”: [6.2, 5.7, 6.1, 5.9],

„Oznaczenie”: [„Naukowiec”, „Profesor”, „Analityk danych”, „Analityk ds. bezpieczeństwa”]}

df = pd.DataFrame(datfr)

df.insert(3, „Wiek”, [40, 33, 27, 26], Prawda)

drukuj(df)

Doda kolumnę „Wiek” na trzeciej pozycji indeksu, zgodnie z definicją w metodzie insert() jako pierwszy parametr.

Technika 2: assign() Metoda

Inną metodą dodania kolumny do DataFrame jest użycie metody assign() biblioteki Pandas. Ta metoda wykorzystuje inne podejście do dodawania nowej kolumny do istniejącej ramki DataFrame. Dataframe.assign() utworzy nową ramkę DataFrame wraz z kolumną. Następnie dołączy go do istniejącej ramki DataFrame.

importuj pandy jako PD

datfr = {'Imię': ['Karl', 'Gaurav', 'Ray', 'Mimo'],

„Wysokość”: [6.2, 5.7, 6.1, 5.9],

„Oznaczenie”: [„Naukowiec”, „Profesor”, „Analityk danych”, „Analityk ds. bezpieczeństwa”]}

dfI = pd.DataFrame(datfr)

dfII = dfI.assign(Lokalizacja = ['Noida', 'Amsterdam', 'Cambridge', 'Bangaluru'])

drukuj(dfII)

WYJŚCIE:

Technika 3: Tworzenie nowej listy jako kolumny

Ostatnią metodą, której programiści mogą użyć w celu dodania kolumny do DataFrame , jest wygenerowanie nowej listy jako oddzielnej kolumny danych i dołączenie kolumny do istniejącej ramki DataFrame.

importuj pandy jako PD

datfr = {'Imię': ['Karl', 'Gaurav', 'Ray', 'Mimo'],

„Wysokość”: [6.2, 5.7, 6.1, 5.9],

„Oznaczenie”: [„Naukowiec”, „Profesor”, „Analityk danych”, „Analityk ds. bezpieczeństwa”]}

df = pd.DataFrame(datfr)

loc = ['Noida', 'Amsterdam', 'Cambridge', 'Bangaluru']

df['Lokalizacja'] = loc

drukuj(df)

WYJŚCIE:

Zamówienie: Pytania do wywiadu Pandas

Wniosek

Analitycy danych wykonują podstawową operację dodawania dodatkowego zestawu danych w formie kolumnowej. Istnieją różne podejścia, które może zastosować analityk danych lub programista, aby dodać nową kolumnę do istniejącej ramki DataFrame w Pandas. Metody te ułatwią programistom dodawanie kolumn danych w dowolnym momencie podczas analizowania danych Pandas.

Jeśli chcesz dowiedzieć się więcej o DataFrame w Pandas, sprawdź program Executive PG w dziedzinie Data Science IIIT-B i upGrad, który jest stworzony dla pracujących profesjonalistów i oferuje ponad 10 studiów przypadków i projektów, praktyczne warsztaty praktyczne, mentoring z ekspertami z branży, Indywidualnie z mentorami branżowymi, ponad 400 godzin nauki i pomocy w pracy z najlepszymi firmami.

Dlaczego Pandas jest jedną z najbardziej preferowanych bibliotek do tworzenia ramek danych w Pythonie?

Biblioteka Pandas jest uważana za najlepiej nadającą się do tworzenia ramek danych, ponieważ zapewnia różne funkcje, które sprawiają, że tworzenie ramek danych jest wydajne. Niektóre z tych funkcji są następujące – Pandy dostarczają nam różnych ramek danych, które nie tylko pozwalają na wydajną reprezentację danych, ale także umożliwiają nam manipulowanie nimi. Zapewnia wydajne funkcje wyrównywania i indeksowania, które zapewniają inteligentne sposoby etykietowania i organizowania danych. Niektóre cechy Pand sprawiają, że kod jest czysty i zwiększa jego czytelność, dzięki czemu jest bardziej wydajny. Może również czytać wiele formatów plików. JSON, CSV, HDF5 i Excel to tylko niektóre z formatów plików obsługiwanych przez Pandy. Łączenie wielu zestawów danych było prawdziwym wyzwaniem dla wielu programistów. Pandy również to przezwyciężają i bardzo skutecznie łączą wiele zestawów danych. Pandas zapewnia również dostęp do innych ważnych bibliotek Pythona, takich jak Matplotlib i NumPy, co czyni go bardzo wydajną biblioteką.

Z jakimi innymi bibliotekami Pythona współpracuje biblioteka Pandas?

Pandas działa nie tylko jako centralna biblioteka do tworzenia ramek danych, ale współpracuje również z innymi bibliotekami i narzędziami Pythona, aby być bardziej wydajnym. Pandas jest zbudowany na pakiecie NumPy Python, co wskazuje, że większość struktury biblioteki Pandas jest replikowana z pakietu NumPy. Analiza statystyczna danych w bibliotece Pandas jest obsługiwana przez SciPy, wykreślanie funkcji w Matplotlib, a algorytmy uczenia maszynowego w Scikit-learn. Jupyter Notebook to interaktywne środowisko internetowe, które działa jako środowisko IDE i oferuje dobre środowisko dla Pand.

Oprócz wstawiania, jakie są podstawowe operacje Dataframe?

Wybór indeksu lub kolumny przed rozpoczęciem jakiejkolwiek operacji, takiej jak dodawanie lub usuwanie, jest ważne. Gdy nauczysz się, jak uzyskać dostęp do wartości i wybrać kolumny z ramki danych, możesz nauczyć się dodawać indeks, wiersz lub kolumnę w ramce danych Pandas. Jeśli indeks w ramce danych nie jest zgodny z oczekiwaniami, możesz go zresetować. Aby zresetować indeks, możesz użyć funkcji „reset_index()”.