Панды объединяют кадры данных [2022]

Опубликовано: 2021-01-06

Представьте, что у вас есть два набора данных, которые необходимо объединить для выполнения анализа. При использовании SQL записи из двух или более таблиц в базе данных могут быть объединены с помощью соединений SQL. Точно так же в Python есть опции для объединения фреймов данных. Так что же такое фрейм данных? Фрейм данных в Python имеет несколько строк и столбцов. Это похоже на таблицу в SQL. У вас есть программная библиотека pandas для анализа данных в Python. Объединение фреймов данных Pandas помогает нам объединять фреймы данных на основе определенной логики.

Различные способы объединения кадров данных:

  • Внутреннее соединение. Внутреннее соединение очень похоже на пересечение двух наборов. В случае внутреннего соединения возвращается фрейм данных, содержащий только те строки, которые имеют общие свойства. Таким образом, каждая строка в двух объединенных кадрах данных должна иметь совпадающие значения столбца.
  • Левое соединение: левое соединение возвращает все строки из левого фрейма данных и только совпадающие строки из правого фрейма данных.
  • Правое соединение: правое соединение возвращает все строки из правого фрейма данных и только совпадающие строки из левого фрейма данных.
  • Полное или внешнее соединение: полное соединение сохраняет все строки как из левого фрейма данных, так и из правого фрейма данных.

Источник

Давайте теперь посмотрим на функции, представленные в Pandas, для объединения фреймов данных или рядов.

Оглавление

Функции в пандах

1. Функция присоединения

Как мы уже читали, в Python есть много функций, подобных SQL, доступных для объединения данных. Кадры данных имеют индекс, который действует как адрес. Обычно индексы строк называются индексами, а столбцы — именами столбцов. Операция Join позволяет объединить все столбцы из двух фреймов данных. Вы можете переименовать левый и правый столбец, обновив параметры «lsuffix» и «rsuffix». У вас есть возможность выбрать способ слияния, обновив параметр «как».

Синтаксис:
DataFrame.join( self , other , on=None , как='right' , lsuffix=" , rsuffix=" , sort=False )
Читайте также: Учебник по Python Pandas для начинающих

2. Функция слияния

Функция слияния очень похожа на операцию соединения. Однако вы получаете гибкое управление при объединении всех столбцов из двух фреймов данных. Вы можете использовать on = Имя столбца, чтобы объединить фреймы данных в общем столбце. Вы можете обновить left_on = имя столбца или right_on = имя столбца, чтобы выровнять таблицы, используя столбцы из левого или правого фрейма данных в качестве ключей. Выбор left_index = True или right_index = True позволяет вам использовать метки строк из левого фрейма данных или правого фрейма данных в качестве ключей соединения.

Синтаксис:

DataFrame.merge( self , right , как='left' , on=None , left_on=None ,

right_on=None , left_index=False , right_index=False , sort=False , suffixes =('_x' , '_y') , copy=True , индикатор=False , validate=None )

Читайте: вопросы интервью Pandas

3. Функция объединения

Используя функцию Concat, вы можете комбинировать данные в столбцах или строках по своему выбору. Вы можете установить логику соединения (левое/правое/внутреннее/полное соединение) по любой из двух осей. Вы также получаете возможность проверить наличие повторяющихся значений на новой объединенной оси с помощью verify_integrity. Если на оси конкатенации не указано значение индекса, результирующая ось будет помечена как 0,1,… n-1. Параметр keys позволяет формировать иерархическую индексацию с использованием переданных ключей.

Синтаксис

pandas.concat ( objs , ось = 0 , join = 'left' , join_axes = None ,

ignore_index=False , ключи=Нет , уровни=Нет , имена=Нет ,

verify_integrity = False , sort = None , copy = True )

Читайте: Алгоритм структуры данных в Python

Подведение итогов

Как мы видели в pandas.DataFrame, функции слияния и объединения используются для объединения фреймов данных, работающих со столбцами. Существует также возможность переименовывать столбцы на основе предоставленного суффикса. Функция слияния обеспечивает большую гибкость в случае выравнивания по строкам. Напротив, функция Concat в pandas может работать как со строками, так и со столбцами.

При использовании функции Concat переименование столбцов не выполняется. Объединение фреймов данных Pandas является важной функцией, когда нам нужно объединить два фрейма данных. Объединение двух фреймов данных с использованием определенных условий помогает подготовить данные, необходимые для анализа и других задач. Таким образом, для программной библиотеки pandas объединение кадров данных является неотъемлемой функцией.

Вам интересно узнать больше о различных функциях, доступных в пандах, и углубиться в аналитику данных? Вы можете проверить диплом PG в области науки о данных , предлагаемый upGrad. Курсы проводятся отраслевыми экспертами и помогут вам узнать больше об исследовательском анализе данных, различных методах визуализации данных и алгоритмах машинного обучения. Начните свою карьеру в области анализа данных и машинного обучения с upGrad.

Какие существуют типы суставов в Pandas?

Библиотека Pandas предоставляет четыре вида различных объединений для объединения фреймов данных. Эти соединения следующие: Внутреннее соединение — это самое простое соединение для объединения фреймов данных. Внутреннее соединение возвращает фрейм данных, содержащий только те строки, которые имеют общие свойства. Следовательно, оба комбинированных кадра данных должны иметь общие значения. Полное или внешнее соединение возвращает все строки левого и правого фреймов данных. Другими словами, он обеспечивает объединение обоих фреймов данных. Левое соединение возвращает все строки левого фрейма данных вместе с соответствующими строками правого фрейма данных. Правое соединение полностью противоположно левому. Он возвращает все строки правого фрейма данных вместе с соответствующими строками левого фрейма данных.

Какие существуют способы объединения строк или столбцов?

Строки или столбцы двух фреймов данных могут быть объединены следующими способами: 1. Объединение DataFrame с использованием .concat() — это самый простой способ объединения двух строк или столбцов, где мы используем функцию «.concat()». 2. Объединение DataFrame путем установки логики на осях. В этом методе мы определяем различную логику на осях. Ниже приведены способы установки осей: взять объединение (объединение = внешнее), взять пересечение (объединение = внутреннее), использовать определенный индекс. 3. Объединение DataFrame с использованием .append() — функция «.append()» используется непосредственно перед функцией «.concat()» и объединяется по оси = 0. 4. Объединение DataFrame с игнорированием индексов — в этом методе , мы игнорируем бессмысленные индексы и добавляем фрейм данных. Мы используем ignore_index в качестве аргумента для игнорирования перекрывающихся индексов.

Что вы знаете о функции слияния?

Функция слияния работает с двумя фреймами данных для слияния строк или столбцов. Это операция соединения с большим объемом памяти, напоминающая реляционные базы данных. Вы можете использовать on = Имя столбца, чтобы объединить фреймы данных в общем столбце.
Вы можете обновить left_on = имя столбца или right_on = имя столбца, чтобы выровнять таблицы, используя столбцы из левого или правого фрейма данных в качестве ключей. Выбор left_index = True или right_index = True позволяет использовать метки строк из левого или правого фрейма данных в качестве ключей соединения.