Bingkai Data Penggabungan Panda [2022]
Diterbitkan: 2021-01-06Bayangkan Anda memiliki dua set data yang harus Anda gabungkan untuk melakukan analisis. Saat menggunakan SQL, catatan dari dua atau lebih tabel dalam database dapat digabungkan menggunakan gabungan SQL. Demikian pula, ada opsi dalam Python juga untuk menggabungkan bingkai data. Jadi apa itu bingkai data? Bingkai data dalam Python memiliki banyak baris dan kolom. Ini mirip dengan tabel di SQL. Anda memiliki perpustakaan perangkat lunak pandas untuk analisis data dengan Python. Bingkai data gabungan Panda membantu kami menggabungkan bingkai data berdasarkan logika tertentu.
Berbagai cara menggabungkan bingkai data:
- Inner Join: Inner join cukup mirip dengan persimpangan dua set. Dalam kasus gabungan dalam, bingkai data dikembalikan yang hanya berisi baris-baris yang memiliki properti umum. Jadi setiap baris dalam dua bingkai data gabungan harus memiliki nilai kolom yang cocok.
- Gabung Kiri: Gabung kiri mengembalikan semua baris dari bingkai data kiri dan hanya baris yang cocok dari bingkai data kanan.
- Gabung Kanan: Gabung kanan mengembalikan semua baris dari bingkai data kanan dan hanya baris yang cocok dari bingkai data kiri.
- Gabung Penuh atau Luar: Gabungan penuh menyimpan semua baris dari bingkai data kiri dan bingkai data kanan.
Sumber
Sekarang mari kita lihat fungsi yang ada di Pandas untuk menggabungkan bingkai atau seri data.
Daftar isi
Fungsi di Panda
1. Gabung fungsi
Seperti yang telah kita baca, Python memiliki banyak fitur seperti SQL yang tersedia untuk menggabungkan data. Bingkai data memiliki indeks yang bertindak sebagai alamat. Biasanya, indeks baris disebut sebagai indeks sedangkan kolom dialamatkan dengan nama kolom. Operasi Gabung memungkinkan Anda untuk menggabungkan semua kolom dari dua bingkai data. Anda dapat mengganti nama kolom kiri dan kanan dengan memperbarui parameter "lsuffix" dan "rsuffix". Anda mendapatkan opsi untuk memilih cara penggabungan dengan memperbarui parameter "bagaimana".
2. Gabungkan fungsi
Fungsi merge sangat mirip dengan operasi join. Namun, Anda mendapatkan kontrol yang fleksibel saat menggabungkan semua kolom dari dua bingkai data. Anda dapat menggunakan pada = Nama Kolom untuk menggabungkan bingkai data pada kolom umum. Anda dapat memperbarui left_on = Nama Kolom atau right_on = Nama Kolom untuk menyelaraskan tabel menggunakan kolom dari bingkai data kiri atau kanan sebagai kunci. Memilih left_index = True atau right_index = True, memungkinkan Anda untuk menggunakan label baris dari bingkai data kiri atau bingkai data kanan sebagai kunci gabungan.
Sintaksis:
DataFrame.merge( self , right , how='left' , on=None , left_on=None ,
right_on=Tidak ada , left_index=False , right_index=False , sort=False , suffixes =('_x' , '_y') , copy=True , indicator=False , validasi=Tidak ada )
Baca: Pertanyaan Wawancara Panda
3. Fungsi concat
Menggunakan fungsi Concat, Anda dapat menggabungkan data pada kolom atau baris berdasarkan pilihan Anda. Anda dapat mengatur logika bergabung (kiri/kanan/dalam/gabung penuh) pada salah satu dari dua sumbu. Anda juga mendapatkan opsi untuk memeriksa apakah sumbu gabungan baru memiliki nilai duplikat yang ada menggunakan verifikasi_integritas. Jika tidak ada nilai indeks yang ditentukan pada sumbu gabungan, sumbu yang dihasilkan akan diberi label sebagai 0,1,… n-1. Parameter kunci memungkinkan Anda untuk membentuk pengindeksan hierarkis menggunakan kunci yang diteruskan.

Sintaksis
pandas.concat( objs , axis=0 , join='left' , join_axes=None ,
abaikan_index=False , keys=None , level=None , names=None ,
verifikasi_integrity=False , sort=None , copy=True )
Baca: Algoritma Struktur Data dengan Python
Membungkus
Seperti yang telah kita lihat di pandas.DataFrame, fungsi merge, dan join digunakan untuk menggabungkan bingkai data yang bekerja pada kolom. Ada juga opsi untuk mengganti nama kolom berdasarkan sufiks yang disediakan. Fungsi penggabungan menawarkan lebih banyak fleksibilitas dalam hal penyelarasan baris-bijaksana. Sebaliknya, fungsi Concat dari panda dapat beroperasi pada baris atau kolom.
Tidak ada penggantian nama kolom yang dilakukan saat menggunakan fungsi Concat. Bingkai data gabungan Panda adalah fitur penting ketika kita harus menggabungkan dua bingkai data. Menggabungkan dua bingkai data menggunakan kondisi tertentu membantu Anda menyiapkan data yang diperlukan untuk analisis dan tugas lainnya. Jadi untuk perpustakaan perangkat lunak panda menggabungkan bingkai data merupakan fungsi integral.
Apakah Anda tertarik untuk mempelajari lebih lanjut tentang berbagai fungsi yang tersedia di panda dan mempelajari lebih dalam Analisis Data? Anda dapat memeriksa Diploma PG dalam Ilmu Data yang ditawarkan oleh upGrad. Kursus ini dilakukan oleh pakar industri dan akan membantu Anda mempelajari lebih lanjut tentang analisis data eksplorasi, berbagai teknik visualisasi data, dan algoritme pada Machine Learning. Mulailah karir Anda di bidang Analisis Data dan Pembelajaran Mesin dengan upGrad.
Apa saja jenis sendi di Pandas?
Pustaka Pandas menyediakan empat jenis gabungan yang berbeda untuk menggabungkan bingkai data. Gabungan ini adalah sebagai berikut - Inner join adalah gabungan paling dasar untuk menggabungkan bingkai data. Gabungan dalam mengembalikan bingkai data yang hanya berisi baris-baris yang memiliki properti umum. Oleh karena itu, kedua bingkai data gabungan harus memiliki nilai yang sama. Gabungan penuh atau luar mengembalikan semua baris bingkai data kiri dan kanan. Dengan kata lain, ini menyediakan penyatuan kedua bingkai data. Gabung kiri mengembalikan semua baris bingkai data kiri bersama dengan baris yang cocok dari bingkai data kanan. Gabung kanan adalah kebalikan dari gabungan kiri. Ini mengembalikan semua baris bingkai data kanan bersama dengan baris yang cocok dari bingkai data kiri.
Apa cara berbeda untuk menggabungkan baris atau kolom?
Baris atau kolom dari dua bingkai data dapat digabungkan dengan cara berikut: 1. Menggabungkan DataFrame menggunakan .concat() - ini adalah cara paling sederhana untuk menggabungkan dua baris atau kolom di mana kita menggunakan fungsi “.concat()”. 2. Menggabungkan DataFrame dengan menyetel logika pada sumbu - Dalam metode ini, kita mendefinisikan logika yang berbeda pada sumbu. Berikut cara-cara menyetel sumbu: Ambil gabungan (join = outer), ambil persimpangan (join = inner), Menggunakan indeks tertentu. 3. Menggabungkan DataFrame menggunakan .append() - fungsi “.append()” digunakan tepat sebelum fungsi “.concat()” dan digabungkan sepanjang sumbu = 0. 4. Menggabungkan DataFrame dengan mengabaikan indeks - Dalam metode ini , kami mengabaikan indeks yang tidak berarti dan menambahkan bingkai data. Kami menggunakan mengabaikan_index sebagai argumen untuk mengabaikan indeks yang tumpang tindih.
Apa yang kamu ketahui tentang fungsi gabungan?
Fungsi gabungan dioperasikan pada dua bingkai data untuk menggabungkan baris atau kolom. Ini adalah operasi join dengan memori tinggi dan menyerupai database relasional. Anda dapat menggunakan pada = Nama Kolom untuk menggabungkan bingkai data pada kolom umum.
Anda dapat memperbarui left_on = Nama Kolom atau right_on = Nama Kolom untuk menyelaraskan tabel menggunakan kolom dari bingkai data kiri atau kanan sebagai kunci. Memilih left_index = True atau right_index = True, memungkinkan Anda untuk menggunakan label baris dari bingkai data kiri atau bingkai data kanan sebagai kunci gabungan.