Manipulasi Data di R: Apa itu, Variabel, Menggunakan paket dplyr

Diterbitkan: 2020-03-26

Daftar isi

pengantar

Terlepas dari staf dan infrastruktur, data adalah blok bangunan baru dari perusahaan mana pun. Dari perusahaan besar hingga industri skala kecil, data adalah bahan bakar yang menggerakkan bisnis mereka. Data ini terkait dengan transaksi bisnis harian mereka, data pembelian pelanggan, data penjualan, grafik keuangan, statistik bisnis, kampanye pemasaran, dan banyak lagi. Itulah sebabnya Tim O'Reilly, pendiri O'Reilly Media mengatakan bahwa kita memasuki situasi di mana data akan menjadi lebih penting daripada perangkat lunak.

Tapi apa yang harus dilakukan dengan begitu banyak data? Perusahaan menggunakan data ini untuk memperoleh wawasan berharga tentang kinerja bisnis mereka. Mereka mempekerjakan ilmuwan data yang melakukan manipulasi data di R untuk memahami data ini. Misalnya, memahami data penjualan dan pemasaran selama setahun terakhir akan memberi mereka gambaran tentang di mana mereka berdiri. Sebuah studi baru-baru ini menunjukkan bahwa pasar analisis data diperkirakan akan bernilai $77,6 miliar pada tahun 2023.

Ilmuwan data dipekerjakan untuk memahami data ini dengan proses yang disebut manipulasi data.

Apa itu manipulasi data?

Manipulasi data adalah proses mengatur data untuk dibaca dan dipahami dengan lebih baik. Misalnya, pejabat perusahaan dapat memperoleh data pelanggan dari sistem dan buku catatan mereka. Sebagian besar, data ini akan disimpan dalam perangkat lunak CRM (Customer Relationship Management) dan lembar excel. Tapi itu mungkin tidak diatur dengan benar. Manipulasi data mencakup cara-cara untuk mengatur semua data ini, seperti menurut urutan abjad.

Data dapat diurutkan menurut tanggal, waktu, nomor seri atau bidang lainnya. Orang-orang di departemen akun perusahaan menggunakan data untuk menentukan tren penjualan, preferensi pengguna, statistik pasar, dan harga produk. Analis keuangan menggunakan data untuk memahami bagaimana kinerja pasar saham, tren dan saham terbaik di mana mereka harus berinvestasi.

Selanjutnya, data server web dapat digunakan untuk memahami berapa banyak lalu lintas yang dimiliki situs web. Di era teknologi ini, IoT merupakan contoh teknologi dimana data bersumber dari sensor yang terpasang pada mesin. Data ini digunakan untuk menentukan kinerja mesin, dan jika ada cacat. Manipulasi data sangat penting di IoT karena pasar akan bernilai $81,67 miliar pada tahun 2025.

Manipulasi data populer dilakukan dengan menggunakan bahasa pemrograman yang disebut R. Beri tahu kami bahasanya sedikit lebih baik.

Apa itu R?

Untuk memahami manipulasi data dalam R , Anda harus mengetahui dasar-dasar R. Ini adalah bahasa pemrograman modern yang digunakan untuk analisis data, komputasi statistik, dan kecerdasan buatan. Bahasa ini diciptakan pada tahun 1993 oleh Ross Ihaka dan Robert Gentleman . Saat ini, peneliti, analis data, ilmuwan, dan ahli statistik menggunakan R untuk menganalisis, membersihkan, dan memvisualisasikan data.

R memiliki katalog besar yang terdiri dari metode grafis dan statistik yang dapat mendukung pembelajaran mesin, regresi linier, inferensi statistik, dan deret waktu. Di bawah Lisensi Publik Umum GNU, bahasa ini tersedia secara bebas untuk sistem operasi seperti Windows, Mac, dan Linux. Ini ramah platform, yang berarti bahwa kode R yang ditulis pada satu platform dapat dengan mudah dieksekusi di platform lain.

R sekarang dianggap sebagai bahasa pemrograman utama untuk ilmu data. Tetapi ini adalah bahasa yang komprehensif karena Anda dapat menggunakannya untuk pengembangan perangkat lunak serta tugas-tugas rumit seperti pemodelan statistik. Anda dapat mengembangkan aplikasi web menggunakan paket Rshiny-nya.

Ini adalah bahasa yang sangat kuat sehingga beberapa perusahaan terbaik dunia seperti Google dan Facebook menggunakannya.

Mari kita periksa beberapa fitur terpenting dari R:

Ini memiliki CRAN (Comprehensive R Archive Network) yang merupakan repositori yang memiliki lebih dari 10.000 paket R, memiliki semua fungsi yang diperlukan untuk bekerja dengan data
Ini adalah bahasa pemrograman sumber terbuka . Ini berarti Anda dapat mengunduhnya secara gratis dan bahkan berkontribusi untuk pengembangannya, memperbarui fitur-fiturnya, dan menyesuaikan fungsionalitas yang ada
Anda dapat membuat visualisasi berkualitas tinggi dari data yang ada dari pustaka grafis R yang berguna seperti ggplot2 dan plotly
R adalah bahasa yang sangat cepat. Karena ini adalah bahasa pemrograman yang ditafsirkan , tidak ada persyaratan untuk kompiler untuk mengubah program R menjadi kode yang dapat dieksekusi, sehingga skrip R berjalan lebih cepat
R dapat melakukan berbagai perhitungan rumit dalam sekejap, terdiri dari array, frame data, dan vektor . Ada banyak operator untuk melakukan perhitungan ini
Ini menangani data terstruktur dan tidak terstruktur. Ekstensi untuk Big Data dan SQL tersedia untuk menangani semua jenis data
R memiliki komunitas yang terus berkembang yang memiliki pikiran paling cerdas. Orang-orang ini terus-menerus berkontribusi terhadap bahasa pemrograman dengan mengembangkan r perpustakaan dan pembaruan
Anda dapat dengan mudah mengintegrasikan R dengan bahasa pemrograman lain seperti Python, Java dan C++. Anda juga dapat menggabungkannya dengan Hadoop untuk komputasi terdistribusi

Sekarang setelah Anda mengumpulkan dasar-dasar bahasa pemrograman R, mari kita selami hal-hal yang menarik!

Variabel dalam R

Saat memprogram dalam R atau melakukan manipulasi data apa pun di R , Anda harus berurusan dengan variabel. Variabel digunakan untuk menyimpan data yang dapat berupa string, integer, floating point integer atau hanya nilai Boolean. Variabel-variabel ini memesan ruang di memori untuk isinya. Tidak seperti bahasa pemrograman tradisional, variabel dalam R ditetapkan bersama dengan objek R.

Variabel tidak memiliki tipe data, tetapi mendapatkan tipe objek R yang ditugaskan padanya. Objek R yang paling populer adalah:

Vektor
Daftar
Array
Matriks
Faktor
Bingkai data

Struktur data ini sangat penting untuk manipulasi data dalam R dan analisis data. Mari kita lihat lebih detail untuk memahami manipulasi data dasar:

Vektor

Mereka adalah struktur data paling dasar dan digunakan untuk data 1 dimensi. Jenis-jenis vektor atom adalah:

Bilangan bulat
Logis
numerik
Kompleks
Karakter

Saat Anda membuat nilai dalam R, itu menjadi vektor elemen tunggal dengan panjang 1. Misalnya,

cetak("ABC"); # vektor elemen tunggal dari karakter tipe

print(10.5) # vektor elemen tunggal bertipe ganda

Elemen dalam vektor diakses menggunakan nomor indeksnya. Posisi indeks dalam vektor mulai dari 1. Misalnya,

t <- c(“Senin”,”Selasa”,“Rabu”,“Sab”)

u <- t[c(1,2,3)]

cetak (u)

Hasilnya adalah “Senin” “Selasa” “Rabu”

Daftar

Ini adalah objek di R yang digunakan untuk menampung berbagai jenis elemen di dalamnya. Ini bisa berupa bilangan bulat, string, dan bahkan daftar. Jika data tidak dapat disimpan dalam bingkai data atau larik, ini adalah opsi terbaik. Daftar juga dapat menampung matriks. Anda dapat membuat daftar menggunakan metode list().

Gunakan kode berikut untuk membuat daftar:

list_data <- list(“Hitam”, “Hijau”, c(11,4,14), BENAR, 31,22, 120,5)

cetak(daftar_data)

Elemen daftar dapat diakses menggunakan indeks daftar.

print(list_data[1]) #kode mencetak elemen pertama dari daftar

Contoh manipulasi data dengan daftar:

list_data[4] <- NULL # kode ini menghapus elemen terakhir dari daftar jika memiliki 4 elemen

Baca: R vs Python untuk Ilmu Data

Array

Array adalah objek yang dapat digunakan untuk menyimpan hanya satu tipe data. Data lebih dari dua dimensi dapat disimpan dalam array. Untuk ini, Anda harus menggunakan fungsi array() yang mengambil vektor sebagai input. Ia menggunakan nilai dalam parameter redup untuk membuat larik.

Sebagai contoh, lihat kode berikut:

vector_result <- array(c(vektorA,vektorB),redup = c(3,3,2))

cetak(vektor_hasil)

Matriks

Dalam objek R ini, elemen diatur dalam tata letak 2 dimensi. Matriks menampung unsur-unsur dari jenis atom yang sama. Ini bermanfaat ketika elemen milik satu kelas. Matriks yang memiliki elemen numerik dibuat untuk perhitungan matematis. Anda dapat membuat matriks menggunakan fungsi matrix().

Sintaks dasar untuk membuat matriks diberikan di bawah ini:

matriks(data, nrow, ncol, byrow, dimnames)

Data – Ini adalah vektor input yang menjadi elemen data untuk matriks
Nrow – Ini adalah jumlah baris yang ingin Anda buat
Ncol – Ini adalah jumlah kolom yang ingin Anda buat
Byrow –Ini adalah petunjuk logis. Jika nilainya TRUE, maka elemen vektor akan disusun menurut baris
Dimname – Nama yang diberikan untuk kolom dan baris

Faktor

Objek R ini digunakan untuk mengkategorikan data dan menyimpannya sebagai level. Mereka bagus untuk pemodelan statistik dan analisis data. Baik bilangan bulat dan string dapat disimpan dalam faktor. Anda dapat menggunakan fungsi factor() untuk membuat faktor dengan menyediakan vektor sebagai input ke metode.

Bingkai data

Ini memiliki struktur dua dimensi seperti array yang memiliki baris dan kolom. Di sini, setiap baris memiliki serangkaian nilai yang dimiliki setiap kolom. Kolom berisi nilai satu variabel. Mereka digunakan untuk mewakili data dari spreadsheet. Ini dapat digunakan untuk menyimpan data tipe faktor, numerik atau karakter.

Sebuah bingkai data memiliki fitur-fitur berikut:

Nama baris harus unik
Nama kolom tidak boleh kosong
Jumlah item data di setiap kolom harus sama

Manipulasi data di R

Selama manipulasi data di R , langkah pertama adalah membuat sampel data kecil dari kumpulan data besar. Ini dilakukan karena seluruh kumpulan data tidak dapat dianalisis sekaligus. Biasanya, analis data membuat subset representatif dari dataset. Ini membantu mereka mengidentifikasi tren dan pola dalam kumpulan data yang lebih besar. Proses pengambilan sampel ini disebut juga subsetting .

Berbagai cara untuk membuat subset di R adalah sebagai berikut:

$ – Ini memilih satu elemen data dan hasilnya selalu berupa vektor

[[ – Operator subpengaturan ini juga mengembalikan satu elemen, tetapi Anda dapat merujuk ke elemen berdasarkan posisinya

[ – Operator ini digunakan untuk mengembalikan beberapa elemen data

Beberapa fungsi dasar manipulasi data di R adalah:

sampel() fungsi

Seperti namanya, metode sample() digunakan untuk membuat sampel data dari kumpulan data yang lebih besar. Bersamaan dengan perintah ini, Anda menyebutkan jumlah sampel yang ingin Anda ambil dari dataset atau vektor. Sintaks dasarnya adalah sebagai berikut:

sampel(x, ukuran, ganti = FALSE, prob = NULL)

x – Ini bisa berupa vektor atau kumpulan data dari beberapa elemen dari mana sampel harus dipilih

size – Ini adalah bilangan bulat positif yang menunjukkan jumlah item yang akan dipilih

ganti – Ini bisa Benar atau Salah, apakah Anda ingin pengambilan sampel dengan atau tanpa penggantian

prob – Ini adalah argumen yang digunakan untuk menyediakan vektor bobot untuk mendapatkan elemen vektor yang sedang disampel

Tabel() fungsi

Fungsi ini membuat tabel frekuensi yang digunakan untuk menghitung jumlah nilai unik dari variabel tertentu. Sebagai contoh, mari kita buat tabel frekuensi dengan kumpulan data iris:

tabel(iris$Spesies)

Kode yang ditulis di atas membuat tabel yang menggambarkan jenis spesies dalam kumpulan data iris.

digandakan()

Metode duplikat () digunakan untuk mengidentifikasi dan menghapus nilai duplikat dari kumpulan data. Dibutuhkan vektor atau bingkai data sebagai argumen dan mengembalikan True untuk elemen yang merupakan duplikat. Sebagai contoh,

digandakan(c(1,1,3))

Ini akan memeriksa elemen mana yang merupakan duplikat dan mengembalikan True atau False.

Baca juga : Pohon Keputusan dalam R

Manipulasi data di R menggunakan paket dplyr

R menyediakan paket sederhana dan mudah digunakan yang disebut dplyr untuk manipulasi data. Paket ini memiliki beberapa metode bawaan untuk manipulasi, eksplorasi data, dan transformasi. Mari kita lihat beberapa fungsi terpenting dari paket ini:

Pilih()

Metode select() adalah salah satu fungsi dasar untuk manipulasi data di R . Metode ini digunakan untuk memilih kolom di R. Dengan ini, Anda dapat memilih data dengan nama kolomnya. Kolom dapat dipilih berdasarkan kondisi tertentu. Misalkan kita ingin memilih kolom ke-3 dan ke-4 dari bingkai data yang disebut myData, kodenya adalah:

pilih(datasaya,3:4)

Saring()

Metode ini digunakan untuk memfilter baris kumpulan data yang cocok dengan kriteria tertentu. Ini dapat bekerja seperti pilih (), Anda melewati bingkai data terlebih dahulu dan kemudian kondisi dipisahkan menggunakan koma.

Misalnya, jika Anda ingin memfilter kolom yang memiliki mobil berwarna merah dalam kumpulan data, Anda harus menulis:

filter(mobil, warna==”Merah”)

Akibatnya, baris yang cocok akan ditampilkan.

mengubah()

Anda dapat menggunakan metode mutate() untuk membuat kolom baru dalam kumpulan data sambil mempertahankan yang lama. Kolom ini dapat dibuat dengan menentukan kondisi. Sebagai contoh,

mutate(mtcars, mtcars_new_col = mpg / silinder)

Dalam perintah ini, dalam kumpulan data mtcars, kolom baru dibuat mtcars_new_col yang berisi nilai kolom mpg dibagi dengan kolom silinder.

mengatur()

Ini digunakan untuk mengurutkan baris dalam urutan menaik atau menurun, menggunakan satu atau lebih variabel. Alih-alih menerapkan metode desc(), Anda dapat menambahkan simbol minus (-) sebelum variabel pengurutan. Ini akan menunjukkan urutan penyortiran. Sebagai contoh,

susun(set_data saya, -Sepal.Panjang)

grup_oleh()

Metode group_by() digunakan untuk mengelompokkan pengamatan dalam kumpulan data dengan satu atau beberapa variabel.

meringkaskan()

Fungsi summarise() bermanfaat untuk menentukan wawasan data seperti mean, median, dan mode. Ini digunakan bersama dengan data yang dikelompokkan yang dibuat oleh metode lain group_by. summarise() membantu mengurangi beberapa nilai menjadi satu.

menggabungkan()

Metode merge() menggabungkan atau menggabungkan kumpulan data menjadi satu. Ini berguna untuk menyatukan berbagai sumber data input bersama-sama.

Metode ini menawarkan 4 cara untuk menggabungkan kumpulan data . Mereka disebutkan di bawah ini:

Gabung alami – Ini digunakan untuk menjaga baris yang cocok dengan kondisi yang ditentukan dalam bingkai data
Gabung luar penuh – Ini menggabungkan dan menyimpan semua baris dari kedua bingkai data
Gabung luar kiri – Ini menyimpan semua baris dari bingkai data A, dan yang ada di B yang cocok
Gabung luar kanan – Ini menyimpan semua baris dari bingkai data B, dan yang ada di A yang cocok

ganti nama_if()

Ini adalah fungsi yang dapat Anda gunakan untuk mengganti nama kolom bingkai data saat kondisi yang ditentukan terpenuhi.

ganti nama_semua()

Ini digunakan untuk mengganti nama semua kolom bingkai data tanpa menentukan kondisi apa pun.

Dapatkan kursus ilmu data dari Universitas top dunia. Bergabunglah dengan Program PG Eksekutif, Program Sertifikat Tingkat Lanjut, atau Program Magister kami untuk mempercepat karir Anda.

Operator pipa

Operator pipa tersedia dalam paket seperti magrittr dan dplyr untuk menyederhanakan kode Anda secara keseluruhan. Operator memungkinkan Anda menggabungkan beberapa fungsi bersama-sama. Dilambangkan dengan simbol %>%, dapat digunakan dengan metode populer seperti summarise(), filter(), select() dan group_by() saat manipulasi data di R.

Selain dplyr, ada banyak paket lain di CRAN untuk manipulasi data di R . Bahkan, Anda akan menemukan lebih dari 7000 paket untuk mengurangi coding Anda dan juga kesalahan Anda. Banyak dari paket ini dibuat oleh pengembang ahli, jadi Anda berada di tangan yang aman. Ini termasuk:

tabel data
melumasi
ggplot2
pembaca
membentuk kembali2
lebih rapi

Kesimpulan

Jika Anda seorang pemula dalam manipulasi data di R , Anda dapat menggunakan fungsi dasar bawaan yang tersedia di R. Ini termasuk metode seperti with(), within(), Duplicated(), cut(), table(), sampel() dan mengurutkan(). Tapi mereka memakan waktu dan berulang-ulang. Ini bukan pilihan yang sangat efisien.

Jadi, cara terbaik untuk maju adalah dengan menggunakan sejumlah besar paket di CRAN seperti dplyr. Ini sangat berguna dan membuat program Anda lebih efisien.

Paket mana yang berguna untuk manipulasi data di R?

Proses manipulasi data digunakan untuk memodifikasi data yang tersedia dan membuatnya lebih mudah dibaca serta membuatnya lebih terorganisir. Seringkali ada banyak kesalahan dan ketidakakuratan oleh mesin yang telah mengumpulkan data. Manipulasi data memungkinkan Anda untuk menghapus ketidakakuratan tersebut dan memberikan data yang lebih akurat.

Ada banyak cara untuk melakukan manipulasi data di R, seperti menggunakan Packages seperti ggplot2, readr, dplyr, dll. dan dengan menggunakan fungsi Base R seperti within(), with(), dll. Namun, paket dplyr dianggap sangat berguna untuk manipulasi data di R. Paket ini terdiri dari berbagai fungsi yang telah dibuat khusus untuk manipulasi data, dan memungkinkan data diproses lebih cepat dibandingkan dengan metode dan paket lainnya.

Apa tujuan dari paket dplyr di R?

Paket dplyr dikenal sebagai yang terbaik untuk manipulasi data di R dengan efisiensi maksimum. Sebelumnya, ada paket yang disebut plyr, dan yang telah diulang untuk membentuk dplyr. Sekarang, dplyr sepenuhnya berfokus pada bingkai data. Inilah sebabnya mengapa ini jauh lebih cepat, memiliki API yang lebih baik dan konsisten, dan juga cukup mudah digunakan.

Paket dplyr berfungsi untuk mendapatkan hasil maksimal dari data yang tersedia dengan kinerja yang ditingkatkan dibandingkan dengan paket manipulasi data lainnya di R.

Bagaimana Anda bisa memanipulasi data?

Untuk melakukan manipulasi data, Anda perlu melakukan langkah-langkah tertentu dalam urutan umum. Ikuti langkah-langkah di bawah ini:

1. Pertama, Anda memerlukan database yang telah dibuat dari sumber data.
2. Selanjutnya, Anda perlu membersihkan, mengatur ulang, dan merestrukturisasi data yang tersedia dengan manipulasi data.
3. Sekarang, Anda harus mengembangkan database yang akan Anda kerjakan.
4. Di sini, Anda dapat menggabungkan, menghapus, dan mengubah informasi yang tersedia.
5. Terakhir, analisis data yang tersedia dan hasilkan informasi yang berguna darinya.