Teknik Pembersihan Data: Pelajari Cara Sederhana & Efektif Untuk Membersihkan Data
Diterbitkan: 2020-01-26Pembersihan data adalah bagian penting dari ilmu data. Bekerja dengan data yang tidak murni dapat menyebabkan banyak kesulitan. Dan hari ini, kita akan membahas hal yang sama.
Anda akan mengetahui mengapa pembersihan data sangat penting, faktor apa yang memengaruhi kualitas data Anda, dan bagaimana Anda dapat membersihkan data yang Anda miliki. Ini adalah panduan terperinci, jadi pastikan Anda menandainya untuk referensi di masa mendatang.
Mari kita mulai.
Daftar isi
Mengapa Pembersihan Data Diperlukan
Pembersihan data mungkin tampak membosankan dan tidak menarik, tetapi ini adalah salah satu tugas terpenting yang harus Anda lakukan sebagai profesional ilmu data. Memiliki data yang salah atau berkualitas buruk dapat merusak proses dan analisis Anda. Data yang buruk dapat menyebabkan algoritme bintang gagal.
Di sisi lain, data berkualitas tinggi dapat menyebabkan algoritme sederhana memberi Anda hasil yang luar biasa. Ada banyak teknik pembersihan data, dan Anda harus mengenalnya untuk meningkatkan kualitas data Anda. Tidak semua data berguna. Jadi itulah faktor utama lain yang mempengaruhi kualitas data Anda.
Baca: Analisis Cluster di R
Misalnya, perusahaan Anda memiliki daftar alamat karyawan. Sekarang, jika data Anda juga menyertakan beberapa alamat klien Anda, bukankah itu akan merusak daftar? Dan bukankah usaha Anda untuk menganalisis daftar tersebut akan sia-sia? Di pasar yang didukung data ini, mempelajari ilmu data untuk meningkatkan keputusan bisnis Anda sangat penting.
Ada banyak alasan mengapa pembersihan data sangat penting. Beberapa dari mereka terdaftar di bawah ini:
Efisiensi
Memiliki data yang bersih (bebas dari nilai yang salah dan tidak konsisten) dapat membantu Anda melakukan analisis lebih cepat. Anda akan menghemat banyak waktu dengan melakukan tugas ini sebelumnya. Saat Anda membersihkan data sebelum menggunakannya, Anda akan dapat menghindari banyak kesalahan. Jika Anda menggunakan data yang berisi nilai salah, hasil Anda tidak akan akurat.
Dan kemungkinan besar, Anda harus mengulang seluruh tugas lagi, yang dapat menyebabkan banyak waktu terbuang. Jika Anda memilih untuk membersihkan data Anda sebelum menggunakannya, Anda dapat menghasilkan hasil lebih cepat dan menghindari mengulang seluruh tugas lagi.
Margin Kesalahan
Ketika Anda tidak menggunakan data yang akurat untuk analisis, Anda pasti akan membuat kesalahan. Misalkan, Anda memiliki banyak usaha dan waktu untuk menganalisis sekelompok kumpulan data tertentu. Anda sangat ingin menunjukkan hasilnya kepada atasan Anda, tetapi dalam pertemuan tersebut, atasan Anda menunjukkan beberapa kesalahan yang membuat situasi menjadi agak memalukan dan menyakitkan.
Tidakkah Anda ingin menghindari kesalahan seperti itu terjadi? Mereka tidak hanya menyebabkan rasa malu, tetapi mereka juga membuang-buang sumber daya. Pembersihan data membantu Anda dalam hal itu, ini adalah praktik yang tersebar luas, dan Anda harus mempelajari metode yang digunakan untuk membersihkan data.
Menggunakan algoritme sederhana dengan data bersih jauh lebih baik daripada menggunakan algoritma lanjutan dengan data tidak bersih.
Menentukan Kualitas Data
Apakah Datanya Valid? (Keabsahan)
Validitas data Anda adalah sejauh mana ia mengikuti aturan persyaratan khusus Anda. Misalnya, Anda cara mengimpor nomor telepon pelanggan yang berbeda, tetapi di beberapa tempat, Anda menambahkan alamat email dalam data. Sekarang karena kebutuhan Anda secara eksplisit untuk nomor telepon, alamat email akan menjadi tidak valid.
Kesalahan validitas terjadi ketika metode input tidak diperiksa dengan benar. Anda mungkin menggunakan spreadsheet untuk mengumpulkan data Anda. Dan Anda mungkin memasukkan informasi yang salah di sel spreadsheet.
Ada beberapa jenis batasan yang harus dipenuhi oleh data Anda agar valid. Di sini mereka:
Jarak:
Beberapa jenis angka harus berada dalam kisaran tertentu. Misalnya, jumlah produk yang dapat Anda angkut dalam sehari harus memiliki nilai minimum dan maksimum. Pasti akan ada kisaran tertentu untuk data. Akan ada titik awal dan titik akhir.
Tipe data:
Beberapa sel data mungkin memerlukan jenis data tertentu, seperti numerik, Boolean, dll. Misalnya, di bagian Boolean, Anda tidak akan menambahkan nilai numerik.
Batasan wajib:
Dalam setiap skenario, ada beberapa batasan wajib yang harus diikuti oleh data Anda. Pembatasan wajib tergantung pada kebutuhan spesifik Anda. Tentunya, kolom tertentu dari data Anda tidak boleh kosong. Misalnya, dalam daftar nama klien Anda, kolom 'nama' wajib diisi.
Pemeriksaan lintas lapangan:
Ada kondisi tertentu yang mempengaruhi beberapa bidang data dalam bentuk tertentu. Misalkan waktu keberangkatan penerbangan tidak bisa lebih awal dari kedatangannya. Dalam neraca, jumlah debit dan kredit klien harus sama. Tidak boleh berbeda.
Nilai-nilai ini terkait satu sama lain, dan itulah mengapa Anda mungkin perlu melakukan pemeriksaan lintas lapangan.
Persyaratan Unik:
Jenis data tertentu memiliki batasan unik. Dua pelanggan tidak dapat memiliki tiket dukungan pelanggan yang sama. Jenis data seperti itu harus unik untuk bidang tertentu dan tidak dapat dibagikan oleh banyak bidang.
Batasan Set-Keanggotaan:
Beberapa nilai dibatasi untuk set tertentu. Seperti, jenis kelamin bisa Pria, Wanita atau Tidak Diketahui.
Pola Reguler:
Beberapa bagian data mengikuti format tertentu. Misalnya, alamat email memiliki format '[email protected]'. Demikian pula, nomor telepon memiliki sepuluh digit.
Jika data tidak dalam format yang diperlukan, itu juga tidak valid.
Jika seseorang menghilangkan '@' saat memasukkan alamat email, maka alamat email tersebut tidak valid, bukan? Memeriksa validitas data Anda adalah langkah pertama untuk menentukan kualitasnya. Sebagian besar waktu, penyebab masuknya informasi yang tidak valid adalah kesalahan manusia.
Menyingkirkannya akan membantu Anda dalam merampingkan proses Anda dan menghindari nilai data yang tidak berguna sebelumnya.
Ketepatan
Sekarang setelah Anda mengetahui bahwa sebagian besar data yang Anda miliki valid, Anda harus fokus untuk menetapkan keakuratannya. Meski datanya valid, bukan berarti datanya akurat. Dan menentukan akurasi membantu Anda mengetahui apakah data yang Anda masukkan akurat atau tidak.
Alamat klien bisa dalam format yang tepat, tetapi tidak harus dalam format yang benar. Mungkin email tersebut memiliki tambahan digit atau karakter yang membuatnya salah. Contoh lain adalah nomor telepon pelanggan.
Baca: API Pembelajaran Mesin Teratas untuk Ilmu Data
Jika nomor telepon memiliki semua digit, itu adalah nilai yang valid. Tapi itu tidak berarti itu benar. Ketika Anda memiliki definisi untuk nilai yang valid, mencari tahu yang tidak valid itu mudah. Tapi itu tidak membantu dengan memeriksa keakuratan yang sama. Memeriksa keakuratan nilai data Anda mengharuskan Anda menggunakan sumber pihak ketiga.
Ini berarti Anda harus mengandalkan sumber data yang berbeda dari yang Anda gunakan saat ini. Anda harus memeriksa silang data Anda untuk mengetahui apakah itu akurat atau tidak. Teknik pembersihan data tidak memiliki banyak solusi untuk memeriksa keakuratan nilai data.
Namun, bergantung pada jenis data yang Anda gunakan, Anda mungkin dapat menemukan sumber daya yang dapat membantu Anda dalam hal ini. Anda seharusnya tidak mengacaukan akurasi dengan presisi .
Akurasi vs Presisi
Sementara akurasi bergantung pada penetapan apakah data yang Anda masukkan benar atau tidak, presisi mengharuskan Anda untuk memberikan lebih banyak detail tentang hal yang sama. Pelanggan mungkin memasukkan nama depan di bidang data Anda. Tetapi jika tidak ada nama belakang, akan lebih sulit untuk lebih tepatnya.
Contoh lain dapat berupa alamat. Misalkan Anda bertanya kepada seseorang di mana dia tinggal. Mereka mungkin mengatakan bahwa mereka tinggal di London. Itu bisa jadi benar. Namun, itu bukan jawaban yang tepat karena Anda tidak tahu di mana mereka tinggal di London.
Jawaban yang tepat adalah memberi Anda alamat jalan.
Kelengkapan
Hampir tidak mungkin untuk memiliki semua informasi yang Anda butuhkan. Kelengkapan adalah sejauh mana Anda mengetahui semua nilai yang diperlukan. Kelengkapan sedikit lebih menantang untuk dicapai daripada akurasi atau validitas. Itu karena Anda tidak dapat mengasumsikan nilai. Anda hanya perlu memasukkan fakta yang diketahui.
Anda dapat mencoba untuk melengkapi data Anda dengan mengulangi kegiatan pengumpulan data (mendekati klien lagi, mewawancarai kembali orang, dll.). Tapi itu tidak berarti Anda bisa melengkapi data Anda secara menyeluruh.
Misalkan Anda mewawancarai kembali orang-orang untuk mendapatkan data yang Anda butuhkan tadi. Sekarang, skenario ini memiliki masalah mengingat. Jika Anda menanyakan pertanyaan yang sama lagi, kemungkinan besar, mereka mungkin tidak ingat apa yang telah mereka jawab sebelumnya. Ini dapat menyebabkan mereka, memberi Anda jawaban yang salah.
Anda mungkin bertanya padanya buku apa yang mereka baca lima bulan lalu. Dan mereka mungkin tidak ingat. Demikian pula, Anda mungkin perlu memasukkan informasi kontak setiap pelanggan. Tetapi beberapa dari mereka mungkin tidak memiliki alamat email. Dalam hal ini, Anda harus membiarkan kolom tersebut kosong.
Jika Anda memiliki sistem yang mengharuskan Anda untuk mengisi semua kolom, Anda dapat mencoba memasukkan 'missing' atau 'unknown' di sana. Tetapi memasukkan nilai seperti itu tidak berarti datanya lengkap. Itu masih akan disebut sebagai tidak lengkap.
Konsistensi
Di samping kelengkapan, ada konsistensi. Anda dapat mengukur konsistensi dengan membandingkan dua sistem yang serupa. Atau, Anda dapat memeriksa nilai data dalam kumpulan data yang sama untuk melihat apakah nilai tersebut konsisten atau tidak. Konsistensi bisa bersifat relasional. Misalnya, usia pelanggan mungkin 15, yang merupakan nilai yang valid dan akurat, tetapi mereka juga dapat dinyatakan sebagai warga negara senior dalam sistem yang sama.

Dalam kasus seperti itu, Anda harus memeriksa silang data, serupa dengan mengukur akurasi, dan melihat nilai mana yang benar. Apakah klien berusia 15 tahun? Atau apakah kliennya adalah warga negara senior? Hanya satu dari nilai-nilai ini yang benar.
Ada beberapa cara untuk membuat data Anda konsisten.
Periksa sistem yang berbeda:
Anda dapat melihat sistem serupa lainnya untuk mengetahui apakah nilai yang Anda miliki nyata atau tidak. Jika dua sistem Anda bertentangan satu sama lain, mungkin membantu untuk memeriksa yang ketiga.
Dalam contoh kami sebelumnya, misalkan Anda memeriksa sistem ketiga dan menemukan usia pelanggan adalah 65 tahun . Ini menunjukkan bahwa sistem kedua, yang mengatakan pelanggan adalah warga negara senior, akan berlaku.
Cek data terbaru:
Cara lain untuk meningkatkan konsistensi data Anda adalah dengan memeriksa nilai yang lebih baru. Ini bisa lebih bermanfaat bagi Anda dalam skenario tertentu. Anda mungkin memiliki dua nomor kontak yang berbeda untuk pelanggan dalam catatan Anda. Yang terbaru mungkin akan lebih dapat diandalkan karena mungkin saja pelanggan beralih nomor.
Periksa sumbernya:
Cara paling mudah untuk memeriksa keandalan data adalah dengan menghubungi sumbernya secara sederhana. Dalam contoh usia pelanggan kami, Anda dapat memilih untuk menghubungi pelanggan secara langsung dan menanyakan usia mereka. Namun, itu tidak mungkin dalam setiap skenario dan menghubungi sumber secara langsung bisa sangat rumit. Mungkin pelanggan tidak merespons, atau informasi kontak mereka tidak tersedia.
Keseragaman
Anda harus memastikan bahwa semua nilai yang Anda masukkan dalam kumpulan data Anda berada dalam unit yang sama. Jika Anda memasukkan satuan SI untuk pengukuran, Anda tidak dapat menggunakan sistem Imperial di beberapa tempat. Di sisi lain, jika di satu tempat Anda telah memasukkan waktu dalam hitungan detik, maka Anda harus memasukkannya dalam format ini di seluruh kumpulan data.
Baca: SQL untuk Ilmu Data
Memeriksa keseragaman catatan Anda cukup mudah. Inspeksi sederhana dapat mengungkapkan apakah nilai tertentu dalam unit yang diperlukan atau tidak. Unit yang Anda gunakan untuk memasukkan data Anda bergantung pada kebutuhan spesifik Anda.
Teknik Pembersihan Data
Pilihan teknik pembersihan data Anda bergantung pada banyak faktor. Pertama, jenis data apa yang Anda hadapi? Apakah itu nilai numerik atau string? Kecuali Anda memiliki terlalu sedikit nilai untuk ditangani, Anda seharusnya tidak berharap untuk membersihkan data Anda hanya dengan satu teknik juga.
Anda mungkin perlu menggunakan beberapa teknik untuk hasil yang lebih baik. Semakin banyak tipe data yang harus Anda tangani, semakin banyak teknik pembersihan yang harus Anda gunakan. Menjadi akrab dengan semua metode ini akan membantu Anda dalam memperbaiki kesalahan dan menyingkirkan data yang tidak berguna.
1. Hapus Nilai yang Tidak Relevan
Hal pertama dan terpenting yang harus Anda lakukan adalah menghapus bagian data yang tidak berguna dari sistem Anda. Data yang tidak berguna atau tidak relevan adalah yang tidak Anda butuhkan. Ini mungkin tidak sesuai dengan konteks masalah Anda.
Anda mungkin hanya perlu mengukur usia rata-rata staf penjualan Anda. Maka alamat email mereka tidak akan diperlukan. Contoh lain adalah Anda mungkin memeriksa untuk melihat berapa banyak pelanggan yang Anda hubungi dalam sebulan. Dalam hal ini, Anda tidak memerlukan data orang yang Anda jangkau di bulan sebelumnya.
Namun, sebelum Anda menghapus bagian data tertentu, pastikan data tersebut tidak relevan karena Anda mungkin memerlukannya untuk memeriksa nilai korelasinya nanti (untuk memeriksa konsistensi). Dan jika Anda bisa mendapatkan pendapat kedua dari pakar yang lebih berpengalaman sebelum menghapus data, jangan ragu untuk melakukannya.
Anda tidak ingin menghapus beberapa nilai dan menyesali keputusannya nanti. Tapi begitu Anda yakin bahwa data itu tidak relevan, singkirkan itu.
2. Singkirkan Nilai Duplikat
Duplikat mirip dengan nilai yang tidak berguna – Anda tidak membutuhkannya. Mereka hanya meningkatkan jumlah data yang Anda miliki dan membuang waktu Anda. Anda dapat menyingkirkannya dengan pencarian sederhana. Nilai duplikat mungkin ada di sistem Anda karena beberapa alasan.
Mungkin Anda menggabungkan data dari berbagai sumber. Atau, mungkin orang yang mengirimkan data salah mengulang nilai. Beberapa pengguna mengklik dua kali pada 'enter' ketika mereka mengisi formulir online. Anda harus menghapus duplikat segera setelah Anda menemukannya.
3. Hindari Typo (dan kesalahan serupa)
Typo adalah hasil dari kesalahan manusia dan dapat hadir di mana saja. Anda dapat memperbaiki kesalahan ketik melalui beberapa algoritme dan teknik. Anda dapat memetakan nilai dan mengubahnya menjadi ejaan yang benar. Kesalahan ketik sangat penting untuk diperbaiki karena model memperlakukan nilai yang berbeda secara berbeda. String sangat bergantung pada ejaan dan kasusnya.
'George' berbeda dengan 'george' meskipun ejaannya sama. Demikian pula 'Mike' dan 'Mice' berbeda satu sama lain, meskipun mereka memiliki jumlah karakter yang sama. Anda harus mencari kesalahan ketik seperti ini dan memperbaikinya dengan tepat.
Kesalahan lain yang mirip dengan kesalahan ketik adalah ukuran string. Anda mungkin perlu melapisinya agar tetap dalam format yang sama. Misalnya, kumpulan data Anda mungkin mengharuskan Anda memiliki angka 5 digit saja. Jadi, jika Anda memiliki nilai yang hanya memiliki empat digit seperti '3994', Anda dapat menambahkan nol di awal untuk menambah jumlah digitnya.
Nilainya akan tetap sama dengan '03994', tetapi data Anda akan tetap seragam. Kesalahan tambahan dengan string adalah spasi putih. Pastikan Anda menghapusnya dari string Anda agar tetap konsisten.
4. Konversi Tipe Data
Tipe data harus seragam di seluruh kumpulan data Anda. Sebuah string tidak bisa numerik atau numerik bisa menjadi boolean. Ada beberapa hal yang harus Anda ingat dalam mengonversi tipe data:
- Pertahankan nilai numerik sebagai angka
- Periksa apakah numerik adalah string atau bukan. Jika Anda memasukkannya sebagai string, itu akan salah.
- Jika Anda tidak dapat mengonversi nilai data tertentu, Anda harus memasukkan 'nilai NA' atau semacamnya. Pastikan Anda menambahkan peringatan juga untuk menunjukkan bahwa nilai khusus ini salah.
5. Jaga Nilai-Nilai yang Hilang
Akan selalu ada bagian data yang hilang. Anda tidak bisa menghindarinya. Jadi, Anda harus tahu cara menanganinya agar data Anda tetap bersih dan bebas dari kesalahan. Kolom tertentu dalam kumpulan data Anda mungkin memiliki terlalu banyak nilai yang hilang. Dalam hal ini, sebaiknya singkirkan seluruh kolom karena tidak memiliki cukup data untuk digunakan.
Hal yang perlu diperhatikan: Anda tidak boleh mengabaikan nilai yang hilang.
Mengabaikan nilai yang hilang bisa menjadi kesalahan yang signifikan karena akan mencemari data Anda, dan Anda tidak akan mendapatkan hasil yang akurat. Ada beberapa cara untuk menangani nilai-nilai yang hilang.
Menghitung Nilai yang Hilang:
Anda dapat menghitung nilai yang hilang, yang berarti, dengan asumsi nilai perkiraan. Anda dapat menggunakan regresi linier atau median untuk menghitung nilai yang hilang. Namun, metode ini memiliki implikasinya karena Anda tidak dapat memastikan apakah itu akan menjadi nilai sebenarnya.
Metode lain untuk menghitung nilai yang hilang adalah dengan menyalin data dari kumpulan data yang serupa. Metode ini disebut 'imputasi Hot-deck'. Anda menambahkan nilai dalam catatan Anda saat ini sambil mempertimbangkan beberapa batasan seperti tipe data dan rentang.
Menyoroti Nilai yang Hilang:
Imputasi tidak selalu merupakan ukuran terbaik untuk menangani nilai-nilai yang hilang. Banyak ahli berpendapat bahwa itu hanya mengarah pada hasil yang lebih beragam karena tidak 'nyata'. Jadi, Anda dapat mengambil pendekatan lain dan memberi tahu model bahwa datanya hilang. Memberi tahu model (atau algoritme) bahwa nilai spesifik tidak tersedia dapat menjadi informasi juga.
Jika alasan acak tidak bertanggung jawab atas nilai Anda yang hilang, akan bermanfaat untuk menyorot atau menandainya. Misalnya, catatan Anda mungkin tidak memiliki banyak jawaban untuk pertanyaan spesifik dari survei Anda karena pelanggan Anda tidak ingin menjawabnya sejak awal.
Jika nilai yang hilang adalah numerik, Anda dapat menggunakan 0. Pastikan saja Anda mengabaikan nilai-nilai ini selama analisis statistik. Di sisi lain, jika nilai yang hilang adalah nilai kategoris, Anda dapat mengisi 'hilang'.
Ringkasan
Kami harap Anda menikmati langkah-langkah terperinci kami tentang teknik pembersihan data. Tidak diragukan lagi ada banyak hal yang harus dipelajari.
Pelajari lebih lanjut tentang perselisihan data dari video webinar kami di bawah ini.
Jika Anda memiliki pertanyaan tentang pembersihan data, jangan ragu untuk bertanya kepada ahli kami.
Jika Anda penasaran untuk belajar tentang ilmu data, lihat Program PG Eksekutif IIIT-B & upGrad dalam Ilmu Data yang dibuat untuk para profesional yang bekerja dan menawarkan 10+ studi kasus & proyek, lokakarya praktis, bimbingan dengan pakar industri, 1 -on-1 dengan mentor industri, 400+ jam pembelajaran dan bantuan pekerjaan dengan perusahaan-perusahaan top.
Mengapa inkonsistensi dalam data menjadi masalah?
Ketika potongan data yang sama muncul di beberapa tempat, terjadi redundansi data, sedangkan inkonsistensi data terjadi ketika data yang sama muncul di beberapa tabel dalam bentuk yang berbeda. Sayangnya, redundansi data dapat menyebabkan inkonsistensi data, menghasilkan data yang tidak akurat dan/atau tidak berguna bagi perusahaan. Mereka tidak dapat mengantisipasi penjualan dengan baik untuk mengoptimalkan prosedur manajemen persediaan dan distribusi; mereka tidak dapat mendeteksi masalah manufaktur atau rantai pasokan untuk meminimalkan pembengkakan biaya dan penundaan; dan mereka tidak dapat menilai minat pelanggan pada produk baru untuk mengubah desain atau kampanye pemasaran.
Seberapa sering data Anda harus dibersihkan?
Frekuensi Anda harus membersihkan data Anda sepenuhnya bergantung pada kebutuhan bisnis Anda. Perusahaan besar akan memperoleh banyak data dengan cepat, sehingga pembersihan data mungkin diperlukan setiap tiga hingga enam bulan. Disarankan agar perusahaan yang lebih kecil dengan sedikit data membersihkan data mereka setidaknya setahun sekali. Sebaiknya rencanakan pembersihan data jika Anda pernah menduga bahwa data kotor menghabiskan uang Anda atau berdampak negatif pada produktivitas, efisiensi, atau wawasan Anda.
Apakah Tableau cocok untuk pembersihan data?
Tableau Prep hadir dengan sejumlah prosedur pembersihan yang dapat Anda gunakan untuk segera membersihkan dan membentuk data Anda. Membersihkan data kotor mempermudah integrasi dan analisis data Anda, serta agar orang lain memahami data Anda saat Anda membagikannya.