Manipulasi Data: Bagaimana Anda Dapat Menemukan Kebohongan Data?

Diterbitkan: 2017-10-24

Daftar isi

Pencarian Google untuk 'gaji ilmuwan data rata-rata di India' akan memberikan hasil yang menggembirakan.

Apakah ini berarti setiap orang yang ingin memasuki bidang eksotis ini dapat mengharapkan gaji ini? Kenapa tidak? Apa yang salah dengan mengharapkan untuk mendapatkan jumlah yang diklaim oleh situs web terkenal? Lagi pula, situs web ini mungkin telah melakukan beberapa penelitian ekstensif untuk sampai pada nomor ini. Namun, mengambil keputusan berdasarkan klaim ini saja bukanlah ide yang baik. Tapi kenapa? Baca terus!

Apa yang dimaksud dengan "rata-rata" dalam pencarian Google di atas? Rata-rata datang dalam rasa yang berbeda. Ini adalah mean, median, dan modus. Rata-rata mana yang dimaksud dengan “rata-rata nasional” ini? Jika itu rata-rata, apa yang dapat Anda simpulkan darinya? Periksa hasil dari situs web lain.

Di sini dikatakan, “Pengalaman sangat mempengaruhi pendapatan untuk pekerjaan ini”.

Mengapa ini penting?

Seseorang dengan pengalaman yang kaya mungkin mendapatkan penghasilan yang lebih baik daripada seseorang yang tidak memiliki pengalaman. Seseorang yang lulus dari institut terkenal bisa menghasilkan lebih dari seseorang yang belajar sendiri. Ada kemungkinan yang adil bahwa seseorang dapat menaikkan gajinya dalam survei untuk meningkatkan statusnya. Atau, seseorang bisa mengecilkan gajinya karena alasan lain seperti pajak. Dalam skenario seperti itu, menggunakan mean tidak tepat.

Jika Anda menghitung rata-rata gaji tersebut, beberapa outlier akan memiliki efek yang tidak semestinya pada rata-rata yang diperoleh. Mereka akan menarik mean ke atas. Dalam kasus seperti itu, median adalah perwakilan yang sebenarnya. Ini akan menunjukkan jumlah orang yang sama yang mendapatkan jumlah di bawah dan di atasnya.

Di masa depan, jika Anda menemukan kata 'rata-rata' di mana saja, carilah informasi yang menguatkan. Periksa apakah penulis mengacu pada mean, median, atau modus. Periksa interval kepercayaan dan tingkat signifikansi. Jika ini tidak ditemukan, maka ada cukup alasan untuk bersikap skeptis.

Peran dan Gaji Big Data di Industri Keuangan

Katakanlah, suatu dukungan menentukan jenis rata-rata. Bisakah Anda menganggapnya mutlak? Tidak? Kenapa tidak?

Mari kembali ke pernyataan awal tentang gaji rata-rata ilmuwan data. Pernyataan itu mengklaim berasal dari sampel 303 gaji. Tepat satu hari yang lalu, angka ini adalah 12. Apakah ini contoh yang bisa Anda percaya?

Untuk melakukan survei atau eksperimen, sampel harus benar-benar mewakili populasi yang mendasarinya. Ukuran sampel harus cukup besar untuk menarik kesimpulan tentang populasi dengan percaya diri.
Saya sedang menonton beberapa ceramah Profesor Starbird tentang statistik. Saya mengetahui bahwa bertahun-tahun yang lalu, sebuah surat kabar melakukan survei tentang pemilihan presiden di AS. Surat kabar ini mengirimkan kuesioner, menganalisisnya, dan menerbitkan hasil bahwa kandidat tertentu akan menang. Setelah pemilu, hasilnya adalah kebalikan dari apa yang diperkirakan koran. Kandidat yang diprediksi oleh surat kabar kalah dengan selisih yang tinggi. Selanjutnya, surat kabar itu menganalisis di mana letak kesalahannya.

Manajemen surat kabar tersebut menemukan bahwa mereka hanya mengirimkan kuesioner kepada pelanggannya yang kaya. Terbukti, mereka tidak mewakili seluruh populasi. Akibatnya, prediksi berdasarkan sampel yang bias ini menjadi sumber aib bagi surat kabar.

Anda dapat menyimpulkan hasil apa pun yang ingin Anda lihat dengan mengambil sampel yang sangat kecil! Sebagai contoh yang sangat mendasar, jika Anda melempar koin 10 kali, apakah Anda mendapatkan kepala lima kali dan ekor lima kali? Anda bisa mendapatkan tujuh kepala berturut-turut, dan mungkin inilah hasil yang Anda inginkan. 'Hukum rata-rata' hanya akan bekerja (yaitu setengah kepala, setengah ekor) ketika percobaan melempar koin ini dilakukan berkali-kali. Dalam jangka pendek, hasil apa pun mungkin terjadi.

Jika Anda tidak melihat informasi tentang ukuran sampel beserta jenis rata-ratanya, ini patut dikhawatirkan. Jika ukuran sampel cukup dan mewakili populasi yang sebenarnya, maka tidak perlu menyembunyikannya.

Seni Statistik Data Sciences UpGrad Blog
Sebuah laporan menyatakan bahwa di perguruan tinggi tertentu 33% dari profesor laki-laki menikahi siswa perempuan mereka.

Kami harus sangat berhati-hati dengan persentase. Jika persentase tidak disertai dengan angka sebenarnya, mereka mungkin menyesatkan. Di perguruan tinggi yang disebutkan di atas, ternyata hanya tiga wanita yang belajar di sana, dan hanya satu yang menikah dengan seorang profesor. Satu dari tiga menghasilkan 33%. Selalu periksa apakah persentase disertai dengan angka sebenarnya. Jika tidak, maka ada alasan untuk khawatir.

Kekeliruan besar lainnya dalam statistik adalah membingungkan korelasi dengan sebab-akibat. Jika dua item berkorelasi, maka asumsi bahwa yang satu menyebabkan yang lain, salah.
Pada kelompok masyarakat Aborigin, keberadaan kutu pada tubuh dianggap aman. Jika seseorang mengalami demam pada suku tersebut, diamati bahwa tidak ada kutu di tubuhnya. Jadi, suku tersebut dengan naif berasumsi bahwa kurangnya kutu ini sebenarnya adalah penyebab demam. Belakangan diketahui, ketika seseorang menderita demam, suhu tubuh yang meningkat menjadi tidak nyaman bagi kutu. Demam menyebabkan kutu meninggalkan inangnya; ketidakhadiran mereka bukanlah penyebab demam, seperti yang diasumsikan.

Langkah-Langkah Teratas untuk Menguasai Ilmu Data, Percayalah Saya Sudah Mencobanya

Katakanlah, 'A' dan 'B' berkorelasi. Mungkin ada beberapa variabel lain 'C' yang menyebabkan 'A' dan 'B' naik dan turun bersama-sama. 'A' bisa jadi penyebabnya, dan 'B' bisa jadi akibat, atau bisa juga sebaliknya atau hanya kebetulan. Intinya, tidak ada cara untuk mengetahuinya tanpa melakukan eksperimen terkontrol. Korelasi tidak boleh dikacaukan dengan sebab-akibat.

Demikian pula, grafik dapat dimanipulasi agar terlihat mengesankan tanpa salah mengutip data.

Ini hanya beberapa cara statistik dapat digunakan untuk berbohong. Daftar ini hanya sugestif, tidak lengkap. Semua metode menggertak ini menunjukkan bahwa statistik adalah seni dan juga sains.

Data adalah minyak baru. Sebagian besar keputusan di sektor swasta dan publik didasarkan pada data dan analisisnya. Interpretasi yang salah dari data atau turunan dari wawasan yang salah akan memiliki konsekuensi yang mahal.

Dalam dunia viral marketing, Anda harus ekstra hati-hati dengan klaim pengiklan. Di sini juga, Anda perlu menyadari keberadaan statistik sebagai seni. Sedikit skeptisisme tentang klaim pengiklan, dikombinasikan dengan pengetahuan tentang bagaimana orang menyebarkan statistik untuk berbohong, pasti akan membantu Anda membuat keputusan yang lebih baik dan lebih sadar.

Pelajari kursus ilmu data online dari Universitas top dunia. Dapatkan Program PG Eksekutif, Program Sertifikat Tingkat Lanjut, atau Program Magister untuk mempercepat karier Anda.

(Artikel ini terinspirasi dari buku How to Lie with Statistics karya Darrell Huff).

Apa arti menyesatkan dalam statistik?

Penyalahgunaan statistik bisa tidak disengaja atau disengaja. Meskipun kemungkinan besar upaya yang disengaja untuk mengaburkan garis dengan informasi palsu akan mengintensifkan bias, tidak perlu memiliki tujuan jahat untuk menimbulkan kebingungan. Penyalahgunaan statistik adalah masalah yang jauh lebih besar yang sekarang mempengaruhi berbagai perusahaan dan sektor akademik. Berikut adalah beberapa kesalahan umum yang menyebabkan penyalahgunaan seperti polling yang salah, korelasi yang cacat, Penangkapan Data, Visualisasi Data yang Menyesatkan, Bias yang Bertujuan, Pengambilan Sampel yang Buruk, Tampilan Data Selektif, Menghilangkan Garis Dasar, Paradoks Simpson, Grafik yang Menyesatkan.

Bagaimana penggunaan data yang menyesatkan mempengaruhi bisnis?

Organisasi bisnis yang sukses saat ini mengandalkan data untuk membuat keputusan yang terinformasi dengan baik yang memberikan hasil bernilai tinggi. Data dapat membantu dalam penyelesaian masalah, pemantauan kinerja, peningkatan proses, penyelesaian masalah, dan perolehan pemahaman pasar yang lebih baik. Kualitas data yang buruk, di sisi lain, dapat merugikan bisnis Anda. Konsekuensi dari penggunaan data yang disalahartikan untuk bisnis Anda adalah strategi bisnis yang salah, peningkatan biaya keuangan, kehilangan produktivitas, reputasi yang rusak, dan kehilangan peluang potensial.

Apa tujuan utama manipulasi data?

Menyortir, mengatur ulang, dan memindahkan data tanpa memengaruhinya adalah inti dari manipulasi data. Ini memerlukan transformasi data ke dalam format yang diperlukan untuk menampilkan data atau memberi makan dan melatih model analitik. Tujuan utama manipulasi data adalah untuk mengubah hubungan antara dua item data (logis atau fisik), bukan data itu sendiri. Pemfilteran baris dan kolom, agregasi, penggabungan dan penggabungan, manipulasi string, kategorisasi, regresi, dan rumus matematika adalah beberapa proses yang paling umum digunakan untuk mengelola data.