Dasar-Dasar Dasar Statistik untuk Ilmu Data

Diterbitkan: 2018-02-27

Jika Anda seorang calon Ilmuwan Data, yang akrab dengan konsep inti Statistik untuk Ilmu Data . Anda tidak perlu menjadi Ph.D. dalam Statistik untuk unggul di Ilmu Data, tetapi Anda perlu cukup tahu untuk menjelaskan beberapa algoritme dasar di pesta makan malam.

Untuk selanjutnya, kami akan memandu Anda melalui beberapa prasyarat dalam dasar-dasar Statistik untuk Ilmu Data .

Jika Anda baru saja memasuki dunia Ilmu Data, Anda mungkin pernah menjumpai orang yang menyatakan "Matematika" sebagai prasyarat untuk Ilmu Data. Sejujurnya, ini bukan Matematika, tetapi Anda harus belajar Statistik untuk Ilmu Data .

Saat ini, perpustakaan seperti Tensorflow menyembunyikan hampir semua Matematika kompleks dari pengguna. Bagus untuk kita, tetapi tetap bagus untuk memiliki pemahaman dasar tentang prinsip-prinsip yang mendasari di mana hal-hal ini bekerja. Memiliki pemahaman yang baik tentang analitik data dapat membantu Anda memahami segalanya dengan lebih baik.

Artikel ini akan membantu membekali Anda dengan beberapa teorema, konsep, dan persamaan yang tidak hanya akan membantu tujuan Anda sebagai Ilmuwan Data, tetapi juga akan membuat Anda terdengar seperti menguasai kursus Komputasi Statistik Tingkat Lanjut.

Daftar isi

Distribusi Statistik

Ini mungkin salah satu hal terpenting yang perlu Anda ketahui sambil mempersenjatai diri Anda dengan Statistik prasyarat untuk Ilmu Data .

Distribusi racun
Distribusi Poisson adalah salah satu alat yang paling penting dalam statistik. Ini digunakan untuk menghitung jumlah peristiwa yang mungkin terjadi dalam interval waktu. Misalnya, berapa banyak panggilan telepon yang mungkin terjadi dalam periode waktu tertentu.
Simbol yang tampak lucu dalam persamaan ini (λ) dikenal sebagai lambda . Ini digunakan untuk mewakili jumlah rata-rata peristiwa yang terjadi per interval waktu.

Contoh lain yang baik di mana distribusi Poisson menemukan kegunaannya adalah menghitung kerugian di bidang manufaktur. Misalkan sebuah mesin memproduksi lembaran logam dan memiliki X cacat per yard. Misalkan, misalnya, tingkat kesalahan adalah 2 per yard lembar – maka dengan menggunakan distribusi Poisson, kita dapat menghitung probabilitas bahwa tepat dua kesalahan akan terjadi dalam satu yard.
Distribusi Binomial

Jika Anda pernah menemukan Statistik dasar, Anda mungkin pernah menemukan Distribusi Binomial.
Katakanlah Anda memiliki eksperimen melempar koin tiga kali.
Bisakah Anda memberi tahu probabilitas koin yang menunjukkan kepala pada ketiga flips?

Pertama, dari kombinatorik dasar, kita dapat mengetahui bahwa ada delapan kemungkinan kombinasi hasil ketika melempar koin tiga kali. Sekarang, kita dapat memplot probabilitas memiliki 0,1,2, atau 3 kepala. Plot itu akan memberi kita distribusi binomial yang diperlukan untuk masalah ini. Saat dibuat grafik, Anda akan melihat bahwa itu terlihat sangat mirip dengan kurva distribusi normal, secara teori, keduanya sangat mirip. Sementara Distribusi Binomial adalah untuk nilai diskrit (jumlah lemparan koin yang terbatas), Distribusi Normal menangani nilai kontinu.
Ada beberapa distribusi selain yang kita bicarakan di atas. Jika Anda adalah jiwa yang tertarik dan juga ingin mempersenjatai diri Anda lebih baik dengan Statistik yang dibutuhkan untuk Ilmu Data , kami sarankan Anda untuk membaca tentang distribusi berikut juga:
Distribusi Geometris
Distribusi Hipergeometrik
Distribusi Seragam Diskrit
Distribusi Binomial Negatif

Analisis Data Eksplorasi dan Pentingnya untuk Bisnis Anda

Beberapa Teorema dan Algoritma

Ketika kita berbicara tentang Statistik untuk Ilmu Data , kita tidak dapat mengabaikan teorema dan algoritme dasar yang merupakan dasar dari banyak perpustakaan yang akan Anda kerjakan sebagai Ilmuwan Data. Ada beberapa algoritma klasifikasi, algoritma clustering, algoritma jaringan saraf, pohon keputusan, dan sebagainya. Di bagian ini, kita akan berbicara tentang beberapa teorema dasar yang harus Anda ketahui – ini juga akan membantu Anda memahami teorema kompleks lainnya dengan mudah.

Teorema Bayes

Ini adalah salah satu teorema umum yang akan Anda temui jika Anda pernah mengenyam pendidikan formal di bidang Ilmu Komputer. Ada banyak buku selama bertahun-tahun yang membahas Teorema Bayes dan konsepnya secara berlebihan.

Teorema Bayes sangat menyederhanakan konsep kompleks. Ini menjelaskan banyak fakta statistik menggunakan beberapa variabel sederhana. Ini mendukung konsep " probabilitas bersyarat " (misalnya, Jika A terjadi, itu berperan dalam terjadinya B). Hal yang paling berharga tentang ini adalah kenyataan bahwa Anda dapat memprediksi probabilitas hipotesis apa pun hanya dengan menggunakan titik data yang diberikan.

Bayes dapat membantu Anda memprediksi kemungkinan seseorang menderita kanker hanya dengan mengetahui usia mereka. Itu juga dapat memberi tahu Anda jika email adalah spam berdasarkan jumlah kata. Teorema ini pada intinya digunakan untuk menghilangkan ketidakpastian.

Fakta menyenangkan: Teorema Bayes membantu memprediksi lokasi U-boat serta memprediksi konfigurasi mesin Enigma untuk menerjemahkan kode Jerman, di WW2. Bahkan dalam Ilmu Data modern, Bayes menemukan aplikasi ekstensif dalam banyak algoritme.
Apa Itu Data Warehousing dan Data Mining

Algoritma K-Nearest Neighbor

Statistik untuk Ilmu Data
Ini adalah algoritma yang sangat mudah baik dari segi pemahaman maupun implementasinya. Sedemikian rupa sehingga disebut sebagai "algoritma malas". Kesederhanaannya terletak pada kenyataan bahwa itu didasarkan pada deduksi logis daripada dasar statistik apa pun. Dalam istilah awam, algoritma ini terlihat mencari grup yang paling dekat satu sama lain.

K-NN menggunakan konsep Euclidean Distance. Ini mencari grup lokal di dalam dan di sekitar sejumlah titik fokus tertentu. Angka tersebut dilambangkan dengan “k”. Ada banyak pendekatan untuk mengetahui seberapa besar nilai 'k' seharusnya karena ini adalah nilai yang ditentukan pengguna.

Konsep ini sangat bagus untuk pengelompokan fitur, segmentasi pasar dasar, dan mencari outlier dari sekelompok entri data. Sebagian besar bahasa pemrograman modern mengimplementasikan algoritma K-NN hanya dalam dua baris kode.

Bagging (Agregasi bootstrap)

Bagging pada dasarnya mengacu pada pembuatan lebih dari satu model algoritma tunggal – seperti pohon keputusan. Masing-masing model dilatih pada data sampel yang berbeda (ini disebut sampel bootstrap).

Oleh karena itu, setiap pohon keputusan dibuat dengan menggunakan data sampel yang berbeda – ini memecahkan masalah overfitting ke ukuran sampel. Pengelompokan pohon keputusan seperti ini pada dasarnya membantu dalam mengurangi kesalahan total, karena varians keseluruhan berkurang dengan setiap pohon baru ditambahkan. Sekantong pohon keputusan seperti itu dikenal sebagai hutan acak.

Memulai Ilmu Data dengan Python

Analisis Kurva ROC

Statistik untuk Ilmu Data
Istilah ROC adalah singkatan dari Receiver Operating Characteristic. Kurva analisis ROC banyak digunakan dalam Ilmu Data. Ini memprediksi seberapa baik kinerja tes dengan mengukur sensitivitas keseluruhan vs. tingkat kegagalannya. Analisis ROC sangat penting saat menentukan kelayakan model apa pun.

Bagaimana cara kerjanya?

Model pembelajaran mesin Anda mungkin memberi Anda beberapa prediksi yang tidak akurat. Beberapa di antaranya adalah karena nilai tertentu seharusnya 'benar' tetapi malah disetel 'salah', atau sebaliknya.

Berapa probabilitas Anda benar?

Dengan menggunakan kurva ROC, Anda dapat melihat seberapa akurat prediksi Anda. Dengan dua perumpamaan yang berbeda, Anda juga dapat mengetahui di mana harus meletakkan nilai ambang Anda. Ambang batas adalah tempat Anda memutuskan apakah klasifikasi biner positif atau negatif – benar atau salah.

Ketika kedua perumpamaan itu semakin dekat satu sama lain, area di bawah kurva akan cenderung nol. Ini pada dasarnya berarti bahwa model Anda cenderung tidak akurat. Semakin besar area, semakin besar akurasi model Anda. Ini adalah salah satu tes pertama yang digunakan saat menguji pemodelan apa pun, karena membantu mendeteksi masalah sejak dini dengan memberi tahu apakah model itu benar atau tidak.

Contoh nyata kurva ROC – Kurva ini digunakan untuk menggambarkan hubungan/pertukaran antara sensitivitas klinis dan spesifisitas untuk cut-off untuk tes tertentu atau kombinasi tes – dengan cara grafis. Selain itu, area di bawah kurva ROC juga memberikan gambaran yang adil tentang manfaat menggunakan tes yang disebutkan di atas. Oleh karena itu, kurva ROC banyak digunakan dalam Biokimia untuk memilih cut-off yang sesuai. Idealnya, cut-off terbaik adalah yang memiliki tingkat positif palsu terendah dengan tingkat positif benar tertinggi bersama-sama.

Bagaimana Anda Dapat Bertransisi ke Analisis Data?

Pentingnya Statistika dalam Ilmu Data

Dari pembahasan di atas sekarang setelah Anda mengetahui konsep dasar Statistika dan dasar-dasar Statistik, mari kita bicara tentang pentingnya mempelajari Statistik untuk Ilmu Data. Alat dan teknologi penting untuk mengatur dan menemukan wawasan mendalam dalam data, untuk menganalisis dan mengukur data disediakan oleh Statistics for Data Analytics.

Kami telah memberi Anda gambaran umum tentang konsep dasar Statistik dan dampak Statistik pada eksplorasi, analisis, pemodelan, dan representasi data. Kami juga menunjukkan masalah jika mereka adalah inkonsistensi sementara mengabaikan dasar-dasar Statistik. Jika Anda tertarik untuk bergabung dengan industri yang tumbuh paling cepat, datang langsung ke situs web kami di UpGrad untuk mengikuti tutorial Statistik untuk Ilmu Data karena kami menyediakan kursus online dan offline di tempat yang sama. Setelah Anda menguasai permainan Anda setidaknya dalam dasar-dasar Statistik dan Dasar-dasar Statistik, Anda akan siap bekerja.

Kesimpulannya…
Daftar topik di atas sama sekali bukan daftar lengkap dari semua yang perlu Anda ketahui dalam Statistik. Daftar ini hanya untuk memberi Anda gambaran tentang semua yang mungkin Anda temui dalam perjalanan Ilmu Data Anda, dan bagaimana Anda bisa bersiap untuk itu.

Secara keseluruhan, artikel ini memperkenalkan beberapa konsep inti Statistik untuk Ilmu Data . Pemahaman yang mendalam tentang konsep-konsep yang dijelaskan digabungkan akan membantu Anda memahami konsep-konsep lain dengan mudah. Jika Anda ingin menjelajahi lebih banyak dan menguasai ilmu data, temukan kursus ilmu data online terbaik kami.

Apa pentingnya Statistika untuk Ilmu Data?

Statistik menyediakan teknik dan alat untuk mengidentifikasi struktur dalam data besar, serta memberikan pemahaman yang lebih besar kepada individu dan organisasi tentang realitas yang diungkapkan oleh data mereka, menggunakan metode statistik yang tepat yang memungkinkan klasifikasi dan organisasi, membantu menghitung distribusi dan estimasi probabilitas, dan menemukan struktur dalam data dengan melihat anomali dan tren. Statistik juga membantu dalam visualisasi data dan pemodelan dengan penggunaan grafik dan jaringan. Ini membantu dalam mengidentifikasi cluster data atau struktur lain yang dipengaruhi oleh variabel dan membantu mengurangi jumlah asumsi dalam model, sehingga membuatnya lebih akurat dan berguna.

Apa konsep dasar utama Statistik yang diperlukan untuk Ilmu Data?

Konsep inti statistik adalah suatu keharusan untuk ilmu data. Berikut adalah beberapa konsep utama yang membantu Anda memulai perjalanan ilmu data Anda:

1. Probabilitas : Ini membentuk dasar untuk Ilmu Data. Teori probabilitas cukup berguna dalam merumuskan prediksi. Data adalah dasar dari semua kemungkinan dan statistik.
2. Sampling : Pengambilan sampel data adalah teknik analisis statistik yang melibatkan pemilihan, manipulasi, dan analisis pemilihan titik-titik data yang representatif untuk menemukan pola dan tren dalam kumpulan data yang lebih besar.
3. Kecenderungan dan Distribusi Data : Distribusi data merupakan faktor yang sangat penting. Pentingnya distribusi terkenal seperti Distribusi Normal sangat besar. Akibatnya, menentukan distribusi dan skewness data adalah konsep penting.
4. Pengujian Hipotesis: Pengujian Hipotesis mengidentifikasi situasi di mana tindakan harus dilakukan atau tidak dilakukan tergantung pada hasil yang diharapkan.
5. Variasi : Ini mengacu pada distorsi, kesalahan dan pergeseran data.
6. Regresi : Sangat penting untuk Ilmu Data karena membantu dalam memahami solusi yang ada serta penemuan inovasi baru.

Bagaimana Statistik digunakan dalam Ilmu Data?

Ilmuwan Data menggunakan statistik untuk membantu bisnis membuat keputusan produk yang lebih baik, merancang dan menafsirkan uji coba, menentukan faktor yang mendorong penjualan, memperkirakan tren dan pola penjualan. Representasi visual dari kinerja data dan algoritme membantu menemukan outlier, pola sepele tertentu, dan ringkasan metrik.