Analisis Diskriminan Linier Untuk Pembelajaran Mesin: Apa yang Perlu Anda Ketahui?

Diterbitkan: 2020-05-22

Kemajuan teknologi dalam beberapa tahun terakhir telah memungkinkan perangkat yang terhubung untuk menangani sejumlah besar data. Namun, penyimpanan dan keamanan data masih tetap menjadi perhatian besar ketika berhadapan dengan data dalam jumlah besar tersebut. Inilah sebabnya mengapa sangat penting untuk menangani data dengan cara yang benar. Ini sering bisa menjadi tugas yang memakan waktu.

Di sinilah teknik reduksi dimensi data, seperti analisis diskriminan linier atau LDA , muncul. Teknik-teknik ini dapat membantu Anda dalam menangani kumpulan data dengan cara yang jauh lebih baik sambil memastikan keamanan dan privasi data. Fokus kami dalam blog ini akan membahas teknik reduksi dimensi data analisis diskriminan linier. Mari kita mulai dengan berbicara tentang pengurangan dimensi.

Daftar isi

Apa itu pengurangan dimensi?

Anda akan dapat lebih memahami teknik analisis diskriminan linier jika Anda mengetahui latar belakang konsep yang mendasarinya. Ketika Anda berurusan dengan data multi-dimensi, Anda memiliki data yang memiliki sejumlah fitur yang berkorelasi satu sama lain. Jika kita memplot data multidimensi dalam dua atau tiga dimensi, kita menggunakan teknik reduksi dimensi.

Alternatif yang juga cukup umum digunakan sebagai pengganti reduksi dimensi antara lain adalah dengan memplot data menggunakan histogram, scatter plot, dan box plot. Grafik ini dapat digunakan untuk menemukan pola dalam kumpulan data mentah tertentu. Namun, bagan tidak menyajikan data dengan cara yang mudah diuraikan oleh orang awam. Selain itu, data dengan banyak fitur akan memerlukan beberapa diagram untuk mengidentifikasi pola dalam kumpulan data tersebut.

Teknik reduksi dimensi data, seperti LDA, membantu mengatasi masalah ini dengan menggunakan dua atau tiga dimensi untuk memplot data. Ini akan memungkinkan Anda untuk lebih eksplisit dalam penyajian data Anda, yang akan masuk akal bahkan bagi orang-orang yang tidak memiliki latar belakang teknis.

Baca : 25 Pertanyaan & Jawaban Wawancara Machine Learning

Apa itu analisis diskriminan linier?

Ini adalah salah satu teknik pengurangan dimensi yang paling banyak digunakan. Ini digunakan dalam pembelajaran mesin serta aplikasi yang ada hubungannya dengan klasifikasi pola. LDA melayani tujuan yang sangat spesifik, yaitu untuk memproyeksikan fitur yang ada di ruang dimensi tinggi ke ruang di dimensi yang lebih rendah.

Ini dilakukan untuk menghilangkan masalah dimensi umum dan menurunkan biaya dan sumber daya dimensi. Ronald A Fisher memegang penghargaan untuk pengembangan konsep asli pada tahun 1936 – Fisher's Discriminant Analysis atau Linear Discriminant . Awalnya, diskriminan linier adalah teknik dua kelas. Versi multi-kelas datang kemudian.

Analisis diskriminan linier adalah metode klasifikasi terawasi yang digunakan untuk membuat model pembelajaran mesin. Model-model berdasarkan pengurangan dimensi ini digunakan dalam aplikasi, seperti analisis prediktif pemasaran dan pengenalan gambar, antara lain. Kami akan membahas aplikasi sedikit kemudian.

Jadi apa yang sebenarnya kita cari dengan LDA? Ada dua area yang dapat ditemukan oleh teknik reduksi dimensi ini – Parameter yang dapat digunakan untuk menjelaskan hubungan antara grup dan objek – Model preceptor klasifikasi yang dapat membantu memisahkan grup. Inilah sebabnya mengapa LDA banyak digunakan untuk memodelkan varietas dalam kelompok yang berbeda. Jadi Anda dapat menggunakan teknik ini untuk menggunakan dua atau lebih dari dua kelas untuk distribusi variabel.

Ekstensi untuk analisis diskriminan linier

LDA dianggap sebagai salah satu metode paling sederhana dan paling efektif yang tersedia untuk klasifikasi. Karena metodenya sangat sederhana dan mudah dimengerti, kami memiliki beberapa variasi serta ekstensi yang tersedia untuk itu. Beberapa di antaranya adalah:

1. Analisis diskriminan reguler atau RDA

RDA digunakan untuk membawa regularisasi ke dalam estimasi varians atau kovarians. Hal ini dilakukan untuk memoderasi dampak variabel terhadap LDA.

2. Analisis diskriminan kuadrat atau QDA

Di QDA, kelas yang berbeda menggunakan estimasi varians mereka sendiri. Jika jumlah variabel input lebih dari biasanya, setiap kelas menggunakan estimasi kovariansnya.

3. Analisis diskriminan fleksibel atau FDA

FDA memanfaatkan input dengan kombinasi non-linear. Splines adalah contoh yang baik.

Pelajari tentang: Ide & Topik Proyek Python

Aplikasi LDA umum

LDA menemukan penggunaannya dalam beberapa aplikasi. Ini dapat digunakan dalam masalah apa pun yang dapat diubah menjadi masalah klasifikasi. Contoh umum termasuk pengenalan kecepatan, pengenalan wajah, kimia, klasifikasi data microarray, pengambilan gambar, biometrik, dan bioinformatika untuk beberapa nama. Mari kita bahas beberapa di antaranya.

1. Pengenalan wajah

Dalam visi komputer, pengenalan wajah dianggap sebagai salah satu aplikasi paling populer. Pengenalan wajah dilakukan dengan merepresentasikan wajah menggunakan nilai piksel dalam jumlah besar. LDA digunakan untuk memangkas jumlah fitur untuk mempersiapkan dasar untuk menggunakan metode klasifikasi. Dimensi baru adalah kombinasi nilai piksel yang digunakan untuk membuat template.

2. Identifikasi pelanggan

Jika Anda ingin mengidentifikasi pelanggan berdasarkan kemungkinan mereka akan membeli produk, Anda dapat menggunakan LDA untuk mengumpulkan fitur pelanggan. Anda dapat mengidentifikasi dan memilih fitur-fitur yang menggambarkan kelompok pelanggan yang menunjukkan peluang lebih tinggi untuk membeli suatu produk.

3. Medis

LDA dapat digunakan untuk memasukkan penyakit ke dalam kategori yang berbeda, seperti parah, ringan, atau sedang. Ada beberapa parameter pasien yang akan digunakan untuk melakukan tugas klasifikasi ini. Klasifikasi ini memungkinkan dokter untuk menentukan kecepatan pengobatan.

Baca juga: 15 Ide Proyek Pembelajaran Mesin yang Menarik Untuk Pemula

Kesimpulan

LDA adalah teknik sederhana dan dipahami dengan baik yang umum digunakan dalam model klasifikasi ML. PCA dan regresi logistik adalah teknik pengurangan dimensi lain yang tersedia bagi kami. Tetapi ketika datang ke masalah klasifikasi khusus, LDA lebih disukai daripada dua lainnya.

Jika Anda tertarik untuk mempelajari lebih lanjut tentang pembelajaran mesin, lihat PG Diploma IIIT-B & upGrad dalam Pembelajaran Mesin & AI yang dirancang untuk para profesional yang bekerja dan menawarkan 450+ jam pelatihan ketat, 30+ studi kasus & tugas, IIIT- B Status alumni, 5+ proyek batu penjuru praktis & bantuan pekerjaan dengan perusahaan-perusahaan top.

Apa itu analisis diskriminan linier?

Linear Discriminant Analysis (LDA) adalah algoritma klasifikasi untuk mempelajari fitur-fitur dasar yang baik untuk membedakan sekelompok sampel dari semua kelompok lainnya. Sebagai hasil dari penerapan algoritma LDA, kami mendapatkan kumpulan fitur baru yang dapat digunakan untuk prediksi keanggotaan grup. Sebagai contoh, katakanlah Anda mengumpulkan alamat IP dan Anda ingin mencari tahu dari negara mana mereka berasal. Anda memiliki satu set pelatihan contoh alamat IP dan Anda dapat mengidentifikasi negara asal dengan akurasi yang sangat tinggi. Jika Anda memiliki alamat IP baru dan Anda ingin tahu dari negara mana alamat itu berasal, Anda dapat memberikannya ke LDA dan itu akan menetapkannya ke kelas dengan probabilitas tertinggi.

Apa aplikasi dari analisis diskriminan linier?

Analisis diskriminan linier (LDA) adalah seperangkat teknik dalam kerangka pembelajaran terawasi. LDA adalah metode, di mana variabel dependen dipisahkan secara linier dalam ruang fitur. LDA digunakan dalam Pemasaran, Keuangan, dan area lain untuk melakukan sejumlah tugas klasifikasi seperti pembuatan profil pelanggan dan deteksi penipuan. Misalnya, pertimbangkan bahwa kita ingin mencari kombinasi linier dari variabel bebas yang memisahkan dua kelompok titik data. LDA menemukan kombinasi linier dari variabel independen yang menghasilkan pemisahan maksimal antara dua kelompok titik data dalam ruang fitur.

Apa itu Pengurangan Dimensi?

Pengurangan dimensi mengacu pada kumpulan teknik untuk mengurangi jumlah variabel dalam kumpulan data. Teknik reduksi dimensi yang paling umum adalah Principal Components Analysis (PCA). PCA adalah teknik pengurangan dimensi yang paling populer karena kesederhanaannya, keanggunan matematisnya, dan sifat statistiknya yang tinggi. PCA digunakan untuk mengurangi dimensi dataset dengan mengidentifikasi sumbu yang mengandung varians paling banyak bersama dengan kesalahan paling sedikit.