PCA dalam Pembelajaran Mesin: Asumsi, Langkah-Langkah untuk Mendaftar & Aplikasi
Diterbitkan: 2020-11-12Daftar isi
Memahami Pengurangan Dimensi dalam ML
Algoritma ML (Machine Learning) diuji dengan beberapa data yang dapat disebut sebagai kumpulan fitur pada saat pengembangan & pengujian. Pengembang perlu mengurangi jumlah variabel input dalam set fitur mereka untuk meningkatkan kinerja model/algoritma ML tertentu.
Misalnya, Anda memiliki kumpulan data dengan banyak kolom, atau Anda memiliki larik titik dalam ruang 3-D. Dalam hal ini, Anda dapat mengurangi dimensi kumpulan data Anda dengan menerapkan teknik pengurangan dimensi dalam ML. PCA (Principal Component Analysis) adalah salah satu teknik pengurangan dimensi yang banyak digunakan oleh pengembang/penguji ML. Mari kita pelajari lebih dalam untuk memahami PCA dalam pembelajaran mesin.
Analisis Komponen Utama
PCA adalah teknik statistik tanpa pengawasan yang digunakan untuk mengurangi dimensi kumpulan data. Model ML dengan banyak variabel input atau dimensi yang lebih tinggi cenderung gagal saat beroperasi pada set data input yang lebih tinggi. PCA membantu dalam mengidentifikasi hubungan antara variabel yang berbeda & kemudian menggabungkannya. PCA bekerja pada beberapa asumsi yang harus diikuti dan membantu pengembang mempertahankan standar.
PCA melibatkan transformasi variabel dalam dataset menjadi satu set variabel baru yang disebut PC (Principal Components). Komponen utama akan sama dengan jumlah variabel asli dalam kumpulan data yang diberikan.
Komponen utama pertama (PC1) berisi variasi maksimum yang ada pada variabel sebelumnya, dan variasi ini menurun saat kita pindah ke tingkat yang lebih rendah. PC terakhir akan memiliki variasi paling sedikit di antara variabel dan Anda akan dapat mengurangi dimensi set fitur Anda.
Asumsi dalam PCA
Ada beberapa asumsi dalam PCA yang harus diikuti karena akan mengarah pada fungsi yang akurat dari teknik pengurangan dimensi ini dalam ML. Asumsi dalam PCA adalah:

• Harus ada linearitas dalam kumpulan data, yaitu variabel-variabel bergabung secara linier untuk membentuk kumpulan data. Variabel menunjukkan hubungan di antara mereka sendiri.
• PCA mengasumsikan bahwa komponen utama dengan varians tinggi harus diperhatikan dan PC dengan varians lebih rendah diabaikan sebagai noise. Kerangka koefisien korelasi Pearson mengarah ke asal PCA, dan di sana diasumsikan pertama bahwa sumbu dengan varians tinggi hanya akan diubah menjadi komponen utama.
• Semua variabel harus diakses pada tingkat rasio pengukuran yang sama. Norma yang paling disukai adalah minimal 150 pengamatan terhadap himpunan sampel dengan pengukuran rasio 5:1.
• Nilai ekstrem yang menyimpang dari titik data lain dalam kumpulan data apa pun, yang juga disebut outlier, harus lebih kecil. Jumlah outlier yang lebih banyak akan menunjukkan kesalahan eksperimental dan akan menurunkan model/algoritma ML Anda.
• Kumpulan fitur harus berkorelasi dan kumpulan fitur yang dikurangi setelah menerapkan PCA akan mewakili kumpulan data asli tetapi dengan cara yang efektif dengan dimensi yang lebih sedikit.
Harus Dibaca: Gaji Machine Learning di India
Langkah-langkah untuk Menerapkan PCA
Langkah-langkah untuk menerapkan PCA pada setiap model/algoritma ML adalah sebagai berikut:
• Normalisasi data sangat diperlukan untuk menerapkan PCA. Data yang tidak diskalakan dapat menyebabkan masalah dalam perbandingan relatif kumpulan data. Misalnya, jika kita memiliki daftar angka di bawah kolom dalam beberapa kumpulan data 2-D, rata-rata angka-angka tersebut dikurangi dari semua angka untuk menormalkan kumpulan data 2-D. Normalisasi data dapat dilakukan dalam dataset 3-D juga.
• Setelah Anda menormalkan dataset, temukan kovarians di antara dimensi yang berbeda dan masukkan ke dalam matriks kovarians. Elemen off-diagonal dalam matriks kovarians akan mewakili kovarians antara setiap pasangan variabel dan elemen diagonal akan mewakili varians dari setiap variabel/dimensi.
Matriks kovarians yang dibuat untuk kumpulan data apa pun akan selalu simetris. Matriks kovarians akan mewakili hubungan dalam data, dan Anda dapat memahami jumlah varians di setiap komponen utama dengan mudah.
• Anda harus menemukan nilai eigen dari matriks kovarians yang mewakili variabilitas data secara ortogonal dalam plot. Anda juga harus menemukan vektor eigen dari matriks kovarians yang akan mewakili arah di mana varians maksimum di antara data terjadi.
Misalkan matriks kovarians Anda 'C' memiliki matriks persegi 'E' dengan nilai eigen 'C'. Dalam hal ini, harus memenuhi persamaan ini – determinan (EI – C) = 0, di mana 'I' adalah matriks identitas dengan dimensi yang sama dengan 'C'. Anda harus memeriksa bahwa matriks kovariansnya adalah matriks simetris/persegi karena hanya perhitungan nilai eigen yang memungkinkan.

• Atur nilai eigen dalam urutan naik/turun dan pilih nilai eigen yang lebih tinggi. Anda dapat memilih berapa banyak nilai eigen yang ingin Anda lanjutkan. Anda akan kehilangan beberapa informasi sambil mengabaikan nilai eigen yang lebih kecil, tetapi nilai menit tersebut tidak akan memberikan dampak yang cukup pada hasil akhir.
Nilai eigen lebih tinggi yang dipilih akan menjadi dimensi set fitur Anda yang diperbarui. Kami juga membentuk vektor fitur, yang merupakan matriks vektor yang terdiri dari vektor eigen dari nilai eigen yang dipilih relatif.
• Menggunakan vektor fitur, kami menemukan komponen utama dari kumpulan data yang dianalisis. Kami mengalikan transpos vektor fitur dengan transpos matriks berskala (versi data berskala setelah normalisasi) untuk mendapatkan matriks yang berisi komponen utama.
Kami akan melihat bahwa nilai eigen tertinggi akan sesuai untuk data, dan yang lainnya tidak akan memberikan banyak informasi tentang kumpulan data. Ini membuktikan bahwa kami tidak kehilangan data saat mengurangi dimensi kumpulan data; kami hanya mewakilinya dengan lebih efektif.
Metode ini diterapkan untuk akhirnya mengurangi dimensi dataset apa pun di PCA.
Aplikasi PCA
Data dihasilkan di banyak sektor, dan ada kebutuhan untuk menganalisis data untuk pertumbuhan perusahaan/perusahaan mana pun. PCA akan membantu dalam mengurangi dimensi data, sehingga lebih mudah untuk dianalisis. Aplikasi PCA adalah:
• Ilmu saraf – Ahli saraf menggunakan PCA untuk mengidentifikasi neuron atau untuk memetakan struktur otak selama transisi fase.
• Keuangan – PCA digunakan di sektor keuangan untuk mengurangi dimensi data untuk membuat portofolio pendapatan tetap. Banyak aspek lain dari sektor keuangan melibatkan PCA seperti memperkirakan pengembalian, membuat algoritme alokasi aset atau algoritme ekuitas, dll.
• Teknologi Gambar – PCA juga digunakan untuk kompresi gambar atau pemrosesan gambar digital. Setiap gambar dapat direpresentasikan melalui matriks dengan memplot nilai intensitas setiap piksel, dan kemudian kita dapat menerapkan PCA di atasnya.
• Pengenalan Wajah – PCA dalam pengenalan wajah mengarah pada pembuatan eigenfaces yang membuat pengenalan wajah lebih akurat.
• Medis – PCA digunakan pada banyak data medis untuk menemukan korelasi antar variabel yang berbeda. Misalnya, dokter menggunakan PCA untuk menunjukkan korelasi antara kolesterol & lipoprotein densitas rendah.

• Keamanan – Anomali dapat ditemukan dengan mudah menggunakan PCA. Ini digunakan untuk mengidentifikasi serangan cyber/komputer dan memvisualisasikannya dengan bantuan PCA.
Poin Bawa Pulang
PCA juga dapat menyebabkan kinerja model yang rendah setelah menerapkannya jika dataset asli memiliki korelasi yang lemah atau tidak ada korelasi. Variabel-variabel tersebut harus terkait satu sama lain untuk menerapkan PCA dengan sempurna. PCA memberi kami kombinasi fitur, dan pentingnya fitur individual dari dataset asli dihilangkan. Sumbu utama dengan varian paling banyak adalah komponen utama yang ideal.
Baca Juga: Ide Proyek Pembelajaran Mesin
Kesimpulan
PCA adalah teknik yang banyak digunakan untuk mengurangi dimensi set fitur.
Jika Anda tertarik untuk mempelajari lebih lanjut tentang pembelajaran mesin, lihat PG Diploma IIIT-B & upGrad dalam Pembelajaran Mesin & AI yang dirancang untuk para profesional yang bekerja dan menawarkan 450+ jam pelatihan ketat, 30+ studi kasus & tugas, IIIT- B Status alumni, 5+ proyek batu penjuru praktis & bantuan pekerjaan dengan perusahaan-perusahaan top.
Apakah PCA bisa digunakan di semua data?
Ya. Principal Component Analysis (PCA) adalah teknik analisis data yang memberikan cara untuk melihat dan memahami data yang berdimensi sangat tinggi. Dengan kata lain, PCA dapat diterapkan pada data yang memiliki banyak variabel. Ada kesalahpahaman umum bahwa PCA hanya dapat digunakan pada data dalam bentuk tertentu. Misalnya, banyak orang mengira PCA hanya berguna pada variabel yang bersifat numerik. Ini bukan kasusnya. Faktanya, PCA dapat digunakan pada semua jenis variabel. Misalnya, PCA dapat diterapkan pada variabel kategori, variabel ordinal, dan sebagainya.
Apa keterbatasan Analisis Komponen Utama?
PCA adalah alat yang hebat untuk menganalisis data Anda dan mengekstrak dua atau tiga faktor terpenting. Sangat bagus untuk melihat outlier dan tren. Namun, ia memiliki beberapa keterbatasan seperti: Tidak cocok untuk kumpulan data kecil (Umumnya, kumpulan data harus memiliki lebih dari 30 baris). Itu tidak menemukan faktor-faktor penting tetapi memilihnya berdasarkan nilai-nilai. Jadi, sulit untuk menemukan faktor-faktor penting. Itu tidak memiliki struktur matematika yang kuat di belakangnya. Sulit untuk membandingkan data dengan PCA. Itu tidak dapat menemukan hubungan non-linier.
Apa keuntungan dari analisis komponen utama?
Analisis komponen utama (PCA) adalah metode statistik yang digunakan untuk mengubah sejumlah besar variabel yang mungkin berkorelasi menjadi sejumlah kecil variabel yang tidak berkorelasi yang disebut sebagai komponen utama. PCA dapat digunakan sebagai teknik reduksi data karena memungkinkan kita menemukan variabel terpenting yang diperlukan untuk mendeskripsikan kumpulan data. PCA juga dapat digunakan untuk mengurangi dimensi ruang data untuk mendapatkan wawasan tentang struktur bagian dalam data. Ini berguna ketika berhadapan dengan kumpulan data yang besar.