Makine Öğreniminde PCA: Varsayımlar, Uygulama Adımları ve Uygulamalar

Yayınlanan: 2020-11-12

İçindekiler

Makine Öğreniminde Boyutsallık Azaltmasını Anlamak

ML (Machine Learning) algoritmaları, geliştirme ve test sırasında özellik seti olarak adlandırılabilecek bazı verilerle test edilir. Geliştiricilerin, belirli herhangi bir ML modelinin/algoritmasının performansını artırmak için özellik setlerindeki girdi değişkenlerinin sayısını azaltması gerekir.

Örneğin, çok sayıda sütun içeren bir veri kümeniz olduğunu veya 3 boyutlu bir alanda bir dizi noktanız olduğunu varsayalım. Bu durumda, ML'de boyutsallık azaltma tekniklerini uygulayarak veri kümenizin boyutlarını küçültebilirsiniz. PCA (Temel Bileşen Analizi), makine öğrenimi geliştiricileri/testçileri tarafından yaygın olarak kullanılan boyut azaltma tekniklerinden biridir. Makine öğreniminde PCA'yı anlamak için daha derine inelim.

Temel bileşenler Analizi

PCA, veri kümesinin boyutlarını azaltmak için kullanılan denetimsiz bir istatistiksel tekniktir. Birçok girdi değişkenine veya daha yüksek boyutluluğa sahip ML modelleri, daha yüksek bir girdi veri kümesinde çalışırken başarısız olma eğilimindedir. PCA, farklı değişkenler arasındaki ilişkileri belirlemeye ve ardından bunları birleştirmeye yardımcı olur. PCA, takip edilmesi gereken bazı varsayımlar üzerinde çalışır ve geliştiricilerin bir standart tutmasına yardımcı olur.

PCA, veri kümesindeki değişkenlerin, PC'ler (Temel Bileşenler) adı verilen yeni bir değişkenler kümesine dönüştürülmesini içerir. Temel bileşenler, verilen veri kümesindeki orijinal değişkenlerin sayısına eşit olacaktır.

Birinci temel bileşen (PC1), önceki değişkenlerde mevcut olan maksimum varyasyonu içerir ve alt seviyeye doğru gidildikçe bu varyasyon azalır. Son PC, değişkenler arasında en az varyasyona sahip olacak ve özellik setinizin boyutlarını küçültebileceksiniz.

PCA'daki varsayımlar

PCA'da, ML'de bu boyutsallık azaltma tekniğinin doğru çalışmasına yol açacağı için takip edilmesi gereken bazı varsayımlar vardır. PCA'daki varsayımlar şunlardır:

• Veri setinde lineerlik olmalıdır, yani değişkenler lineer bir şekilde birleşerek veri setini oluşturmalıdır. Değişkenler kendi aralarında ilişkiler sergilerler.

• PCA, yüksek varyanslı ana bileşene dikkat edilmesi gerektiğini ve daha düşük varyansa sahip PC'lerin gürültü olarak göz ardı edildiğini varsayar. Pearson korelasyon katsayısı çerçevesi, PCA'nın kökenine yol açtı ve orada ilk önce, yüksek varyanslı eksenlerin yalnızca ana bileşenlere dönüştürüleceği varsayıldı.

• Tüm değişkenlere aynı oran ölçüm seviyesinde erişilmelidir. En çok tercih edilen norm, 5:1 oran ölçümü ile örnek setinin en az 150 gözlemidir.

• Herhangi bir veri kümesindeki diğer veri noktalarından sapan ve aykırı değerler olarak da adlandırılan uç değerler daha az olmalıdır. Daha fazla aykırı değer deneysel hataları temsil edecek ve ML modelinizi/algoritmanızı bozacaktır.

• Özellik seti ilişkilendirilmelidir ve PCA uygulandıktan sonra indirgenmiş özellik seti, orijinal veri setini ancak daha az boyutla etkili bir şekilde temsil edecektir.

Okumalısınız: Hindistan'da Makine Öğrenimi Maaşı

PCA Uygulama Adımları

Herhangi bir ML modeline/algoritmasına PCA uygulama adımları aşağıdaki gibidir:

• PCA'yı uygulamak için verilerin normalleştirilmesi çok gereklidir. Ölçeklenmemiş veriler, veri kümesinin göreli karşılaştırmasında sorunlara neden olabilir. Örneğin, bazı 2 boyutlu veri kümelerinde bir sütunun altında bir sayı listemiz varsa, 2 boyutlu veri kümesini normalleştirmek için bu sayıların ortalaması tüm sayılardan çıkarılır. Verilerin normalleştirilmesi 3 boyutlu bir veri kümesinde de yapılabilir.

• Veri kümesini normalleştirdikten sonra, farklı boyutlar arasındaki kovaryansı bulun ve bunları bir kovaryans matrisine koyun. Kovaryans matrisindeki köşegen dışı elemanlar, her bir değişken çifti arasındaki kovaryansı temsil edecek ve köşegen elemanlar, her bir değişkenin/boyutun varyanslarını temsil edecektir.

Herhangi bir veri kümesi için oluşturulan bir kovaryans matrisi her zaman simetrik olacaktır. Bir kovaryans matrisi, verilerdeki ilişkiyi temsil eder ve her bir ana bileşendeki varyans miktarını kolayca anlayabilirsiniz.

• Verilerdeki değişkenliği ortogonal olarak temsil eden kovaryans matrisinin özdeğerlerini çizimde bulmalısınız. Ayrıca, veriler arasında maksimum varyansın meydana geldiği yönü temsil edecek olan kovaryans matrisinin özvektörlerini bulmanız gerekecektir.

'C' kovaryans matrisinizin, 'C' özdeğerlerinden oluşan bir 'E' kare matrisine sahip olduğunu varsayalım. Bu durumda, bu denklemi sağlamalıdır – (EI – C) = 0'ın determinantı, burada 'I', 'C' ile aynı boyutta bir kimlik matrisidir. Kovaryans matrislerinin simetrik/kare matris olduğunu kontrol etmelisiniz, çünkü o zaman sadece özdeğerlerin hesaplanması mümkündür.

• Özdeğerleri artan/azalan bir düzende düzenleyin ve daha yüksek özdeğerleri seçin. Devam etmek istediğiniz özdeğer sayısını seçebilirsiniz. Daha küçük özdeğerleri yok sayarken bazı bilgileri kaybedersiniz, ancak bu küçük değerler nihai sonuç üzerinde yeterince etki yaratmaz.

Seçilen daha yüksek özdeğerler, güncellenen özellik setinizin boyutları olacaktır. Ayrıca, göreceli olarak seçilmiş özdeğerlerin özvektörlerinden oluşan bir vektör matrisi olan bir özellik vektörü oluşturuyoruz.

• Özellik vektörünü kullanarak, analiz edilen veri kümesinin temel bileşenlerini buluruz. Temel bileşenleri içeren bir matris elde etmek için, öznitelik vektörünün devriğini, ölçeklenmiş matrisin devrini (normalleştirmeden sonra verinin ölçeklenmiş bir versiyonu) çarparız.

En yüksek özdeğerin veri için uygun olacağını, diğerlerinin veri seti hakkında fazla bilgi vermeyeceğini fark edeceğiz. Bu, veri kümesinin boyutlarını küçültürken veri kaybetmediğimizi kanıtlıyor; biz sadece onu daha etkili bir şekilde temsil ediyoruz.

Bu yöntemler, sonunda PCA'daki herhangi bir veri kümesinin boyutlarını azaltmak için uygulanır.

PCA uygulamaları

Veriler birçok sektörde üretilir ve herhangi bir firmanın/şirketin büyümesi için veri analizine ihtiyaç vardır. PCA, verilerin boyutlarını küçültmeye yardımcı olacak ve böylece analiz etmeyi kolaylaştıracaktır. PCA uygulamaları şunlardır:

• Sinirbilim – Sinirbilimciler, herhangi bir nöronu tanımlamak veya faz geçişleri sırasında beyin yapısını haritalamak için PCA'yı kullanır.

• Finans – PCA, finans sektöründe sabit getirili portföyler oluşturmak için verilerin boyutunu azaltmak için kullanılır. Finans sektörünün diğer birçok yönü, getirileri tahmin etmek, varlık tahsis algoritmaları veya öz sermaye algoritmaları yapmak gibi PCA'yı içerir.

• Görüntü Teknolojisi – PCA, görüntü sıkıştırma veya dijital görüntü işleme için de kullanılır. Her görüntü, her pikselin yoğunluk değerleri çizilerek bir matris aracılığıyla temsil edilebilir ve ardından üzerine PCA uygulayabiliriz.

• Yüz Tanıma – Yüz tanımadaki PCA, yüz tanımayı daha doğru hale getiren özyüzlerin oluşturulmasına yol açar.

• Tıbbi – PCA, farklı değişkenler arasındaki korelasyonu bulmak için birçok tıbbi veride kullanılır. Örneğin doktorlar, kolesterol ve düşük yoğunluklu lipoprotein arasındaki ilişkiyi göstermek için PCA'yı kullanır.

• Güvenlik – Anormallikler PCA kullanılarak kolayca bulunabilir. Siber/bilgisayar saldırılarını tespit etmek ve PCA yardımıyla görselleştirmek için kullanılır.

Paket Servis Noktaları

PCA, orijinal veri kümesinin zayıf bir korelasyonu varsa veya hiç korelasyonu yoksa, uygulandıktan sonra düşük model performansına da yol açabilir. PCA'yı mükemmel şekilde uygulamak için değişkenlerin birbiriyle ilişkili olması gerekir. PCA bize özelliklerin bir kombinasyonunu sağlar ve orijinal veri setinden bireysel özelliklerin önemi ortadan kalkar. En fazla varyansa sahip ana eksenler ideal ana bileşenlerdir.

Ayrıca Okuyun: Makine Öğrenimi Proje Fikirleri

Çözüm

PCA, bir özellik setinin boyutlarını azaltmak için yaygın olarak kullanılan bir tekniktir.

Makine öğrenimi hakkında daha fazla bilgi edinmek istiyorsanız, çalışan profesyoneller için tasarlanmış ve 450+ saat zorlu eğitim, 30'dan fazla vaka çalışması ve ödev, IIIT- sunan IIIT-B & upGrad'ın Makine Öğrenimi ve Yapay Zeka PG Diplomasına göz atın. B Mezun statüsü, 5+ pratik uygulamalı bitirme projesi ve en iyi firmalarla iş yardımı.

PCA tüm verilerde kullanılabilir mi?

Evet. Temel Bileşen Analizi (PCA), çok yüksek boyutlu verilere bakmanın ve anlamanın bir yolunu sağlayan bir veri analizi tekniğidir. Başka bir deyişle, PCA çok sayıda değişkene sahip verilere uygulanabilir. PCA'nın yalnızca belirli bir biçimdeki veriler üzerinde kullanılabileceğine dair yaygın bir yanılgı vardır. Örneğin, birçok kişi PCA'nın yalnızca sayısal değişkenler üzerinde yararlı olduğunu düşünür. Durum bu değil. Aslında, PCA her türden değişken üzerinde kullanılabilir. Örneğin, PCA kategorik değişkenlere, sıra değişkenlerine vb. uygulanabilir.

Temel Bileşen Analizinin sınırlamaları nelerdir?

PCA, verilerinizi analiz etmek ve en önemli iki veya üç faktörü çıkarmak için harika bir araçtır. Aykırı değerleri ve trendi tespit etmek harika. Ancak, aşağıdaki gibi bazı sınırlamaları vardır: Küçük veri kümeleri için uygun değildir (Genellikle, veri kümesi 30'dan fazla satıra sahip olmalıdır). Önemli faktörleri bulmaz, ancak değerlere göre seçer. Bu nedenle, önemli faktörleri bulmak zordur. Arkasında güçlü bir matematiksel yapıya sahip değildir. Verileri PCA ile karşılaştırmak zordur. Doğrusal olmayan ilişkiler bulamaz.

Temel bileşen analizinin avantajları nelerdir?

Temel bileşen analizi (PCA), çok sayıda olası ilişkili değişkeni, temel bileşenler olarak adlandırılan çok daha az sayıda ilişkisiz değişkene dönüştürmek için kullanılan istatistiksel bir yöntemdir. PCA, bir veri kümesini tanımlamak için gereken en önemli değişkenleri bulmamıza izin verdiği için bir veri azaltma tekniği olarak kullanılabilir. PCA, verilerin iç yapısı hakkında fikir edinmek için veri alanının boyutsallığını azaltmak için de kullanılabilir. Bu, büyük veri kümeleriyle uğraşırken yararlıdır.