Veri Madenciliğinde Regresyon: Farklı Regresyon Teknikleri Türleri [2022]

Yayınlanan: 2021-01-01

Denetimli öğrenme , zaten etiketlenmiş verileri kullanarak makine öğrenimi algoritmasını eğittiğiniz bir öğrenmedir. Bu, tüm eğitim verileri için doğru cevabın zaten bilindiği anlamına gelir. Eğitimden sonra, denetimli öğrenme algoritmasının analiz ettiği yeni bir bilinmeyen veri seti sağlanır ve ardından etiketli eğitim verilerine dayalı olarak doğru bir sonuç üretir.

Denetimsiz öğrenme , algoritmanın doğru etiketin bilinmediği bilgiler kullanılarak eğitildiği yerdir. Burada makinenin temel olarak, önceden herhangi bir veri üzerinde eğitim almadan çeşitli modellere veya herhangi bir korelasyona göre bilgileri bir araya getirmesi gerekir.

Regresyon , herhangi bir sürekli değerli özelliği tahmin etmeye çalışan, denetimli bir makine öğrenimi tekniğinin bir biçimidir. Hedef değişken (bağımlı) ile tahmin değişkeni (bağımsız) arasındaki ilişkiyi analiz eder. Regresyon, zaman serisi modelleme, tahmin ve diğerleri için kullanılabilecek önemli bir veri analizi aracıdır.

Regresyon, çeşitli veri noktalarına bir eğri veya düz bir çizgi uydurma sürecini içerir. Eğri ile veri noktaları arasındaki mesafeler minimum olacak şekilde yapılır.

Doğrusal ve lojistik regresyonlar en popüler türler olsa da, belirli bir veri kümesindeki performanslarına bağlı olarak uygulanabilecek başka birçok regresyon türü vardır. Bu farklı türler, tüm bağımlı değişkenlerin sayısı ve türü ile oluşan regresyon eğrisinin türü nedeniyle farklılık gösterir.

Kontrol edin: Veri Bilimi ve Veri Madenciliği Arasındaki Fark

İçindekiler

Doğrusal Regresyon

Doğrusal Regresyon, hedef (bağımlı) değişken ile bir veya daha fazla bağımsız değişken arasında en uygun düz bir çizgi kullanarak bir ilişki oluşturur.

Şu denklemle temsil edilir:

Y = a + b*X + e ,

a'nın kesişim olduğu yerde, b, regresyon çizgisinin eğimidir ve e, hatadır. X ve Y, sırasıyla öngörücü ve hedef değişkenlerdir. X, birden fazla değişkenden (veya özellikten) oluştuğunda, çoklu doğrusal regresyon olarak adlandırılır.

En uygun çizgi, En Küçük Kare yöntemi kullanılarak elde edilir. Bu yöntem, veri noktalarının her birinden regresyon çizgisine olan sapmaların karelerinin toplamını en aza indirir. Tüm sapmaların karesi alındığından, negatif ve pozitif mesafeler burada iptal edilmez.

Polinom Regresyon

Polinom regresyonda, bağımsız değişkenin gücü regresyon denkleminde 1'den fazladır. Aşağıda bir örnek verilmiştir:

Y = bir + b*X^2

Bu özel regresyonda, en iyi uyum çizgisi, Lineer Regresyondaki gibi düz bir çizgi değildir. Ancak, tüm veri noktalarına uyan bir eğridir.

Polinom regresyonunu uygulamak, eğriyi daha karmaşık hale getirerek hatalarınızı azaltmak istediğinizde, aşırı uydurmaya neden olabilir. Bu nedenle, eğriyi her zaman probleme genelleyerek uydurmaya çalışın.

Lojistik regresyon

Lojistik regresyon, bağımlı değişken ikili yapıda olduğunda (Doğru veya Yanlış, 0 veya 1, başarı veya başarısızlık) kullanılır. Burada hedef değer (Y) 0 ile 1 arasındadır ve yaygın olarak sınıflandırma tipi problemler için kullanılır. Lojistik Regresyon, Lineer Regresyonda olduğu gibi bağımlı ve bağımsız değişkenlerin lineer bir ilişkiye sahip olmasını gerektirmez.

Okuyun : Veri Madenciliği Proje Fikirleri

Sırt Regresyonu

Ridge Regresyon, çoklu bağlantı sorunu olan çoklu regresyon verilerini analiz etmek için kullanılan bir tekniktir. Çoklu doğrusallık, herhangi iki bağımsız değişken arasında neredeyse doğrusal bir ilişkinin varlığıdır.

En küçük kareler tahminleri düşük bir önyargıya sahip olduğunda, ancak yüksek varyansa sahip olduklarında oluşur, bu nedenle gerçek değerden çok farklıdırlar. Böylece, tahmin edilen regresyon değerine bir derece yanlılık eklenerek, standart hatalar, sırt regresyonu uygulanarak büyük ölçüde azaltılır.

Kement Regresyonu

A S S O “LASSO” terimi, L Mutlak S gelir .

Bir tür doğrusal regresyondur. büzülme kullanır . Bunda, tüm veri noktaları ortalama olarak da adlandırılan merkezi bir noktaya doğru indirilir (veya küçültülür). Kement prosedürü, nispeten daha az parametreye sahip basit ve seyrek modeller için en uygundur. Bu tür bir regresyon, çoklu bağlantıdan (tıpkı bir sırt gibi) muzdarip modeller için de çok uygundur.

Dünyanın en iyi Üniversitelerinden veri bilimi sertifikası kazanın . Kariyerinizi hızlandırmak için Yönetici PG Programlarımıza, İleri Düzey Sertifika Programlarımıza veya Yüksek Lisans Programlarımıza katılın.

Çözüm

Regresyon analizi, temel olarak, çok çeşitli ölçeklerde ölçülen farklı türdeki özellik değişkenlerinin etkilerini karşılaştırmanıza olanak tanır. Toplam alana, bölgeye, yaşa, mobilyaya vb. dayalı olarak ev fiyatlarının tahmini gibi. Bu sonuçlar, pazar araştırmacılarına veya veri analistlerine, yararsız özellikleri ortadan kaldırmak ve doğru tahmin modelleri oluşturmak için en iyi özellikleri değerlendirmek için büyük ölçüde fayda sağlar.

Veri bilimi hakkında bilgi edinmek istiyorsanız, çalışan profesyoneller için oluşturulan ve 10'dan fazla vaka çalışması ve proje, uygulamalı uygulamalı atölye çalışmaları, endüstri uzmanlarıyla mentorluk sunan IIIT-B & upGrad'ın Veri Biliminde PG Diplomasına göz atın, 1- endüstri danışmanlarıyla bire bir, en iyi firmalarla 400+ saat öğrenim ve iş yardımı.

Doğrusal regresyon nedir?

Doğrusal regresyon, hedef değişken veya bağımlı değişken ile bir veya birden fazla bağımsız değişken arasındaki ilişkiyi kurar. Denklemimizde birden fazla öngörücümüz olduğunda, çoklu regresyon olur.

En küçük Kareler yöntemi, en uygun çizgiyi elde etmek için en iyi yöntem olarak kabul edilir, çünkü bu yöntem, veri noktalarından regresyon çizgisine olan sapmaların karelerinin toplamını en aza indirir.

Regresyon teknikleri nelerdir ve neden gereklidir?

Bunlar, değişkenler arasındaki ilişkileri tahmin etme veya tahmin etme teknikleridir. İlişki iki değişken arasında bulunur, biri hedef diğeri ise tahmin değişkenidir (x ve y değişkenleri olarak da bilinir).

Bu ilişkiyi tanımlamak için doğrusal, lojistik, kademeli, polinom, kement ve sırt gibi farklı teknikler kullanılabilir. Bu, veri toplamaları kullanarak ve bunlar arasında grafikler çizerek tahminler oluşturmak için yapılır.

Doğrusal regresyon tekniği, lojistik regresyon tekniğinden nasıl farklıdır?

Bu regresyon tekniklerinin her ikisi arasındaki fark, bağımlı değişkenin türünde yatmaktadır. Bağımlı değişken sürekli ise doğrusal regresyon, bağımlı değişken kategorik ise lojistik regresyon kullanılır.

Adından da anlaşılacağı gibi, lineer teknikte lineer veya düz bir çizgi tanımlanır. Oysa lojistik teknikte, bağımsız değişken bir polinom olduğu için bir S-eğrisi tanımlanır. Doğrusal durumda sonuçlar süreklidir, lojistik teknik durumunda ise sonuçlar Doğru veya Yanlış, 0 veya 1 vb. kategorilerde olabilir.