Makine Öğreniminde Doğrusal Regresyon: Bilmeniz Gereken Her Şey

Yayınlanan: 2020-04-28

Veri, analiz ve deneyimle desteklenen bir şekilde günlük sorunlara çözümler bulmak için günlük hayatımızın çeşitli alanlarında farklı makine öğrenimi teknolojileri kullanılmaktadır. Bu makine öğrenimi algoritmaları, yalnızca metin, resim ve videoları tanımlamada çok önemli bir rol oynamakla kalmaz, aynı zamanda tıbbi çözümleri, siber güvenliği, pazarlamayı, müşteri hizmetlerini ve normal hayatımızı ilgilendiren diğer birçok yönü veya alanı iyileştirmede etkilidir.

Tüm algoritmaların bölündüğü başlıca iki tür makine öğrenmesi algoritması vardır. Bunlar denetimli ve denetimsiz makine öğrenimi algoritmalarıdır. Bu blogdaki odak noktamız yalnızca denetimli makine öğrenimi algoritmaları ve özellikle doğrusal regresyon olacaktır. Denetimli makine öğrenimi algoritmalarını anlayarak başlayalım.

İçindekiler

Denetimli öğrenme algoritmaları nelerdir?

Bu makine öğrenimi algoritmaları, kullanıcı tarafından girilen verilere bağlı, iyi kurulmuş bir çıktıyı tahmin etmek için eğittiğimiz algoritmalardır. Algoritma, modeli belirli bir veri kümesinde çıktılar verecek şekilde eğitir. Başlangıçta, sistem hem giriş hem de çıkış verilerine erişebilir. Sistemin işi, girdiyi çıktıya eşleyecek kuralları tanımlamaktır.

Modelin eğitimi, performans optimal seviyeye gelene kadar devam eder. Eğitimden sonra sistem, eğitilirken karşılaşmadığı çıktı nesnelerini atayabilir. İdeal senaryoda, bu süreç oldukça doğrudur ve çok fazla zaman almaz. Sınıflandırma ve regresyon olmak üzere iki tür denetimli öğrenme algoritması vardır.

Doğrudan ana tartışma konumuza geçmeden önce her ikisini de kısaca tartışacağız.

1. Sınıflandırma

Bunlar, sınıf atamalarını yeniden üretmek gibi basit bir amacı olan denetimli makine öğrenimi algoritmalarıdır. Öğrenme tekniği genellikle veri ayrımının gerekli olduğu durumlar için düşünülür. Yanıtları tahmin ederek verileri sınıflara ayırır. Örneğin, belirli bir gün için hava durumu tahmini, bir albümden belirli bir fotoğraf türünü tanımlama ve spam'i e-postadan ayırma.

2. Regresyon

Öğrenme tekniği, çıktı değerlerinin yeniden üretilmesi amacına hizmet etmek için kullanılır. Başka bir deyişle, verileri belirli bir değere sığdırmamız gereken durumlarda kullanılır. Örneğin, genellikle farklı kalemlerin fiyatını tahmin etmek için kullanılır. Regresyon, hayal edebileceğinizden daha fazla şeyi tahmin etmek için kullanılabilir.

Regresyon türleri

Lojistik ve doğrusal regresyonlar, modern makine öğrenimi ve veri bilimi dünyasında var olan en önemli iki regresyon türüdür. Bununla birlikte, başkaları da var, ancak oldukça az kullanılıyorlar. Belirli bir veri seti üzerinde sayısız regresyon gerçekleştirebileceğimiz veya farklı durumlar için kullanabileceğimiz gerçeği inkar edilemez.

Her regresyon biçiminin artıları ve eksileri vardır ve belirli koşullar için uygundur. Yalnızca doğrusal saldırganlığa odaklanacak olsak da, işleyişine aşina olmak için tüm arka planı bilmeniz gerekir.

Tartışmayı adım adım ele almamızın nedeni budur.

Regresyon analizi nedir?

Regresyon analizi, bağımsız değişkenler veya tahminciler ile bağımlı değişkenler veya hedefler arasındaki ilişkiyi araştırmayı amaçlayan tahmine dayalı bir modelleme metodolojisinden başka bir şey değildir. Bu analiz, zaman serisi modelleme, tahmin ve diğerleri dahil olmak üzere birçok farklı şeyde kullanılır.

Örneğin, trafik kazaları ile gündelik sürüş arasındaki ilişkiyi incelemek istiyorsanız, bu iş için regresyon analizinden daha iyi bir teknik yoktur. Verilerin hem analizinde hem de modellenmesinde çok önemli bir rol oynar. Bu, çizgiden veya eğriden veri noktası mesafelerindeki farkı en aza indirebileceğimiz şekilde farklı veri noktalarına bir çizgi veya eğri sığdırarak yapılır.

Regresyon analizine ne gerek var?

Regresyon analizi, değişkenler arasındaki ilişkiyi, ancak sayıları iki veya daha fazla ise tahmin etmek için kullanılır. Bunun nasıl çalıştığını basit bir örnekle anlayalım. Mevcut ekonomik koşulları göz önünde bulundurarak, belirli bir süre için bir şirketin satış büyümesini tahmin etmenizi gerektiren bir görev verildiğini varsayalım.

Şimdi şirket verileri size satışların ekonomideki büyümenin yaklaşık iki katı arttığını söylüyor. Bu verileri, geçmişteki ve güncel bilgilerden içgörüler alarak şirketin gelecekteki satış büyümesini tahmin etmek için kullanabiliriz.

Regresyon analizini kullanmak, verilerle çalışırken veya veri seti üzerinde bir tahmin yaparken size bir takım avantajlar sağlayabilir. Bağımsız ve bağımlı değişkenler arasındaki anlamlı ilişkilere işaret etmek için kullanılabilir. Birden çok bağımsız değişkenden bağımlı değişken deneyimlerinin etkisini belirtmek için kullanılır.

Farklı ölçüm ölçeklerine ait farklı değişkenlerin etkilerinin karşılaştırılmasını sağlar. Bu şeyler, veri bilimcilerine, araştırmacılara ve veri analistlerine en uygun değişken kümesine dayalı tahmine dayalı modeller oluşturmada yardımcı olmada uzun bir yol kat ediyor.

Okuyun: Makine Öğrenimi Projesi Fikirleri ve Konuları

Doğru regresyon modelini seçmek için nelere dikkat etmelisiniz?

Eh, seçim yapabileceğiniz iki veya üç tekniğiniz olduğunda işler genellikle çok daha kolaydır. Ancak, elimizde bu kadar çok seçenek varsa, karar çok daha bunaltıcı hale gelir. Sonuç sürekli olduğu için artık sadece doğrusal regresyon seçemezsiniz. Veya sonuç ikili ise lojistik regresyona gidin. Problemimiz için bir regresyon modeli seçerken göz önünde bulundurmamız gereken daha çok şey var.

Daha önce de belirttiğimiz gibi, kafamızı kurcalayabileceğimiz daha fazla regresyon modeli var. Peki seçim yaparken nelere dikkat etmeliyiz? Önemli olan birkaç şey vardır – veri boyutu, bağımlı ve bağımsız değişken türü ve söz konusu verilerin diğer özellikleri. Doğru regresyon modelini seçerken göz önünde bulundurulması gereken birkaç önemli nokta:

Veri keşfi, tahmine dayalı modeller oluşturmanın anahtarıdır. Seçim yapmadan önce yapmanız gereken ilk şeylerden biri olmasına şaşmamalı. Değişken etki ve ilişkiyi belirlemek için verileri keşfedin.

Çapraz doğrulama yoluyla tahmin için farklı regresyon modellerini değerlendirin. Veri kümenizi eğitim ve doğrulama gruplarına ayırın. Tahmin edilen ve gözlemlenen değerler arasındaki ortalama kare farkı, tahmin doğruluğu hakkında bir fikir verecektir.

Yüksek çoklu bağlantı ve boyutluluk içeren değişkenlere sahip veri kümeleri için doğru modeli seçmek için Ridge, ElasticNet ve diğer regresyon düzenleme yöntemlerini kullanın.

Farklı regresyon modelleri ve uygunlukları arasında bir karşılaştırma yapmak için AIC, BIC, R-kare, hata terimi ve diğerleri gibi parametreleri analiz edebiliriz. Mallow'un Cp'si olarak adlandırılan bir kriter daha var. Önyargıya dikkat etmek için modeli farklı alt modellerle karşılaştırır.

Çalıştığınız veri setinde çok sayıda kafa karıştırıcı değişken varsa, asla otomatik model seçme yöntemiyle gitmeyin. Bunu yaparsanız, bu değişkenleri bir kerede modele koymaya doğru ilerlemiş olursunuz.

Amacınız doğru regresyon modelini seçmek için de önemlidir. Güçlü bir modele, basit bir modele veya istatistiksel olarak anlamlı bir modele ihtiyacınız olup olmadığı, amacınıza bağlı olacaktır.

Doğrusal regresyon nedir?

Doğrusal regresyonun ne olduğu hakkında daha fazla bilgi edelim. Denetimli öğrenme kapsamına giren makine öğrenme tekniklerinden biridir. Çeşitli alanlarda lineer regresyon kullanımındaki ani artışın arkasında makine öğrenimi tekniklerinin kullanımındaki ve talebindeki artış yatmaktadır. Çok katmanlı algılayıcı katmanlarının doğrusal regresyon gerçekleştirdiğini biliyor muydunuz? Şimdi lineer regresyonun uygulandığı veri kümeleri hakkında yaptığı bilinen varsayımlara biraz ışık tutalım.

1. Otokorelasyon:

Doğrusal regresyon tarafından yapılan bu varsayım, verilerde çok az otokorelasyon olduğunu veya hiç olmadığını gösterir. Otokorelasyon, artık hatalar şu veya bu şekilde birbirine bağımlı olduğunda gerçekleşir.

2. Çoklu doğrusallık:

Bu varsayım, veri çoklu doğrusallığının ya hiç olmadığını ya da çok az olduğunu söylüyor. Çoklu doğrusallık, bağımsız özellikler veya değişkenler bir miktar bağımlılık gösterdiğinde gerçekleşir.

3. Değişken ilişki:

Model, özellik ve yanıt değişkenleri arasında doğrusal bir ilişki olduğu varsayımına sahiptir.

Lineer regresyonu kullanabileceğiniz birkaç örnek, sahip olduğu oda sayısına bağlı olarak bir evin fiyatının tahminini, bir bitkinin ne sıklıkta sulandığına bağlı olarak ne kadar iyi büyüyeceğini belirlemeyi vb. içerir. Tüm bu örnekler için, farklı değişkenler arasında var olan ilişkinin türü hakkında zaten bir fikriniz olur.

Doğrusal regresyon analizi kullandığınızda, fikrinizi veya hipotezinizi verilerle desteklersiniz. Farklı değişkenler arasındaki ilişkiyi daha iyi anladığınızda, güçlü tahminler yapmak için daha iyi bir konumda olursunuz. Henüz bilmiyorsanız, lineer regresyonun istatistiksel bir model olduğu kadar denetimli bir makine öğrenmesi tekniği olduğunu da söyleyelim.

Makine öğrenimi terimleriyle, regresyon modeli sizin makinenizdir ve öğrenme, değişkenler arasındaki ilişkiyi öğrenmesine yardımcı olan ve veri destekli tahminler yapmasını sağlayan bir veri kümesi üzerinde eğitilen bu modelle ilgilidir.

Doğrusal regresyon nasıl çalışır?

Analizi çalıştırmadan önce, iki tür ekibimiz olduğunu varsayalım - işlerini iyi yapanlar ve yapmayanlar. Bir takımın yaptığı işte iyi olmamasının birkaç nedeni olabilir. Bunun nedeni, doğru becerilere sahip olmaması veya işte belirli görevleri yerine getirmek için gereken deneyime sahip olmaması olabilir. Ancak ne olduğundan asla emin olamazsınız.

Belirli bir iş kolunda yer alan belirli bir ekip için en uygun olmak için gereken her şeye sahip adayları bulmak için doğrusal regresyon kullanabiliriz. Bu, işlerinde iyi olma olasılığı yüksek adayları seçmemize yardımcı olacaktır.

Regresyon analizinin hizmet ettiği amaç, söz konusu verilere uygun bir trend eğrisi veya çizgisi oluşturmaktır. Bu, bir parametrenin (bağımsız değişkenler) diğer parametreyle (bağımlı değişkenler) nasıl ilişkili olduğunu bulmamıza yardımcı olur.

Her şeyden önce, farklı adayların tüm özelliklerine daha yakından bakmamız ve bunların şu ya da bu şekilde ilişkili olup olmadığını öğrenmemiz gerekiyor. Bazı korelasyonlar bulursak, bu niteliklere dayalı tahminler yapmaya başlayabiliriz.

Verilerdeki ilişki araştırması, bir trend eğrisi veya çizgisi kullanılarak ve verilerin grafiği çizilerek yapılır. Herhangi bir korelasyon olup olmadığını eğri veya çizgi bize gösterecektir. Artık ilişkileri reddetmek veya kabul etmek için doğrusal regresyon kullanabiliriz. İlişki doğrulandığında, ilişkisini öğrenmek için regresyon algoritmasını kullanabiliriz. Bu, doğru tahminler yapmamızı sağlayacaktır. Adayın işe uygun olup olmadığını daha doğru bir şekilde tahmin edebileceğiz.

Model yetiştirmenin önemi

Doğrusal bir regresyon modelinin eğitiminde yer alan süreç, birçok yönden diğer makine öğrenimi modellerinin nasıl eğitildiğine benzer. Bir eğitim veri seti üzerinde çalışmamız ve değişkenlerinin ilişkisini, modelin yeni veri örneklerini tahmin etme yeteneğini etkilemeyecek şekilde modellememiz gerekiyor. Model, tahmin denkleminizi sürekli olarak geliştirmek için eğitilmiştir.

Verilen veri kümesinde yinelemeli olarak döngü yapılarak yapılır. Bu eylemi her tekrarladığınızda, eğim veya maliyet fonksiyonunun gösterdiği yönde sapma ve ağırlık değerini aynı anda güncellersiniz. Eğitimin tamamlanma aşamasına, bir hata eşiğine dokunulduğunda veya takip eden eğitim yinelemeleri ile maliyette herhangi bir azalma olmadığında ulaşılır.

Modeli eğitmeye başlamadan önce hazırlamamız gereken birkaç şey var. Gereken yineleme sayısını ve öğrenme oranını ayarlamamız gerekiyor. Bunun dışında ağırlıklarımız için de default değerler belirlememiz gerekiyor. Ayrıca, her tekrarda elde edebildiğimiz ilerlemeyi kaydedin.

düzenlileştirme nedir?

Diğerlerine göre tercih edilen lineer regresyon varyantlarından bahsedersek, o zaman düzenlileştirme ekleyenlerden bahsetmek zorunda kalacağız. Düzenleme, diğerlerinden daha büyük mutlak değerlere sahip bir modelde bu ağırlıkların cezalandırılmasını içerir.

Aşırı uydurmayı sınırlamak için düzenlileştirme yapılır; bu, eğitim verisi ilişkilerini çok yakından yeniden ürettiği için bir modelin sıklıkla yaptığı şeydir. Modelin, olması gerektiği gibi, daha önce hiç görülmemiş örneklere genellenmesine izin vermez.

Doğrusal regresyonu ne zaman kullanırız?

Doğrusal regresyonun gücü, ne kadar basit olduğu konusunda yatar. Hemen hemen her soruya cevap bulmak için kullanılabileceği anlamına gelir. Doğrusal bir regresyon algoritması kullanmadan önce, veri kümenizin üzerinde çalıştığı gerekli koşulları karşıladığından emin olmalısınız.

Bu koşullardan en önemlisi veri kümenizin değişkenleri arasında doğrusal bir ilişkinin varlığıdır. Bu, kolayca çizilmelerini sağlar. Tahmin edilen değerler ile elde edilen gerçek değer arasındaki farkın sabit olduğunu görmeniz gerekir. Tahmin edilen değerler hala bağımsız olmalı ve tahmin ediciler arasındaki korelasyon rahatlık için çok yakın olmalıdır.

Veri kümenizin istenen koşulları karşılayıp karşılamadığını görmek için verilerinizi bir çizgi boyunca kolayca çizebilir ve ardından yapısını kapsamlı bir şekilde inceleyebilirsiniz.

Doğrusal regresyon kullanımları

Doğrusal saldırganlığın moleküler düzeyde yorumlamaları kolaylaştırdığı basitlik, en büyük avantajlarından biridir. Değişkenlerin doğrusal bir ilişkiye sahip olduğu tüm bu veri kümelerine doğrusal regresyon uygulanabilir.

İşletmeler kendi satış verileri olan lineer regresyon algoritmasını kullanabilirler. Yeni bir ürün piyasaya sürmeyi planlayan bir işletme olduğunuzu varsayalım. Ancak, bu ürünü hangi fiyattan satmanız gerektiğinden gerçekten emin değilsiniz. Müşterilerinizin ürününüze nasıl tepki verdiğini birkaç iyi düşünülmüş fiyat noktasında satarak kontrol edebilirsiniz. Bu, ürün satışlarınız ve fiyatınız arasındaki ilişkiyi genelleştirmenize olanak tanır. Doğrusal regresyon ile müşterilerin kabul etme olasılığının daha yüksek olduğu bir fiyat noktası belirleyebileceksiniz.

Ayrıca okuyun: Hindistan'da Makine Öğrenimi Maaşı

Doğrusal regresyon, bir ürünün tedarik edilmesinin ve üretiminin farklı aşamalarında da kullanılabilir. Bu modeller akademik, bilimsel ve tıbbi alanlarda yaygın olarak kullanılmaktadır. Örneğin, çiftçiler çevresel koşulları kendi yararlarına kullanmalarına izin veren bir sistem modelleyebilirler. Bu, elementlerle, mahsul verimlerine ve kârlarına en az zarar verecek şekilde çalışmalarına yardımcı olacaktır.

Bunlara ek olarak, diğer alanların yanı sıra sağlık, arkeoloji ve emek alanlarında da kullanılabilir. doğrusal bir modelde yorumlama nasıldır

Çözüm

Regresyon analizi, nihai veriler üzerinde doğrudan veya dolaylı etkisi olabilecek değişkenleri sıralamak için matematiği kullanan, yaygın olarak benimsenen bir araçtır. Analiz yapılırken akılda tutulması önemlidir! Doğrusal regresyon, veri bilimcileri tarafından veri kümesinin değişkenleri arasında doğrusal ilişkiler kurmak için kullanılan en yaygın algoritmalardan biridir ve matematiksel modeli tahmine dayalı analiz için gereklidir.

Makine öğrenimi hakkında daha fazla bilgi edinmek istiyorsanız, çalışan profesyoneller için tasarlanmış ve 450+ saat zorlu eğitim, 30'dan fazla vaka çalışması ve ödev, IIIT- sunan IIIT-B & upGrad'ın Makine Öğrenimi ve Yapay Zeka PG Diplomasına göz atın. B Mezun statüsü, 5+ pratik uygulamalı bitirme projesi ve en iyi firmalarla iş yardımı.

Doğrusal regresyonun herhangi bir sınırlaması veya dezavantajı var mı?

Doğrusal regresyon, bağımlı bir değişken ile bir veya daha fazla bağımsız değişken arasındaki ilişkiyi anlamak için kullanılan popüler bir yöntemdir. Doğrusal regresyon modeli, makine öğrenimi modelleri geliştirmek için yaygın olarak kullanılsa da, bazı sınırlamaları vardır. Örneğin, bu regresyon algoritması, değişkenler arasındaki tüm ilişkilerin doğrusal olduğunu varsayar ve bu genellikle yanıltıcı olabilir. Daha sonra bağımsız değişkenlerle olan ilişkilerini incelerken her zaman bağımlı değişkenin ortalama değerini dikkate alır. Daha sonra, doğrusal regresyon her zaman verilerin birbirini dışladığını, yani diğerlerinin değerlerinden bağımsız olduğunu varsayar ki bu yanlış olabilir. Ayrıca, doğrusal regresyon genellikle aykırı değerlere veya beklenmeyen verilere karşı hassastır.

Regresyon analizinin popülaritesinin nedenleri nelerdir?

Regresyon analizi, makine öğreniminde kullanılan en kullanışlı ve güçlü istatistiksel tekniklerden biridir. Popülerliğini açıklayan çeşitli nedenler var. İlk olarak, regresyon analizi, muazzam çok yönlülüğü nedeniyle geniş bir uygulama yelpazesi ile birlikte gelir. Regresyon analizi modelinin uygulanması ve yorumlanması çok basittir, yani nasıl çalıştığını kolayca açıklayabilir ve sonuçları yorumlayabilirsiniz. Regresyon analizini anlamak, makine öğrenimi istatistiksel modelleri üzerinde sağlam bir tutuş sağlar. Ayrıca R ve Python gibi programlama dillerini kullanarak daha verimli makine öğrenimi modelleri geliştirmenize yardımcı olur. Ayrıca, bu teknik, yararlı tahminler yapmak için yapay sinir ağları ile mükemmel bir entegrasyon sunar.

İşletmeler lineer regresyonu kendi avantajlarına nasıl uygulayabilir?

İşletmeler, karlılığı etkileyen tüketici davranışına ilişkin yararlı veri içgörülerini incelemek ve oluşturmak için doğrusal regresyon kullanabilir. Ayrıca şirketlerin tahminler yapmasına ve pazar eğilimlerini değerlendirmesine yardımcı olabilir. Pazarlamacılar, promosyonları ve ürünlerin fiyatlandırılmasını içeren pazarlama stratejilerinin etkinliğini değerlendirmek için doğrusal regresyon kullanabilirler. Finans ve sigorta şirketleri, riski etkin bir şekilde değerlendirebilir ve kritik iş kararlarını formüle edebilir. Kredi kartı şirketleri, doğrusal regresyon modellerini kullanarak temerrüde düşen risk portföylerini en aza indirmeyi hedefleyebilirler.