Makine Öğreniminde Regresyon ve Sınıflandırma: Regresyon ve Sınıflandırma Arasındaki Fark

Yayınlanan: 2020-11-12

İçindekiler

Tanıtım

Veri bilimi problemlerini çözerken doğru yaklaşıma sahip olmak kritik öneme sahiptir ve çoğu zaman karışıklık ile doğru çözümü bulmak arasındaki fark anlamına gelebilir. Başlangıçta, veri bilimcileri genellikle ikisi arasında kafa karıştırmaya eğilimlidir - soruna doğru yaklaşımla saldırmak için önemli olan küçük teknik ayrıntıları çözemezler.

Deneyimli ve deneyimli veri bilimcilerle bile, farklılıklar kolayca karışabilir ve bu, doğru yaklaşımı uygulamayı zorlaştırır. Bu söylemde, iki önemli veri bilimi algoritması – sınıflandırma ve regresyon – arasındaki farklılıklara ve benzerliklere daha derin bir dalış yapacağız.

Bu yaklaşımların her ikisi de, iş sorunlarını çözmede herhangi bir veri bilimcisinin cephaneliğinde temel araçlar olmalıdır. Bu nedenle, doğru modelleri seçmek, uygun ince ayarları yapmak ve işinize ivme kazandıracak doğru çözümü uygulamak için çok önemli bir anlayış hayati önem taşır.

Okuyun: Makine Öğrenimi Proje Fikirleri

Regresyon ve Sınıflandırma

İlk olarak, önemli benzerlik - hem regresyon hem de sınıflandırma, denetimli makine öğrenimi yaklaşımları altında kategorize edilmiştir. Denetimli makine öğrenimi yaklaşımı nedir? Tahminler yapmak için gerçek dünya veri kümelerini (eğitim veri kümeleri olarak adlandırılır) kullanarak modeli eğiten bir dizi makine öğrenimi algoritmasıdır.

Modeli eğitmek için kullanılan verilerin iyi etiketlenmiş ve temiz olması gerekir; model, eğitim verilerinden bağımsız değişkenler ile öngörücü değişken arasındaki ilişkiyi öğrenecektir. Modelden veri içindeki kalıpları kendi başına tanımlamasını ve böylece veri kümesindeki kalıpları inceleyerek haritalama işlevini bulmasını isteyen denetimsiz makine öğrenimi yaklaşımının aksine.

Denetimli bir makine öğrenimi yaklaşımı, x'in girdi değişkenlerini ifade ettiği ve y'nin eşleme işlevi olduğu y = f(x) eşleme işlevini çözmeye çalışır. Eşleme işlevini çözerek, gerçek dünya veri kümesine hızlı ve kolay bir şekilde aktarılabilir.

Hem sınıflandırma hem de regresyon işlevleri, diğer denetimli makine öğrenimi yaklaşımlarının yanı sıra bunu yapabilir. Ancak önemli fark ve regresyon yaklaşımları, bir regresyonda, 'y' çıktı değişkeninin sayısal ve sürekli (bir tamsayı veya kayan noktalı değerler olabilir) , sınıflandırma algoritmasında, çıktı değişkeni 'y'nin ayrık ve sürekli olmasıdır. kategorik.

Dolayısıyla, maaş, yaşam beklentisi, kayıp olasılığı gibi değişkenleri tahmin ediyorsanız, bu değişkenler sayısal ve sürekli olacaktır.

Örneğin , bir finans kuruluşunun, temerrüt olasılığını ölçmek için kredi başvuru sahiplerinin profilini çıkarmakla ilgilendiğini varsayalım. Veri bilimcisi soruna iki ana yoldan yaklaşabilir - ya her kredi başvurusu sahibine bir olasılık (0 ile 1 arasında bir dizi sürekli kayan noktalı sayı olacaktır) atayabilir ya da sadece bir dizi ikili çıktı verir- GEÇTİ/ BAŞARISIZ'a karşılık gelir.

Her iki yaklaşım da, başvuru sahibinin kredi geçmişi, maaş bilgileri, demografik, yaş, makroekonomik koşullar vb. gibi aynı girdi değişkenleri kümesini alacaktır. Ancak iki yaklaşım arasındaki fark, öncekinin her başvuru sahibine puan vermesine karşın, Bir bireyin diğerine karşı ne kadar daha olası olduğu gibi göreli hesaplamalar yapın.

Çıktı, diğer analizler için de kullanılabilir. Bununla birlikte, ikinci durumda, algoritma bireysel profillerin tüm veri setini Evet veya Hayır olarak sınıflandırır ve bu daha sonra kredi vermenin güvenli olup olmadığına karar vermek için kullanılabilir. Hem evet hem de hayır sınıflarının alt sınıf içinde önemli farklılıklar gösterebileceğini unutmayın.

Ancak burada sınıflandırma yaklaşımıyla, her bir alt grup içindeki varyasyonu bulmakla ilgilenmiyoruz. Sınıflandırma, gelen e-postanın spam olup olmadığını sınıflandırmak gibi başka amaçlar için kullanılabilir.

Öte yandan, hava tahmini (bir dizi sürekli değer alabilen hava durumu), tipik olarak bir regresyon yaklaşımı gerektirecektir. Bunun yerine, yalnızca yağmur yağıp yağmayacağını tahmin etmekle ilgilenseydik, o zaman aynı hava durumu veri seti daha uygun bir şekilde sınıflandırma sistemine dahil edilebilirdi. Böylece gördüğümüz gibi, kullanım durumu hangi algoritmanın daha uygun olacağını belirleyecektir.

Regresyon algoritmaları, diğerleri arasında doğrusal regresyon, çok değişkenli regresyon, destek vektör modelleri ve regresyon ağacından oluşur. Sınıflandırma yaklaşımı, diğerleri arasında, Naive Bayes, Lojistik Regresyon gibi karar ağaçlarını kullanır.

Bu yaklaşımlar ve algoritmalar arasındaki farkı anlayarak, işinize özel kullanım durumlarınız için doğru olanı seçip uygulayabilecek ve böylece doğru çözüme hızla ulaşmanıza yardımcı olacaksınız.

Sınıflandırma ve Regresyon Algoritma Türleri

Derinlere inelim ve regresyon ve sınıflandırmada kullanılan bu algoritma türlerinin her birini anlayalım.

Doğrusal Regresyon – Doğrusal regresyonda, iki değişken arasındaki ilişki, düz, en uygun bir çizgi çizilerek tahmin edilir. Diğerlerinin yanı sıra, uyum gücü, varyans, standart sapma, r-kare değeri gibi çizilen en uygun çizginin gücünü ölçmek için gereken başka ölçümler olacaktır. Machine Learning'deki regresyon modelleri hakkında daha fazla bilgi edinin.

Polinom Regresyon – Polinom regresyon modellerinde, 'birkaç' girdi değişkeni ile tahmin edici veya 'çıktı' değişkeni arasındaki ilişkiler ölçülür. Regresyon modelleri hakkında daha fazla bilgi edinin.

Karar Ağacı Algoritması - Karar ağacı algoritmasında, veri seti bir karar ağacı yardımıyla sınıflandırılır - burada ağacın her bir düğümü bir test durumudur ve ağacın her bir düğümünde ortaya çıkan her dal olası bir değere karşılık gelir. özniteliğin.

Okuyun: Mükemmel Karar Ağacı Nasıl Oluşturulur?

Rastgele Orman Algoritması - Adından da anlaşılacağı gibi, rastgele orman, birkaç karar ağacı algoritmasının eklenmesiyle oluşturulur. Model daha sonra farklı karar ağaçlarından elde edilen çıktıları toplar ve bireysel karar ağaçlarının çoğunluk oyu ile oluşan nihai tahminle ortaya çıkar.

Karar ağacı tarafından verilen nihai çıktı, bireysel karar ağaçlarından herhangi biri tarafından sağlanandan daha doğrudur. Rastgele Ormanlar genellikle aşırı uyum sorunlarından muzdariptir, ancak bunlar çapraz doğrulama ve diğer yöntemlerle ince ayar yapılabilir.

K en yakın komşu – K en yakın komşu, benzer şeylerin birbirine yakın kalması ilkesiyle çalışan sağlam bir sınıflandırma algoritmasıdır. Yeni değişken tahmin algoritmasına yerleştirildiğinde, veri kümelerine olan yakınlığına göre bir gruba atama yapmaya çalışır. KNN hakkında daha fazla bilgi edinin.

Çözüm

Bir veri bilimcisi olarak, farklı sınıflandırma ve regresyon yaklaşımları hakkında temel ve temel bir anlayışa sahip olmanız gerekir; ilgili teknikler, bir veri bilimcisi olarak doğru araç setini uygulamanıza, fayda sağlayacak uygun bir çözüm bulmanıza yardımcı olacaktır. senin işin.

Makine öğrenimi hakkında daha fazla bilgi edinmek istiyorsanız, çalışan profesyoneller için tasarlanmış ve 450+ saat zorlu eğitim, 30'dan fazla vaka çalışması ve ödev, IIIT- sunan IIIT-B & upGrad'ın Makine Öğrenimi ve Yapay Zeka PG Diplomasına göz atın. B Mezun statüsü, 5+ pratik uygulamalı bitirme projesi ve en iyi firmalarla iş yardımı.

Yapay Zeka Güdümlü Teknolojik Devrime Öncülük Edin

MAKİNE ÖĞRENİMİNDE PG DİPLOMASI VE YAPAY ZEKA

Daha fazla bilgi edin