33 Makine Öğrenimi Mülakat Soruları ve Cevapları – Lojistik Regresyon

Yayınlanan: 2018-07-05

Makine öğrenimi algoritmalarına dayalı sık sorulan mülakat soruları dizisinin ikinci bölümüne hoş geldiniz. Doğrusal Regresyon ile ilgili önceki bölümün size yardımcı olduğunu umuyoruz.

İçindekiler

Lojistik regresyonla ilgili soruların cevaplarını bulalım:
- 1. Lojistik fonksiyon nedir? Bir lojistik fonksiyonun değer aralığı nedir?
- 2. Lojistik regresyon neden çok popüler?
- 3. Lojistik regresyon fonksiyonunun formülü nedir?
- 4. Bir lojistik regresyon modelinin olasılığı koşullu olasılık olarak nasıl ifade edilebilir?
- 5. Oranlar nedir?
- 6. Lojistik modelin ve lojistik fonksiyonun çıktıları nelerdir?
- 7. Lojistik regresyon modelinin sonuçları nasıl yorumlanır? Veya bir lojistik regresyon modelinde alfa ve beta'nın anlamları nelerdir?
- 8. Olasılık oranı nedir?
- 9. Odds oranını hesaplama formülü nedir?
- 10. Neden ikili sınıflandırma için lojistik regresyon yerine doğrusal regresyon kullanılamıyor?
- 11. Lojistik regresyon modeli durumunda karar sınırı doğrusal mı yoksa doğrusal değil mi?
- 12. Olabilirlik fonksiyonu nedir?
- 13. Maksimum Olabilirlik Tahmincisi (MLE) nedir?
- 14. MLE'nin farklı yöntemleri nelerdir ve her bir yöntem ne zaman tercih edilir?
- 15. Koşullu ve koşulsuz MLE yöntemlerinin avantajları ve dezavantajları nelerdir?
- 16. Standart bir MLE programının çıktısı nedir?
- 17. Lojistik regresyon için neden Ortalama Kare Hatasını (MSE) bir maliyet fonksiyonu olarak kullanamıyoruz?
- 18. Doğruluk neden sınıflandırma problemleri için iyi bir ölçü değildir?
- 19. Bir sınıflandırma probleminde temelin önemi nedir?
- 20. Yanlış pozitifler ve yanlış negatifler nelerdir?
- 21. Gerçek pozitif oran (TPR), gerçek negatif oran (TNR), yanlış pozitif oran (FPR) ve yanlış negatif oran (FNR) nedir?
- 22. Kesinlik ve hatırlama nedir?
- 23. F-ölçü nedir?
- 24. Doğruluk nedir?
- 25. Duyarlılık ve özgüllük nedir?
- 26. Lojistik regresyon modeli olması durumunda kesme noktası nasıl seçilir?
- 27. Lojistik regresyon kategorik değişkenleri nasıl ele alır?
- 28. Kümülatif yanıt eğrisi (CRV) nedir?
- 29. Kaldırma eğrileri nelerdir?
- 30. Aykırı değerlerin lojistik regresyonunu veya SVM'yi ele almada hangi algoritma daha iyidir?
- 31. Lojistik regresyon kullanarak çok sınıflı sınıflandırma problemini nasıl çözeceksiniz?
- 32. ROC eğrilerinin kullanımını ve bir ROC Eğrisinin AUC'sini açıklayın.
- 33. Çok sınıflı bir sınıflandırmada ROC kavramını nasıl kullanabilirsiniz?
Kümülatif Kazanç ve Artış çizelgeleri nelerdir?
Lojistik regresyon kullanılırken yapılan varsayımlardan bazıları nelerdir?
Makine Öğrenimi hakkında adil bir bilgiye sahipsem veri bilimcisi işi alabilir miyim?

Lojistik regresyonla ilgili soruların cevaplarını bulalım:

1. Lojistik fonksiyon nedir? Bir lojistik fonksiyonun değer aralığı nedir?

f(z) = 1/(1+e ^-z )
Bir lojistik fonksiyonun değerleri 0 ile 1 arasında değişecektir. Z değerleri -sonsuzdan +sonsuza değişecektir.

2. Lojistik regresyon neden çok popüler?

Lojistik regresyon ünlüdür, çünkü -sonsuzdan +sonsuz'a kadar değişebilen logitlerin (logod'lar) değerlerini 0 ile 1 arasında bir aralığa dönüştürebilir. birçok gerçek hayat senaryosu. Bu nedenle lojistik regresyon modeli çok popülerdir.

3. Lojistik regresyon fonksiyonunun formülü nedir?

f(z) = 1/(1+e ^{-(α+1X1+2X2+….+kXk)} ) )
Veri Bilimi, Makine Öğrenimi ve Büyük Veri Arasındaki Fark!

4. Bir lojistik regresyon modelinin olasılığı koşullu olasılık olarak nasıl ifade edilebilir?

P(Hedef değişkenin ayrık değeri | X1, X2, X3….Xk). Bağımsız değişkenlerin değerleri verildiğinde hedef değişkenin ayrık bir değer (ikili sınıflandırma problemlerinde 0 veya 1) alma olasılığıdır. Örneğin, bir çalışanın yaşı, maaşı, KRA'ları vb. gibi nitelikleri göz önünde bulundurulduğunda (hedef değişkeni) sahip olma olasılığı.

5. Oranlar nedir?

Bir olayın olma olasılığının, olmama olasılığına oranıdır. Örneğin, bir piyango kazanma olasılığının 0,01 olduğunu varsayalım. O halde kazanmama olasılığı 1- 0.01 = 0.99'dur.
Piyangoyu kazanma olasılığı = (Kazanma olasılığı)/(kazanmama olasılığı)
Piyangoyu kazanma olasılığı = 0.01/0.99
Piyangoyu kazanma olasılığı 1'e 99'dur ve piyangoyu kazanmama şansı 99'a 1'dir.

6. Lojistik modelin ve lojistik fonksiyonun çıktıları nelerdir?

Lojistik model, logitleri, yani log oranlarını verir; ve lojistik fonksiyon olasılıkları verir.
Lojistik model = α+1X1+2X2+….+kXk. Aynı çıktı logit olacaktır.
Lojistik fonksiyon = f(z) = 1/(1+e ^{-(α+1X1+2X2+….+kXk)} ) . Çıktı, bu durumda, olasılıklar olacaktır.

7. Lojistik regresyon modelinin sonuçları nasıl yorumlanır? Veya bir lojistik regresyon modelinde alfa ve beta'nın anlamları nelerdir?

Alfa, bir lojistik regresyon modelinde temeldir. Tüm özniteliklerin (X1, X2,………….Xk) sıfır olduğu bir örneğin günlük oranlarıdır. Pratik senaryolarda, tüm özelliklerin sıfır olma olasılığı çok düşüktür. Başka bir yorumda, Alfa, niteliklerin hiçbirinin dikkate alınmadığı bir durum için günlük oranlarıdır.
Beta, diğer tüm özellikleri sabit veya değişmeden (kontrol değişkenleri) tutarak, belirli bir özellikteki bir birim değişikliği ile log oranlarının değiştiği değerdir.

8. Olasılık oranı nedir?

Odds oranı, iki grup arasındaki olasılıkların oranıdır. Örneğin, bir ilacın etkinliğini belirlemeye çalıştığımızı varsayalım. Bu ilacı 'müdahale' grubuna ve 'kontrol' grubuna plasebo uyguladık.
Odds oranı (OR) = (müdahale grubunun oranları)/(kontrol grubunun oranları)
Tercüme
Odds oranı = 1 ise müdahale grubu ile kontrol grubu arasında fark yoktur.
Odds oranı 1'den büyükse, kontrol grubu müdahale grubundan daha iyidir
Odds oranı 1'den küçükse müdahale grubu kontrol grubundan daha iyidir.
5 Makine Öğreniminin Çığır Açan Uygulamaları

9. Odds oranını hesaplama formülü nedir?

Yukarıdaki formülde X ₁ ve X ₀ , bahis oranlarının hesaplanması gereken iki farklı grubu temsil etmektedir. X _{1 i} , X ₁ grubundaki ' i ' örneğini temsil eder . X _{o i} , X ₀ grubundaki ' i ' örneğini temsil eder . lojistik regresyon modelinin katsayısı anlamına gelir. Taban çizgisinin bu formüle dahil edilmediğine dikkat edin.

10. Neden ikili sınıflandırma için lojistik regresyon yerine doğrusal regresyon kullanılamıyor?

İkili sınıflandırma durumunda doğrusal regresyonların kullanılamamasının nedenleri şunlardır:
Hata terimlerinin dağılımı : Doğrusal ve lojistik regresyon durumunda verilerin dağılımı farklıdır. Doğrusal regresyon, hata terimlerinin normal dağıldığını varsayar. İkili sınıflandırma durumunda, bu varsayım doğru değildir.
Model çıktısı : Doğrusal regresyonda çıktı süreklidir. İkili sınıflandırma durumunda, sürekli bir değerin çıktısı mantıklı değildir. İkili sınıflandırma problemleri için doğrusal regresyon 0 ve 1'in ötesine geçebilecek değerleri tahmin edebilir. Çıktıyı iki farklı sınıfa eşleştirilebilen olasılıklar şeklinde istiyorsak, aralığı 0 ve 1 ile sınırlandırılmalıdır. lojistik regresyon modeli, lojistik/sigmoid fonksiyonu ile olasılıklar üretebilir, doğrusal regresyona göre tercih edilir.
Artık Hataların Varyansı : Doğrusal regresyon, rastgele hataların varyansının sabit olduğunu varsayar. Bu varsayım, lojistik regresyon durumunda da ihlal edilmektedir.

11. Lojistik regresyon modeli durumunda karar sınırı doğrusal mı yoksa doğrusal değil mi?

Karar sınırı, hedef değişkenleri farklı sınıflara ayıran bir çizgidir. Karar sınırı doğrusal veya doğrusal olmayan olabilir. Lojistik regresyon modelinde karar sınırı düz bir çizgidir.
Lojistik regresyon modeli formülü = α+1X1+2X2+….+kXk. Bu açıkça düz bir çizgiyi temsil eder. Lojistik regresyon, yalnızca düz bir çizginin farklı sınıfları ayırabildiği durumlarda uygundur. Düz bir çizgi bunu yapamıyorsa, daha iyi sonuçlar elde etmek için doğrusal olmayan algoritmalar kullanılmalıdır.

12. Olabilirlik fonksiyonu nedir?

Olabilirlik fonksiyonu, verileri gözlemlemenin ortak olasılığıdır. Örneğin, bir madeni paranın 100 kez atıldığını varsayalım ve bu atışlardan 60 tura gelme olasılığını bilmek istiyoruz. Bu örnek, binom dağılım formülünü takip eder.
p = Tek bir yazı turasından tura gelme olasılığı
n = 100 (yazı tura sayısı)
x = 60 (tura sayısı – başarı)
nx = 30 (kuyruk sayısı)
Pr(X=60 |n = 100, p)
Olabilirlik fonksiyonu, her bir yazı turasında alınan tura olasılığının p olduğu 100 yazı tura serisinde alınan tura sayısının 60 olma olasılığıdır. Burada yazı tura sonucu bir binom dağılımını takip eder.
Bu, aşağıdaki gibi yeniden çerçevelenebilir:
Pr(X=60|n=100,p) = cx p60x(1-p)100-60
c = sabit
p = bilinmeyen parametre
Olabilirlik fonksiyonu, sonuçları bilinmeyen parametreler kullanarak gözlemleme olasılığını verir.

13. Maksimum Olabilirlik Tahmincisi (MLE) nedir?

MLE, olabilirlik fonksiyonunu maksimize eden bilinmeyen parametre setlerini (tahmin edici) seçer. MLE'yi bulma yöntemi, hesabı kullanmak ve bilinmeyen bir parametreye göre lojistik fonksiyonun türevini sıfıra ayarlamaktır ve onu çözmek MLE'yi verecektir. İki terimli bir model için bu kolay olacaktır, ancak lojistik bir model için hesaplamalar karmaşıktır. Lojistik modeller için MLE türetilmesi için bilgisayar programları kullanılır.
(İşte soruyu cevaplamak için başka bir yaklaşım.)
MLE, bir matematiksel modelin parametrelerini tahmin etmeye yönelik istatistiksel bir yaklaşımdır. Bağımlı değişkenin normal dağıldığı varsayılırsa, MLE ve sıradan kare tahmini, doğrusal regresyon için aynı sonuçları verir. MLE, bağımsız değişkenler hakkında hiçbir şey varsaymaz.

14. MLE'nin farklı yöntemleri nelerdir ve her bir yöntem ne zaman tercih edilir?

Lojistik regresyon durumunda, MLE'nin iki yaklaşımı vardır. Koşullu ve koşulsuz yöntemlerdir. Koşullu ve koşulsuz yöntemler, farklı olabilirlik fonksiyonlarını kullanan algoritmalardır. Koşulsuz formül, pozitiflerin (örneğin, kayıp) ve negatiflerin (örneğin, kayıp olmayan) ortak olasılığını kullanır. Koşullu formül, gözlemlenen verilerin olasılığının tüm olası konfigürasyonların olasılığına oranıdır.
Parametre sayısı örnek sayısına göre daha düşükse koşulsuz yöntem tercih edilir. Örnek sayısı ile karşılaştırıldığında parametre sayısı yüksek ise, koşullu MLE tercih edilmelidir. İstatistikçiler, şüphe durumunda koşullu MLE'nin kullanılması gerektiğini öne sürüyorlar. Koşullu MLE her zaman tarafsız sonuçlar sağlayacaktır.
Bu 6 Makine Öğrenimi Tekniği Sağlık Hizmetlerini İyileştiriyor

15. Koşullu ve koşulsuz MLE yöntemlerinin avantajları ve dezavantajları nelerdir?

Koşullu yöntemler, istenmeyen parametreleri tahmin etmez. Koşulsuz yöntemler, istenmeyen parametrelerin değerlerini de tahmin eder. Koşulsuz formüller doğrudan ortak olasılıklarla geliştirilebilir. Bu koşullu olasılıkla yapılamaz. Parametre sayısı, örnek sayısına göre yüksekse, koşulsuz yöntem yanlı sonuçlar verecektir. Bu gibi durumlarda koşullu sonuçlar tarafsız olacaktır.

16. Standart bir MLE programının çıktısı nedir?

Standart bir MLE programının çıktısı aşağıdaki gibidir:
Maksimize edilmiş olabilirlik değeri : Olabilirlik fonksiyonunda bilinmeyen parametre değerlerinin MLE parametre tahmincisi ile değiştirilmesi ile elde edilen sayısal değerdir.
Tahmini varyans-kovaryans matrisi : Bu matrisin köşegeni, ML tahminlerinin tahmini varyanslarından oluşur. Köşegen dışı, ML tahminlerinin çiftlerinin kovaryanslarından oluşur.

17. Lojistik regresyon için neden Ortalama Kare Hatasını (MSE) bir maliyet fonksiyonu olarak kullanamıyoruz?

Lojistik regresyonda sigmoid fonksiyonunu kullanırız ve olasılıkları elde etmek için doğrusal olmayan bir dönüşüm gerçekleştiririz. Bu doğrusal olmayan dönüşümün karesini almak, yerel minimumlarla dışbükey olmamaya yol açacaktır. Bu gibi durumlarda gradyan inişini kullanarak global minimumu bulmak mümkün değildir. Bu nedenle MSE lojistik regresyon için uygun değildir. Lojistik regresyon için bir maliyet fonksiyonu olarak çapraz entropi veya log kaybı kullanılır. Lojistik regresyon için maliyet fonksiyonunda, kendinden emin yanlış tahminler ağır şekilde cezalandırılır. Kendinden emin doğru tahminler daha az ödüllendirilir. Bu maliyet fonksiyonu optimize edilerek yakınsama sağlanır.

18. Doğruluk neden sınıflandırma problemleri için iyi bir ölçü değildir?

Doğruluk, hem yanlış pozitiflere hem de yanlış negatiflere eşit önem verdiği için sınıflandırma problemleri için iyi bir ölçü değildir. Ancak, çoğu iş probleminde durum böyle olmayabilir. Örneğin, kanser tahmini durumunda, kanseri iyi huylu olarak ilan etmek, hastayı kanserden muzdarip olduğu konusunda yanlış bilgilendirmekten daha ciddidir. Doğruluk, her iki duruma da eşit önem verir ve aralarında ayrım yapamaz.

19. Bir sınıflandırma probleminde temelin önemi nedir?

Çoğu sınıflandırma problemi, dengesiz veri kümeleriyle ilgilenir. Örnekler arasında telekomünikasyon kaybı, çalışan yıpranması, kanser tahmini, dolandırıcılık tespiti, çevrimiçi reklam hedefleme vb. sayılabilir. Tüm bu problemlerde pozitif sınıfların sayısı negatif sınıflara göre çok az olacaktır. Bazı durumlarda, toplam örneğin %1'inden daha az olan pozitif sınıflara sahip olmak yaygındır. Bu gibi durumlarda %99'luk bir doğruluk kulağa çok iyi gelebilir ancak gerçekte öyle olmayabilir.
Burada negatifler %99'dur ve bu nedenle taban çizgisi aynı kalacaktır. Algoritmalar tüm örnekleri negatif olarak tahmin ederse, doğruluk da %99 olacaktır. Bu durumda, herhangi bir işletme için çok önemli olan tüm pozitifler yanlış tahmin edilecektir. Tüm pozitifler yanlış tahmin edilse de %99 doğruluk elde edilmektedir. Bu nedenle, taban çizgisi çok önemlidir ve algoritmanın taban çizgisine göre değerlendirilmesi gerekir.

20. Yanlış pozitifler ve yanlış negatifler nelerdir?

Yanlış pozitifler, negatiflerin yanlış olarak pozitif olarak tahmin edildiği durumlardır. Örneğin, bir müşterinin aslında çalkalamadığı halde çalkalayacağını tahmin etmek.
Yanlış negatifler, pozitiflerin yanlış olarak negatif olarak tahmin edildiği durumlardır. Örneğin, bir müşterinin aslında vazgeçtiğinde vazgeçmeyeceğini tahmin etmek.

21. Gerçek pozitif oran (TPR), gerçek negatif oran (TNR), yanlış pozitif oran (FPR) ve yanlış negatif oran (FNR) nedir?

TPR, tüm gerçek etiketlerden doğru olarak tahmin edilen pozitiflerin oranını ifade eder. Basit bir deyişle, doğru tahmin edilen gerçek etiketlerin sıklığıdır.
TPR = TP/TP+FN
TNR, tüm yanlış etiketlerden doğru tahmin edilen negatiflerin oranını ifade eder. Doğru tahmin edilen yanlış etiketlerin sıklığıdır.
TNR = TN/TN+FP
FPR, tüm gerçek etiketlerden yanlış tahmin edilen pozitiflerin oranını ifade eder. Yanlış tahmin edilen yanlış etiketlerin sıklığıdır.
FPR = FP/TN+FP
FNR, tüm yanlış etiketlerden yanlış tahmin edilen negatiflerin oranını ifade eder. Yanlış tahmin edilen doğru etiketlerin sıklığıdır.
FNR = FN/TP+FN

22. Kesinlik ve hatırlama nedir?

Kesinlik, gerçek pozitiflerin tahmin edilen pozitiflere oranıdır. Başka bir deyişle, tahminin doğruluğudur. Aynı zamanda 'pozitif tahmin değeri' olarak da bilinir.
Hassasiyet = TP/TP+FP
Geri çağırma, gerçek pozitif oran (TPR) ile aynıdır.
Denetimsiz Makine Öğrenimi Nasıl Çalışır?

23. F-ölçü nedir?

Kesinlik ve hatırlamanın harmonik ortalamasıdır. Bazı durumlarda, kesinlik ve geri çağırma arasında bir değiş tokuş olacaktır. Bu gibi durumlarda, F-ölçü düşecektir. Hem hassasiyet hem de geri çağırma yüksek olduğunda yüksek olacaktır. Eldeki iş durumuna ve veri analitiğinin amacına bağlı olarak uygun bir metrik seçilmelidir.
F-ölçü = 2 X (Hassas X Geri Çağırma) / (Hassas+Geri Çağırma)

24. Doğruluk nedir?

Yapılan tüm tahminlerden doğru tahminlerin sayısıdır.
Doğruluk = (TP+TN)/(Toplam Tahmin Sayısı)

25. Duyarlılık ve özgüllük nedir?

Özgüllük, gerçek negatif oran ile aynıdır veya 1 – yanlış pozitif orandır.
Özgüllük = TN/TN + FP.
Duyarlılık gerçek pozitif orandır.
Hassasiyet = TP/TP + FN

26. Lojistik regresyon modeli olması durumunda kesme noktası nasıl seçilir?

Kesme noktası, iş hedefine bağlıdır. İşletmenizin hedeflerine bağlı olarak, kesim noktasının seçilmesi gerekir. Örneğin, kredi temerrütlerini ele alalım. İş hedefi kaybı azaltmaksa, özgüllüğün yüksek olması gerekir. Amaç karı artırmak ise, o zaman tamamen farklı bir konudur. Öngörülen tüm temerrüt vakalarına kredi vermekten kaçınarak kârın artması söz konusu olmayabilir. Ancak, işletmenin, karı artırmak için biraz daha az riskli olan temerrüt vakalarına kredi vermesi gerekebilir. Böyle bir durumda kârı maksimize eden farklı bir kesim noktası gerekecektir. Çoğu durumda, işletmeler birçok kısıtlama etrafında çalışacaklardır. İş hedefini karşılayan kesme noktası, sınırlamalarla ve sınırlamalar olmaksızın aynı olmayacaktır. Tüm bu noktalar göz önünde bulundurularak kesme noktası seçilmelidir. Genel bir kural olarak, bir veri kümesindeki pozitiflerin oranına eşdeğer bir sınır değeri seçin.

Makine Öğrenimi Nedir ve Neden Önemlidir?

27. Lojistik regresyon kategorik değişkenleri nasıl ele alır?

Lojistik regresyon modelinin girdilerinin sayısal olması gerekir. Algoritma, kategorik değişkenleri doğrudan işleyemez. Bu nedenle, algoritmanın işlemesi için uygun bir formata dönüştürülmeleri gerekir. Kategorik bir değişkenin çeşitli seviyelerine, kukla değişken olarak bilinen benzersiz bir sayısal değer atanacaktır. Bu kukla değişkenler, lojistik regresyon modeli tarafından diğer herhangi bir sayısal değer gibi işlenir.

28. Kümülatif yanıt eğrisi (CRV) nedir?

Bir analizin sonuçlarını yönetime iletmek için ROC eğrisinden daha sezgisel olan bir 'kümülatif yanıt eğrisi' kullanılır. Bir ROC eğrisini, veri bilimi alanı dışındaki biri için anlamak çok zordur. Bir CRV, gerçek pozitif orandan veya Y ekseninde doğru şekilde sınıflandırılan pozitiflerin yüzdesinden ve X ekseninde hedeflenen popülasyonun yüzdesinden oluşur. Popülasyon yüzdesinin model tarafından azalan düzende (olasılıklar veya beklenen değerler) sıralanacağına dikkat etmek önemlidir. Model iyiyse, sıralanan listenin en üst kısmı hedeflenerek, tüm yüksek yüzdeli pozitifler yakalanacaktır. ROC eğrisinde olduğu gibi, rastgele performansı temsil eden çapraz bir çizgi olacaktır. Bu rastgele performansı örnek olarak anlayalım. Listenin %50'sinin hedeflendiğini varsayarsak, pozitiflerin %50'sini yakalaması beklenir. Bu beklenti, ROC eğrisine benzeyen çapraz çizgi tarafından yakalanır.

29. Kaldırma eğrileri nelerdir?

Artış, rastgele performansla karşılaştırıldığında model performansındaki (gerçek pozitif orandaki artış) gelişmedir. Rastgele performans, örneklerin %50'sinin hedeflenmesi durumunda pozitiflerin %50'sini algılamasının beklendiği anlamına gelir. Kaldırma, bir modelin rastgele performansıyla karşılaştırılır. Bir modelin performansı rastgele performansından daha iyiyse, artışı 1'den büyük olacaktır.
Bir kaldırma eğrisinde, kaldırma Y ekseninde ve popülasyonun yüzdesi (azalan düzende sıralanır) X ekseninde çizilir. Hedef popülasyonun belirli bir yüzdesinde, yüksek artışa sahip bir model tercih edilir.

30. Aykırı değerlerin lojistik regresyonunu veya SVM'yi ele almada hangi algoritma daha iyidir?

Lojistik regresyon, aykırı değerleri barındırmak için varsa, doğrusal bir sınır bulacaktır. Lojistik regresyon, aykırı değerleri yerleştirmek için doğrusal sınırı değiştirecektir. SVM, tek tek örneklere karşı duyarsızdır. Bir aykırı değeri yerleştirmek için doğrusal sınırda büyük bir kayma olmayacaktır. SVM, fazla takmaya özen gösteren dahili karmaşıklık kontrolleriyle birlikte gelir. Lojistik regresyon durumunda bu doğru değildir.

31. Lojistik regresyon kullanarak çok sınıflı sınıflandırma problemini nasıl çözeceksiniz?

Lojistik regresyon kullanarak çok sınıflı sınıflandırmayı ele almanın en ünlü yöntemi bire karşı hepsi yaklaşımını kullanmaktır. Bu yaklaşım altında, sınıf sayısına eşit sayıda model eğitilir. Modeller belirli bir şekilde çalışır. Örneğin, birinci model, veri noktasını sınıf 1'e mi yoksa başka bir sınıfa mı ait olduğuna bağlı olarak sınıflandırır; ikinci model, veri noktasını sınıf 2 veya başka bir sınıfa sınıflandırır. Bu şekilde, her bir veri noktası tüm sınıflar üzerinden kontrol edilebilir.

32. ROC eğrilerinin kullanımını ve bir ROC Eğrisinin AUC'sini açıklayın.

Bir ROC (Alıcı Çalışma Karakteristiği) eğrisi, bir ikili sınıflandırma modelinin performansını gösterir. Temel olarak 0 ile 1 arasında değişen tüm eşik değerleri için bir TPR - FPR (doğru pozitif oran - yanlış pozitif oran) eğrisidir. Bir ROC eğrisinde, ROC uzayındaki her nokta farklı bir karışıklık matrisi ile ilişkilendirilecektir. ROC grafiğinde sol alttan sağ üste doğru çapraz bir çizgi, rastgele tahminde bulunmayı temsil eder. Eğrinin Altındaki Alan (AUC), sınıflandırıcı modelinin ne kadar iyi olduğunu gösterir. AUC değeri yüksek (1'e yakın) ise, model tatmin edici bir şekilde çalışıyor, değer düşükse (yaklaşık 0,5), bu durumda model düzgün çalışmıyor ve rastgele tahminde bulunuyor.

33. Çok sınıflı bir sınıflandırmada ROC kavramını nasıl kullanabilirsiniz?

ROC eğrileri kavramı, bire karşı hepsi yaklaşımı kullanılarak çok sınıflı sınıflandırma için kolaylıkla kullanılabilir. Örneğin, 'a', 'b' ve 'c' olmak üzere üç sınıfımız olduğunu varsayalım. Ardından, birinci sınıf 'a' sınıfını (doğru sınıf) ve ikinci sınıf hem 'b' sınıfını hem de 'c' sınıfını birlikte (yanlış sınıf) içerir. Böylece ROC eğrisi çizilir. Benzer şekilde, üç sınıfın tümü için üç ROC eğrisi çizeceğiz ve AUC analizimizi gerçekleştireceğiz.
Şimdiye kadar en temel iki ML algoritmasını, Doğrusal ve Lojistik Regresyon'u ele aldık ve bu kaynakları yararlı bulduğunuzu umuyoruz.

Dünyanın En İyi Üniversitelerinden ML Kursu öğrenin. Kariyerinizi hızlandırmak için Master, Executive PGP veya Advanced Certificate Programları kazanın.

Makine Öğrenimi Mühendisleri: Mitler ve Gerçekler

Bu dizinin bir sonraki bölümü, çok önemli bir başka ML Algoritmasına, Kümeleme'ye dayanmaktadır . Şüphelerinizi ve sorularınızı aşağıdaki yorum bölümüne göndermekten çekinmeyin.
Ortak yazar – Ojas Agarwal

Kümülatif Kazanç ve Artış çizelgeleri nelerdir?

Kazanç ve Artış grafiği, çeşitli makine öğrenimi modellerinin verimliliğini çeşitli şekillerde değerlendirmek için görsel bir yaklaşımdır. Tahmin modelinizin ne kadar başarılı olduğunu değerlendirmenize yardımcı olmanın yanı sıra, hedeflenen bir grubun yanıt oranının rastgele seçilen bir gruptan nasıl farklı olduğunu görsel olarak gösterirler. Bu diyagramlar, hedef pazarlama gibi kurumsal ortamlarda değerlidir. Ayrıca risk modelleme, tedarik zinciri analitiği vb. gibi diğer alanlarda da uygulanabilirler. Başka bir deyişle, Kazanç ve Artış çizelgeleri, dengesiz veri kümelerini içeren sınıflandırma zorluklarıyla başa çıkmanın iki yoludur.

Lojistik regresyon kullanılırken yapılan varsayımlardan bazıları nelerdir?

Lojistik regresyon kullanılırken bazı varsayımlar yapılır. Bunlardan biri, sürekli tahmin edicilerin hiçbir etkili değere sahip olmamasıdır (aşırı değerler veya aykırı değerler). İki sınıfa ayrılan lojistik regresyon, bağımlı değişkenin ikili olduğunu varsayar, sıralı lojistik regresyon ise bağımlı değişkenin sıralanmasını gerektirir. Ayrıca, tahmin ediciler arasında önemli bir karşılıklı ilişkinin (yani çoklu bağlantı) olmadığı varsayılmaktadır. Ayrıca gözlemlerin birbirinden bağımsız olduğunu kabul eder.

Makine Öğrenimi hakkında adil bir bilgiye sahipsem veri bilimcisi işi alabilir miyim?

Bir Veri Bilimcisi, Makine Öğrenimi ve Tahmine Dayalı Modelleme gibi gelişmiş analitik teknolojilerini kullanarak muazzam miktarda veri toplar, analiz eder ve yorumlar. Bunlar daha sonra şirket liderleri tarafından en iyi iş seçimlerini yapmak için kullanılır. Bu nedenle, veri madenciliği ve istatistiksel araştırma metodolojilerinin anlaşılması gibi diğer becerilere ek olarak, Makine Öğrenimi bir Veri Bilimcisi için kritik bir yetkinliktir. Ancak Veri Bilimcisi olarak çalışmak istiyorsanız, Hadoop, Pig, Hive, Spark ve diğerleri gibi büyük veri platformları ve teknolojilerinin yanı sıra SQL, Python ve diğerleri gibi programlama dillerine de aşina olmalısınız.