Veri Bilimi İçin İstatistiğin Temel Temelleri

Yayınlanan: 2018-02-27

Hevesli bir Veri Bilimcisi iseniz, Veri Bilimi için İstatistik'in temel kavramlarına aşina olmak. Doktora olmanıza gerek yok. Veri Biliminde mükemmel olmak için İstatistik'te, ancak bir akşam yemeğinde belki de birkaç temel algoritmayı tanımlayacak kadar bilgi sahibi olmanız gerekir.

İleride, Veri Bilimi için İstatistik'in temellerindeki bazı önkoşullarda size yol göstereceğiz .

Veri Bilimi dünyasına yeni girdiyseniz, Veri Biliminin ön koşulu olarak “Matematik” diyen insanlarla karşılaşmış olabilirsiniz. Dürüst olmak gerekirse, kendi başına Matematik değil, ancak Veri Bilimi için İstatistik öğrenmeniz gerekiyor.

Bu günlerde, Tensorflow gibi kütüphaneler neredeyse tüm karmaşık Matematiği kullanıcıdan uzak tutuyor. Bizim için iyi, ancak bu şeylerin üzerinde çalıştığı temel ilkeler hakkında temel bir anlayışa sahip olmak yine de iyidir. İyi bir veri analitiği anlayışına sahip olmak, her şeyi daha iyi anlamanıza yardımcı olabilir.

Bu makale, yalnızca bir Veri Bilimcisi olarak amacınıza yardımcı olmakla kalmayacak, aynı zamanda Gelişmiş İstatistiksel Hesaplama kursunda büyük zaman kazanmış gibi görünmenizi sağlayacak bazı teoremler, kavramlar ve denklemler ile sizi donatmaya yardımcı olacaktır.

İçindekiler

İstatistiksel Dağılımlar

Bu muhtemelen kendinizi Veri Bilimi için önkoşul İstatistiklerle donatırken bilmeniz gereken en önemli şeylerden biridir.

  • Poisson Dağılımı

    Veri Bilimi İstatistikleri Poisson dağılımı, istatistikteki en önemli araçlardan biridir. Bir zaman aralığında gerçekleşmesi muhtemel olayların sayısını hesaplamak için kullanılır. Örneğin, belirli bir zaman diliminde kaç telefon görüşmesi yapılması muhtemeldir.
    Bu denklemdeki (λ) komik görünen sembol lambda olarak bilinir . Zaman aralığında meydana gelen ortalama olay sayısını temsil etmek için kullanılır.

    Poisson dağılımının kullanım bulduğu bir başka güzel örnek, üretimdeki kaybı hesaplamaktır. Bir makinenin metal levhalar ürettiğini ve yarda başına X kusuru olduğunu varsayalım. Örneğin, hata oranının sayfanın yarda başına 2 olduğunu varsayalım - o zaman Poisson dağılımını kullanarak, bir yarda tam olarak iki hatanın meydana gelme olasılığını hesaplayabiliriz.

  • Binom dağılımı

    Veri Bilimi İstatistikleri
    Temel İstatistiklerle daha önce karşılaştıysanız, Binom Dağılımı ile karşılaşmış olabilirsiniz.

    Diyelim ki tarafsız bir madeni parayı üç kez çevirme deneyiniz var.
    Madeni paranın üç atışta da tura gelme olasılığını söyleyebilir misiniz?

    İlk olarak, temel kombinatoriklerden, bir madeni parayı üç kez çevirdiğinizde sekiz olası sonuç kombinasyonu olduğunu öğrenebiliriz. Şimdi, 0,1,2 veya 3 tura sahip olma olasılıklarını çizebiliriz. Bu çizim bize bu problem için gerekli binom dağılımımızı verecektir. Grafik çizildiğinde, tipik bir normal dağılım eğrisine çok benzediğini fark edeceksiniz, teoride ikisi de çok benzer. Binom Dağılımı ayrık değerler (sınırlı sayıda yazı tura atışı) için iken, Normal Dağıtım sürekli değerlerle ilgilenir.

    Yukarıda bahsettiklerimiz dışında bir takım dağıtımlar var. İlgilenen biriyseniz ve Veri Bilimi için gerekli İstatistikler konusunda kendinizi daha iyi donatmak istiyorsanız, aşağıdaki dağıtımları da okumanızı öneririz:

  • Geometrik Dağılım
  • Hipergeometrik Dağılım
  • Ayrık Tekdüzen Dağıtım
  • Negatif Binom Dağılımı
Keşifsel Veri Analizi ve İşletmeniz İçin Önemi

Bazı Teoremler ve Algoritmalar

Veri Bilimi için İstatistik hakkında konuştuğumuzda , Veri Bilimcisi olarak üzerinde çalışacağınız birçok kütüphanenin temeli olan temel teoremleri ve algoritmaları görmezden gelemeyiz. Bir dizi sınıflandırma algoritması, kümeleme algoritması, sinir ağı algoritması, karar ağaçları vb. vardır. Bu bölümde, bilmeniz gereken birkaç temel teoremden bahsedeceğiz - ayrıca diğer karmaşık teoremleri kolaylıkla anlamanıza yardımcı olacak.

Bayes teoremi

Bu, Bilgisayar Bilimleri alanında herhangi bir resmi eğitim aldıysanız karşılaşacağınız yaygın teoremlerden biridir. Yıllar boyunca Bayes Teoremi ve kavramlarını ayrıntılı bir şekilde tartışan çok sayıda kitap olmuştur.

Bayes Teoremi, karmaşık kavramları büyük ölçüde basitleştirir. Birkaç basit değişken kullanarak birçok istatistiksel gerçeği açıklar.Koşullu olasılıkkavramını destekler (örneğin, A meydana geldiyse, B'nin ortaya çıkmasında rol oynadı). Bununla ilgili en kayda değer şey, yalnızca verilen veri noktalarını kullanarak herhangi bir hipotezin olasılığını tahmin edebilmenizdir.

Bayes, sadece yaşını bilerek birinin kanser olma olasılığını tahmin etmenize yardımcı olabilir. Ayrıca, kelime sayısına göre bir e-postanın spam olup olmadığını size bildirebilir. Bu teorem özünde belirsizliği ortadan kaldırmak için kullanılır.

Eğlenceli gerçek: Bayes Teoremi, İkinci Dünya Savaşı'nda Alman kodlarını çevirmek için Enigma makinesinin konfigürasyonunu tahmin etmenin yanı sıra U-botların konumlarını tahmin etmeye yardımcı oldu. Modern Veri Biliminde bile Bayes, birçok algoritmada kapsamlı uygulamalar bulur.
Veri Ambarı ve Veri Madenciliği Nedir?

K-En Yakın Komşu Algoritması

Veri Bilimi İstatistikleri
Bu hem anlaşılması hem de uygulanması açısından çok kolay bir algoritmadır. Öyle ki buna “tembel algoritma” deniyor. Basitliği, herhangi bir temel istatistikten daha mantıksal çıkarımlara dayanması gerçeğinde yatmaktadır. Meslekten olmayan terimlerle, bu algoritma birbirine en yakın grupları bulmaya çalışır.

K-NN, Öklid Mesafesi kavramını kullanır. Belirli sayıda odak noktası içinde ve çevresinde yerel grupları arar. Bu sayı “k” ile gösterilir. Kullanıcı tarafından kararlaştırılan bir değer olduğu için 'k' değerinin ne kadar büyük olması gerektiğini bulmak için birçok yaklaşım vardır.

Bu kavram, özellik kümeleme, temel pazar bölümlendirme ve bir grup veri girişinden aykırı değerleri aramak için harikadır. Çoğu modern programlama dili, K-NN algoritmasını yalnızca iki kod satırında uygular.

Torbalama (Bootstrap toplama)

Torbalama, esasen, bir karar ağacı gibi, tek bir algoritmanın birden fazla modelinin oluşturulması anlamına gelir. Modellerin her biri farklı bir örnek veri üzerinde eğitilir (buna önyükleme örneği denir).

Bu nedenle, her karar ağacı farklı örnek verileri kullanılarak yapılır - bu, örnek boyutuna fazla uyma sorununu çözer. Karar ağaçlarının bu şekilde gruplandırılması, eklenen her yeni ağaçla birlikte genel varyans azaldığından, esasen toplam hatayı azaltmaya yardımcı olur. Bu tür karar ağaçlarından oluşan bir torba rastgele orman olarak bilinir.

Python ile Veri Bilimine Başlayın

ROC Eğrisi Analizi

Veri Bilimi İstatistikleri
ROC terimi, Alıcı Çalışma Karakteristiği anlamına gelir. ROC analiz eğrisi, Veri Biliminde geniş bir kullanım alanı bulmaktadır. Genel duyarlılığını ve düşme oranını ölçerek bir testin ne kadar iyi performans göstereceğini tahmin eder. Herhangi bir modelin uygulanabilirliğini belirlerken ROC Analizi son derece önemlidir.

O nasıl çalışır?

Makine öğrenimi modeliniz size bazı yanlış tahminler verebilir. Bunlardan bazıları, belirli bir değerin 'doğru' olması gerektiği, ancak bunun yerine 'yanlış' olarak ayarlanmış olması veya bunun tersidir.

O zaman doğru olma olasılığınız nedir?

ROC eğrisini kullanarak tahmininizin ne kadar doğru olduğunu görebilirsiniz. İki farklı benzetme ile eşik değerinizi nereye koyacağınızı da belirleyebilirsiniz. Eşik, ikili sınıflandırmanın pozitif mi yoksa negatif mi - doğru mu yanlış mı olduğuna karar verdiğiniz yerdir.

İki benzetme birbirine yaklaştıkça eğrinin altındaki alan sıfır olma eğiliminde olacaktır. Bu aslında modelinizin yanlış olma eğiliminde olduğu anlamına gelir. Alan büyüdükçe, modelinizin doğruluğu da artar. Bu, herhangi bir modellemeyi test ederken kullanılan ilk testlerden biridir, çünkü modelin doğru olup olmadığını söyleyerek sorunları erkenden tespit etmeye yardımcı olur.

ROC eğrilerinin gerçek hayattan bir örneği – Belirli bir test veya bir test kombinasyonu için klinik duyarlılık ve özgüllük arasındaki bağlantıyı/ödünümü grafiksel olarak göstermek için kullanılırlar. Buna ek olarak, ROC eğrisinin altındaki alan da yukarıda bahsedilen testleri kullanmanın faydaları hakkında adil bir fikir verir. Bu nedenle, ROC eğrileri, uygun bir kesme noktası seçmek için Biyokimyada geniş bir kullanım alanı bulmaktadır. İdeal olarak, en iyi kesme, birlikte en yüksek gerçek pozitif oran ile en düşük yanlış pozitif oranına sahip olandır.

Veri Analitiğine Nasıl Geçiş Yapabilirsiniz?

Veri Biliminde İstatistiğin Önemi

Yukarıdaki tartışmadan, artık İstatistik'in temel kavramlarını ve İstatistik'in temellerini bildiğinize göre, Veri Bilimi için İstatistik öğrenmenin önemi hakkında konuşalım. Verileri organize etmek ve derinlemesine içgörüler bulmak, verileri analiz etmek ve ölçmek için önemli araçlar ve teknolojiler, İstatistikler için Veri Analitiği tarafından sağlanır.

Size İstatistik temel kavramlarına ve İstatistik'in veri keşfi, analizi, modelleme ve temsili üzerindeki etkisine ilişkin bir genel bakış sağladık. Ayrıca, İstatistiklerin temellerini ihmal ederken bir tutarsızlık olup olmadığını da soruna işaret ediyoruz. En hızlı büyüyen sektöre katılmakla ilgileniyorsanız, hem çevrimiçi hem de çevrimdışı kurslar verdiğimiz için Veri Bilimi İstatistikleri eğitimimizi takip etmek için doğrudan UpGrad'daki web sitemize gelin. Oyununuzu en azından İstatistik temelleri ve İstatistik Temelleri konusunda geliştirdiğinizde, işinize hazır olacaksınız.

Sonuç olarak…
Yukarıdaki konu listesi, İstatistik'te bilmeniz gereken her şeyin kapsamlı bir listesi değildir. Bu liste, Veri Bilimi yolculuğunuzda karşılaşabileceğiniz her şeye ve buna nasıl hazırlanabileceğinize dair size bir fikir vermek içindir.

Sonuç olarak, bu makale , Veri Bilimi için İstatistik'in bazı temel kavramlarını tanıtmaktadır . Birleştirilmiş olarak açıklanan kavramların derinlemesine anlaşılması, diğer kavramları kolayca anlamanıza yardımcı olacaktır. Daha fazlasını keşfetmek ve veri biliminde uzmanlaşmak istiyorsanız, en iyi çevrimiçi veri bilimi kurslarımızı bulun.

İstatistiklerin Veri Bilimi için önemi nedir?

İstatistik, sınıflandırma ve organizasyona olanak sağlayan, olasılık dağılımını ve tahminini hesaplamaya yardımcı olan uygun istatistiksel yöntemleri kullanarak, büyük verilerdeki yapıyı tanımlamanın yanı sıra, bireylere ve kuruluşlara verilerinin ortaya çıkardığı gerçekleri daha iyi anlamalarını sağlayan teknikler ve araçlar sağlar, ve anormallikleri ve eğilimleri tespit ederek verilerdeki yapıyı bulun. İstatistikler ayrıca grafiklerin ve ağların kullanımıyla veri görselleştirme ve modellemeye yardımcı olur. Değişkenlerden etkilenen veri kümelerini veya diğer yapıları belirlemeye yardımcı olur ve bir modeldeki varsayımların sayısını azaltmaya yardımcı olarak onu daha doğru ve kullanışlı hale getirir.

Veri Bilimi için gerekli olan İstatistik'in temel temel kavramları nelerdir?

İstatistiklerin temel kavramları, veri bilimi için bir zorunluluktur. Veri bilimi yolculuğunuza başlamanıza yardımcı olacak bazı temel kavramlar şunlardır:

1. Olasılık : Bu, Veri Biliminin temelini oluşturur. Olasılık teorisi, tahminleri formüle etmede oldukça faydalıdır. Veri, tüm olasılık ve istatistiklerin temelidir.
2. Örnekleme : Veri örnekleme, daha geniş bir veri koleksiyonunda kalıpları ve eğilimleri bulmak için temsili bir veri noktası seçimini seçmeyi, manipüle etmeyi ve analiz etmeyi içeren istatistiksel bir analiz tekniğidir.
3. Eğilim ve Veri Dağılımı : Verilerin dağılımı çok önemli bir faktördür. Normal Dağılım gibi iyi bilinen bir dağılımın önemi çok büyüktür. Sonuç olarak, verilerin dağılımını ve çarpıklığını belirlemek kritik bir kavramdır.
4. Hipotez Testi : Hipotez Testi, beklenen sonuçlara göre aksiyon alınması veya yapılmaması gereken durumları tanımlar.
5. Varyasyonlar : Verilerdeki bozulma, hata ve kaymayı ifade eder.
6. Regresyon : Mevcut çözümlerin anlaşılmasına ve yeni yeniliklerin keşfedilmesine yardımcı olduğu için Veri Bilimi için kritik öneme sahiptir.

Veri Biliminde İstatistik nasıl kullanılır?

Veri Bilimcileri, işletmelerin daha iyi ürün kararları vermesine, denemeleri tasarlamasına ve yorumlamasına, satışları yönlendiren faktörleri belirlemesine, satış eğilimlerini ve modellerini tahmin etmesine yardımcı olmak için istatistikleri kullanır. Verilerin ve algoritma performansının görsel temsili, aykırı değerlerin, belirli önemsiz kalıpların ve metrik özetinin bulunmasına yardımcı olur.