Veri Biliminin Temel Kavramları: Her Yeni Başlayanın Bilmesi Gereken Teknik Kavram

Yayınlanan: 2020-11-12

Veri Bilimi, programlama becerilerini, alan bilgisini ve matematiksel ve istatistiksel bilgileri kullanarak verilerden anlamlı içgörüler çıkarmaya yardımcı olan alandır. Ham verileri analiz etmeye ve gizli kalıpları bulmaya yardımcı olur.

Bu nedenle, bir kişinin bu alanda başarılı olabilmesi için istatistik kavramlarına , makine öğrenimine ve Python veya R gibi bir programlama diline açık olması gerekir. Bu yazımda, alana geçiş yapmadan önce bilinmesi gereken temel Veri Bilimi kavramlarını paylaşacağım .

İster bu alanda yeni başlayan biri olun, ister bu konuda daha fazlasını keşfetmek istiyorsanız veya bu çok yönlü alana geçiş yapmak istiyorsanız, bu makale temel Veri Bilimi kavramlarını keşfederek Veri Bilimini daha fazla anlamanıza yardımcı olacaktır .

Okuyun: Hindistan'da En Yüksek Ücretli Veri Bilimi İşleri

İçindekiler

Veri Bilimi İçin Gerekli İstatistik Kavramları

İstatistikler, veri biliminin merkezi bir parçasını oluşturur. İstatistik, birçok uygulama sunan geniş bir alandır. Veri bilimcileri istatistikleri çok iyi bilmelidir. Bu, istatistiklerin verileri yorumlamaya ve düzenlemeye yardımcı olduğu gerçeğinden çıkarılabilir. Tanımlayıcı istatistikler ve olasılık bilgisi, bilinmesi gereken veri bilimi kavramlarıdır .

Aşağıda, bir Veri Bilimcisinin bilmesi gereken temel İstatistik kavramları yer almaktadır:

1. Tanımlayıcı İstatistikler

Tanımlayıcı istatistikler, ham verileri analiz ederek ondan birincil ve gerekli özellikleri bulmaya yardımcı olur. Tanımlayıcı istatistikler, verileri okunabilir ve anlamlı bir şekilde sunmak için görselleştirmenin bir yolunu sunar. Verileri anlamlı bir şekilde grafikler şeklinde görselleştirmeye yardımcı olduğu için çıkarımsal istatistiklerden farklıdır. Çıkarımsal istatistikler ise veri analizinden içgörüler bulmaya yardımcı olur.

2. Olasılık

Olasılık, rastgele bir deneyde herhangi bir olayın meydana gelme olasılığını belirleyen matematik dalıdır. Örnek olarak, bir yazı tura atışı, renkli toplardan oluşan bir torbadan kırmızı bir top çıkma olasılığını tahmin eder. Olasılık, değeri 0 ile 1 arasında olan bir sayıdır. Değer ne kadar yüksekse olayın olma olasılığı o kadar yüksektir.

Olay türüne bağlı olarak farklı olasılık türleri vardır. Bağımsız olaylar, bir olayın birbirinden bağımsız iki veya daha fazla oluşumudur. Koşullu olasılık, herhangi bir başka olayla ilişkisi olan herhangi bir olayın meydana gelme olasılığıdır.

3. Boyut Azaltma

Boyut azaltma, bir veri kümesinin boyutlarını, alt boyutlu verilerde olmayan birçok sorunu çözecek şekilde küçültmek anlamına gelir. Bunun nedeni, yüksek boyutlu veri setinde birçok faktörün bulunması ve bilim adamlarının her özellik kombinasyonu için daha fazla örnek oluşturması gerekmesidir.

Bu, veri analizinin karmaşıklığını daha da artırır. Bu nedenle, boyut azaltma konsepti tüm bu sorunları çözer ve daha az yedeklilik, hızlı bilgi işlem ve depolanacak daha az veri gibi birçok potansiyel fayda sunar.

4. Merkezi Eğilim

Bir veri kümesinin merkezi eğilimi, merkezi bir değerin tanımlanmasıyla tüm verileri tanımlayan tek bir değerdir. Merkezi eğilimi ölçmenin farklı yolları vardır:

  • Ortalama: Veri seti sütununun ortalama değeridir.
  • Medyan: Sıralı veri setindeki merkezi değerdir.
  • Mod: Veri seti sütununda en çok tekrar eden değer.
  • Çarpıklık: Veri dağılımının simetrisini ölçer ve normal dağılımın her iki tarafında da uzun bir kuyruk olup olmadığını belirler.
  • Kurtosis: Verinin normal dağılıma sahip olup olmadığını veya kuyruklu olup olmadığını tanımlar.

5. Hipotez Testi

Hipotez testi, bir anketin sonucunu test etmektir. Hipotez testinin bir parçası olarak iki tür hipotez vardır, yani. Boş hipotez ve Alternatif Hipotez. Boş hipotez, incelenen fenomenle hiçbir ilişkisi olmayan genel ifadedir. Alternatif hipotez, Null hipotezinin çelişkili ifadesidir.

6. Önem testleri

Önem testi, belirtilen Hipotezin geçerliliğini test etmeye yardımcı olan bir dizi testtir. Aşağıda, Sıfır Hipotezinin kabulüne veya reddedilmesine yardımcı olan bazı testler bulunmaktadır.

  • P-değeri testi: Boş hipotezin doğru olup olmadığını kanıtlamaya yardımcı olan olasılık değeridir. p değeri > a ise, Boş Hipotezi doğrudur. p değeri < a ise, Boş Hipotezi Yanlış'tır ve onu reddederiz. Burada 'a', neredeyse 0,5'e eşit olan önemli bir değerdir.
  • Z-Testi: Z-testi, Boş Hipotez ifadesini test etmenin başka bir yoludur. İki popülasyonun ortalaması farklı olduğunda ve varyansları bilindiğinde veya numunenin boyutu büyük olduğunda kullanılır.
  • T-testi: Bir t-testi, popülasyonun varyansı bilinmediğinde veya numunenin boyutu küçük olduğunda gerçekleştirilen istatistiksel bir testtir.

7. Örnekleme teorisi

Örnekleme, rastgele bir popülasyon kümesinden toplanan verilerin veri toplama, veri analizi ve veri yorumlamasını içeren istatistiklerin bir parçasıdır. Verilerin yorumları elde etmek için yeterince iyi olmadığını tespit etmemiz durumunda eksik örnekleme ve aşırı örnekleme teknikleri izlenir. Yetersiz örnekleme, gereksiz verilerin çıkarılmasını içerir ve aşırı örnekleme, doğal olarak var olan veri örneğini taklit etme tekniğidir.

8. Bayes İstatistikleri

Bayes Teoremine dayalı istatistiksel yöntemdir. Bayes teoremi, bir olayla ilgili önceki koşula bağlı olarak bir olayın meydana gelme olasılığını tanımlar. Bu nedenle, Bayes İstatistikleri, olasılığı önceki sonuçlara göre belirler. Bayes Teoremi, belirli koşulların doğru olduğunu göz önünde bulundurarak bir olayın meydana gelme olasılığı olan koşullu olasılığı da tanımlar.

Okuyun: Hindistan'da Veri Bilimcisi Maaşı

Makine Öğrenimi ve Veri Modelleme

Makine öğrenimi, bir model yardımıyla belirli bir veri kümesine dayalı olarak makineyi eğitmektir. Bu eğitilmiş model daha sonra gelecek tahminleri yapar. Denetimli ve denetimsiz olmak üzere iki tür makine öğrenimi modellemesi vardır. Denetimli öğrenme, hedef değişkeni tahmin ettiğimiz yapılandırılmış veriler üzerinde çalışır. Denetimsiz makine öğrenimi, hedef alanı olmayan yapılandırılmamış veriler üzerinde çalışır.

Denetimli makine öğreniminin iki tekniği vardır: sınıflandırma ve regresyon. Sınıflandırma modelleme tekniği, makinenin kategoriyi tahmin etmesini istediğimizde kullanılırken, regresyon tekniği sayıyı belirler. Örnek olarak, bir arabanın gelecekteki satışını tahmin etmek bir regresyon tekniğidir ve bir popülasyon örneğinde diyabet oluşumunu tahmin etmek sınıflandırmadır.

Aşağıda, her Makine Öğrenimi Mühendisi ve Veri Bilimcisi'nin bilmesi gereken Makine öğrenimi ile ilgili temel terimlerden bazıları verilmiştir:

  1. Makine Öğrenimi: Makine öğrenimi, makinenin önceki deneyimlerden öğrendiği ve bunu gelecek için tahminler yapmak için kullandığı yapay zekanın alt kümesidir.
  2. Makine Öğrenimi Modeli: Makineyi, daha sonra tahminlerde bulunan bazı matematiksel temsilleri kullanarak eğitmek için bir Makine Öğrenimi modeli oluşturulur.
  3. Algoritma: Algoritma , bir Makine Öğrenimi Modelinin oluşturulduğu kurallar kümesidir.
  4. Regresyon: Regresyon, bağımsız ve bağımlı değişkenler arasındaki ilişkiyi belirlemek için kullanılan tekniktir. Sahip olduğumuz verilere dayalı olarak makine öğrenmesinde modelleme için kullanılan çeşitli regresyon teknikleri vardır. Doğrusal regresyon, temel regresyon tekniğidir.
  5. Doğrusal Regresyon: Makine öğrenmesinde kullanılan en temel regresyon tekniğidir. Tahmin edici ve hedef değişken arasında doğrusal bir ilişkinin olduğu veriler için geçerlidir. Böylece, her ikisi de doğrusal olarak ilişkili olan girdi değişkeni X'e dayalı olarak hedef değişken Y'yi tahmin ederiz. Aşağıdaki denklem lineer regresyonu temsil eder:

Y=mX + c, burada m ve c katsayılardır.

Lojistik regresyon, sırt regresyonu, kement regresyonu, polinom regresyonu vb. gibi birçok başka regresyon tekniği vardır.

  1. Sınıflandırma: Sınıflandırma, çıktıyı önceden tanımlanmış bir kategori biçiminde tahmin eden makine öğrenimi modelleme türüdür. Bir hastanın kalp hastalığı olup olmayacağı bir sınıflandırma tekniğine örnektir.
  2. Eğitim seti: Eğitim seti , bir makine öğrenimi modelini eğitmek için kullanılan veri setinin bir parçasıdır.
  3. Test seti: Veri setinin bir parçasıdır ve eğitim seti ile aynı yapıya sahiptir ve makine öğrenmesi modelinin performansını test eder.
  4. Özellik: Veri setinde tahmin edici değişken veya bağımsız değişkendir.
  5. Hedef: Veri setinde makine öğrenmesi modeli tarafından değeri tahmin edilen bağımlı değişkendir.
  6. Overfitting : Overfitting, modelin aşırı uzmanlaşmasına yol açan durumdur. Karmaşık bir veri seti durumunda ortaya çıkar.
  7. Düzenlileştirme: Bu, modeli basitleştirmek için kullanılan tekniktir ve fazla uydurma için bir çaredir.

Veri Biliminde kullanılan temel kütüphaneler

Python, en çok yönlü programlama dili olduğu ve birçok uygulama sunduğu için veri biliminde en çok kullanılan dildir. R, Veri Bilimcileri tarafından kullanılan başka bir dildir, ancak Python daha yaygın olarak kullanılmaktadır. Python, bir Veri Bilimcinin hayatını kolaylaştıran çok sayıda kitaplığa sahiptir. Bu nedenle her veri bilimcisi bu kütüphaneleri bilmelidir.

Aşağıda Veri Biliminde en çok kullanılan kütüphaneler bulunmaktadır:

  1. NumPy: Sayısal hesaplamalar için kullanılan temel kütüphanedir. Esas olarak veri analizi için kullanılır.
  2. Pandalar: Veri temizleme, veri depolama ve zaman serileri için kullanılan mutlaka bilinmesi gereken kitaplıktır.
  3. SciPy: Diferansiyel denklemleri ve lineer cebiri çözmek için kullanılan başka bir python kütüphanesidir.
  4. Matplotlib: Korelasyon analizi yapmak, dağılım grafiği kullanarak aykırı değerleri belirlemek ve veri dağılımını görselleştirmek için kullanılan veri görselleştirme kütüphanesidir.
  5. TensorFlow: Hatayı %50 oranında azaltan yüksek performanslı hesaplamalar için kullanılır. Konuşma, görüntü algılama, zaman serisi ve video algılama için kullanılır.
  6. Scikit-Learn: Denetimli ve denetimsiz makine öğrenimi modellerini uygulamak için kullanılır.
  7. Keras: CPU ve GPU üzerinde rahatlıkla çalışır ve sinir ağlarını destekler.
  8. Seaborn: Çok noktalı ızgaralar, histogramlar, dağılım grafikleri, çubuk grafikler vb. için kullanılan başka bir veri görselleştirme kitaplığıdır.

Okumalısınız: Veri Biliminde Kariyer

Çözüm

Genel olarak, Veri Bilimi, istatistiksel yöntemler, modelleme teknikleri ve programlama bilgisinin birleşiminden oluşan bir alandır. Bir yandan, bir veri bilimcisi, gizli içgörüleri elde etmek için verileri analiz etmeli ve ardından bir makine öğrenimi modeli oluşturmak için çeşitli algoritmaları uygulamalıdır. Bütün bunlar Python veya R gibi bir programlama dili kullanılarak yapılır.

Veri bilimi hakkında bilgi edinmek istiyorsanız, IIIT-B & upGrad'ın çalışan profesyoneller için oluşturulmuş ve 10'dan fazla vaka çalışması ve proje, uygulamalı uygulamalı atölye çalışmaları, endüstri uzmanlarıyla mentorluk, 1 Endüstri danışmanlarıyla bire bir, en iyi firmalarla 400+ saat öğrenim ve iş yardımı.

Veri Bilimi Nedir?

Veri bilimi, istatistikler, bilimsel teknikler, yapay zeka (AI) ve veri analizi gibi çeşitli alanları birleştirir. Veri bilimcileri, eyleme geçirilebilir içgörüler elde etmek için web'den, cep telefonlarından, tüketicilerden, sensörlerden ve diğer kaynaklardan elde edilen verileri değerlendirmek için çeşitli yöntemler kullanır. Veri bilimi, karmaşık veri analizi gerçekleştirmek için verileri temizleme, ayırma ve verilerde değişiklik yapmayı içeren analiz için verileri hazırlama sürecidir.

Veri Biliminde makine öğreniminin önemi nedir?

Makine Öğrenimi, büyük miktarda veriyi akıllı bir şekilde analiz eder. Makine Öğrenimi, özünde, veri analizi sürecini otomatikleştirir ve insan etkileşimine ihtiyaç duymadan gerçek zamanlı olarak veri bilgili tahminler üretir. Bir Veri Modeli, gerçek zamanlı tahminler yapmak için otomatik olarak oluşturulur ve eğitilir. Veri Bilimi Yaşam Döngüsü, Makine Öğrenimi Algoritmalarının kullanıldığı yerdir. Makine Öğrenimi için olağan prosedür, incelenecek verileri sağlamanız, ardından Modelinizin belirli yönlerini tanımlamanız ve uygun bir Veri Modeli oluşturmanız ile başlar.

Veri bilimi öğrenenler tarafından tercih edilebilecek meslekler nelerdir?

Perakendeden finansa ve bankacılığa kadar hemen hemen her işletme, veri kümelerinden içgörüleri toplamak ve analiz etmek için veri bilimi uzmanlarının yardımına ihtiyaç duyar. Veri merkezli kariyerinizi iki şekilde ilerletmek için veri bilimi becerilerini kullanabilirsiniz. Veri analisti, veritabanı geliştiricisi veya veri bilimcisi gibi meslekleri takip ederek bir veri bilimi uzmanı olabilir veya işlevsel bir iş analisti veya veri odaklı yönetici gibi analitik etkin bir role geçiş yapabilirsiniz.