Makine Öğrenimi Projeleri için En İyi Veri Kümeleri: Bilmeniz Gereken Her Şey

Yayınlanan: 2020-03-20

İçindekiler

Tanıtım
Makine Öğrenimi Nedir?
- Makine Öğrenimi Kategorileri
  - denetimli öğrenme
  - denetimsiz öğrenme
  - pekiştirmeli öğrenme
Makine öğrenimi için veri kümeleri nelerdir?
- 1. Eğitim veri seti
- 2. Doğrulama veri seti
- 3. Test veri seti
Veri kümelerini makine öğrenimi için hazırlama
- Veri toplama
- Veri ön işleme
  - biçimlendirme
  - Temizlik
  - Örnekleme
- Özellik mühendisliği
- Verileri bölme
Çevrimiçi makine öğrenimi veri kümeleri
Çözüm
Makine öğrenimi için veri kümesi nedir?
Makine öğreniminde doğrulama veri kümesi nedir?
Makine öğreniminde kullanılan bazı popüler veri kümeleri nelerdir?

Tanıtım

Makine öğrenimi , günümüzde kullanılan en güçlü teknolojilerden biridir. Bilgisayarları daha akıllı hale getirmek için kullanılan çok önemli bir yapay zeka dalıdır - onlara insan müdahalesi olmadan öğrenme yeteneği verir. Bu, makine öğrenimini verileri işlemek için hayati bir araç haline getirir. Veriler, iş kararları vermekten müşteri deneyimlerini düzenlemeye kadar her yerde tam anlamıyla kullanıldığından, makine öğrenimi bu devasa veri kümeleri içinde saklı kalıpları tanımlamayı kolaylaştırır.

En önemlisi, bu veri kümeleri, büyük miktarda ham veriyi organize etmenin bir yoludur. Bu veri kümelerini kullanarak, iş operasyonlarını kolaylaştıran uygulamalar oluşturmak için programlar yazılır. Bu makalede, makine öğrenimi için farklı veri kümeleri hakkında bilgi edineceğiz .

Ancak buna girmeden önce, makine öğreniminin temellerini anlayalım.

Makine Öğrenimi Nedir?

Makine öğrenimi, Netflix, Facebook, Twitter, YouTube, Spotify, Google ve Baidu gibi en sevdiğiniz platformlara güç sağlamaktan sorumludur. Alexa ve Siri gibi sesli asistanlar bile makine öğrenimini kullanmak için en sevdiğiniz şarkıları seçer! Tüm bu platformlar sizinle ilişkili verileri kullanmaya çalışır. Bu, aramalarınızı, tıklamalarınızı, görüşlerinizi, paylaştığınız resimleri, yorumlarınızı, tepkilerinizi ve gönderilerinizi içerir. En iyi makine öğrenimi uygulamaları hakkında daha fazla bilgi edinin.

Makine öğrenimi, tercihleriniz hakkında bir fikir edinmek için bu verileri kullanır. Örneğin Netflix, izlediğiniz dizilere dayanarak izlemekten keyif alacağınız bir dizi önermek için bunu kullanır. Amazon gibi platformlar bile, önceki satın alma geçmişinize dayanarak ürünlerinizi önermek için makine öğrenimini kullanır.

Makine öğrenimi pazarının en belirgin segmenti, 2025 yılına kadar 1 milyara ulaşabilecek derin öğrenmedir.

İlginç görünüyor? Gelelim konunun teknik özelliklerine.

Makine Öğrenimi Kategorileri

Makine öğrenimi genel olarak üçe ayrılır: denetimli, denetimsiz öğrenme ve pekiştirmeli öğrenme .

denetimli öğrenme

Bu süreçte bilgisayar, eğitim verileri adı verilen bir veri kümesinden öğrenecektir . Buna dayanarak kararlar alacak ve gelecekteki sonuçları tahmin edecektir. Daha sonra makine öğrenimi için eğitim veri kümelerini öğreneceksiniz . Burada sistem girdi-çıktı çiftleri ile beslenir ve bu çiftler ile çalışırken bunların nasıl bir araya getirildiğini öğrenir. Bu, doğru cevapları etiketlenmiş bir dizi soruya sahip olmak gibidir.

Sistem veya algoritma, girdi-çıktı çiftleri arasındaki ilişkiyi öğrendiğinde, kendisine yeni bir girdi sağlandığında çıktıyı tahmin edebilir. Denetimli öğrenme türleri hakkında daha fazla bilgi edinin.

denetimsiz öğrenme

Burada bilgisayar, herhangi bir yardım almadan gizli kalıpları belirlemek için veri kümelerine bakar. Karmaşık görevler üzerinde çalışır ve sonuçları kendi başına keşfeder. Denetimsiz öğrenme hakkında daha fazla bilgi edinin.

pekiştirmeli öğrenme

Bu makine öğrenimi süreci, bir sorunun çözümünü belirlemek için deneme yanılma yöntemini kullanır. Dolayısıyla programın çıktısı, kendisine sağlanan mevcut girdiye bağlı olacaktır.

Artık temel bir makine öğrenimi anlayışına sahip olduğunuza göre, veri kümelerine geçelim.

Makine öğrenimi için veri kümeleri nelerdir?

Bir veri kümesi, adından da anlaşılacağı gibi, bir veri topluluğudur . Sütunları temsil etmek için bir değişkenin kullanıldığı tek bir veritabanının verileri olabilir. Bu tablonun satırları, bu belirli veri kümesinin bir üyesi tarafından temsil edilebilir.

Veri kümelerini makine öğrenimi için hazırlamak önemlidir. Bunun nedeni, algoritmaların ham veya yapılandırılmamış veriler üzerinde düzgün çalışamamasıdır. Sorunları çözmek ve kararlara varmak için uygun bir veri seti gereklidir. Örneğin, bir hava durumu uygulaması, son birkaç gün veya haftanın iklim verilerini içeren uygun veri kümesine sahip olmayabilir. Bu nedenle, önümüzdeki hafta için doğru hava tahminleri sağlayamayacak.

Bu nedenle, makine öğrenimi için uygun veri kümeleri olmadan , makine öğrenimi projesi , eğitimli veri bilimcileri ile bile başarılı olmayacaktır.

Makine öğrenimi için veri kümeleri, makine öğrenimi modelleri oluşturmak için kullanılır . Bu modeller, matematiksel bir ifade kullanarak gerçek dünya problemini temsil eder. Böyle bir model oluşturmak için, ona öğrenmesi ve çalışması için bir veri seti sağlamalısınız.

Makine öğreniminde kullanılan veri kümesi türleri şunlardır:

1. Eğitim veri seti

Bu, makine öğrenimi için veri kümeleri arasında belki de en önemlisidir . Bir model oluşturmak için bir makine öğrenme algoritmasına beslenir. Algoritma, girdi değişkenlerini tanımlamak için veri kalıplarını arar. Bu, nihai hedefine veya istenen çıktıya ulaşmasına yardımcı olacaktır. Bu veri kümesinin çıktısı, sonuçları tahmin etmek için kullanabileceğiniz bir makine öğrenimi modelidir.

Veri setinin yaklaşık %60'ı bir eğitim veri seti tarafından alınır.

2. Doğrulama veri seti

Bir makine öğrenmesi projesi oluşturulurken doğrulama aşamasında bir doğrulama veri seti kullanılır. Bu aşama eğitimden hemen sonra gelir. Bu veri seti, makine öğrenimi modelini değerlendirmek için önemlidir. Makine öğrenimi mühendisleri , modelin hiper parametrelerini ince ayar yapmak ve ayarlamak için bu seti kullanır . Bu hiperparametreler, program öğrenmeye başlamadan önce ayarlanmış değerlere sahip parametrelerdir.

Değerleri verilerden tahmin edilemez. Örneğin, hiperparametreler, bir sinir ağındaki bir ağacın derinliğini veya bir dizi tespit edilmemiş katmanı içerebilir.

Ünlü yazarlar Max Kuhn ve Kjell Johnson'a göre , “bir veri modeli, onu oluşturmak veya ayarlamak için kullanılmayan örnekler kullanılarak değerlendirilmelidir. Bu size modelin etkinliğinin tarafsız bir sonucunu verir. Büyük miktarda veriyle çalışırken, değerlendirme için bazı veri örneklerini bir kenara bırakmak en iyisidir. Eğitim seti, modeli oluşturmak için kullanılan örnektir, doğrulama ve test örnekleri ise performansını analiz etmek için kullanılır.”

3. Test veri seti

Makine öğrenimi için test veri kümeleri , makine öğrenimi modelinin gelecekte nasıl çalışacağını anlamak için kullanılır. Bu veri setini kullanarak, veri modelinizin ne kadar doğru olduğunu anlayabileceksiniz. Basit bir ifadeyle, bu veri seti, veri modelinizin eğitim setinden ne kadar öğrendiğini size söyleyecektir.

Bu kümeler verilerin %20'sini kaplar. Küme, doğrulanmış çıktılarla birlikte girdi değişkenlerini içerecektir. Ancak makine öğrenmesi projelerinde genellikle test aşamasında bir eğitim veri seti kullanmıyoruz. Bunun nedeni, algoritmanın daha önce bu veri setinden öğrendiği gibi beklenen çıktının farkında olmasıdır.

Test aşamasından sonra, veri modeli genellikle artık ayarlanmaz. Bunun nedeni, daha fazla ayarlamanın aşırı takmaya yol açabilmesidir . Fazla uydurma, bir veri modeli çok fazla veri ile eğitildiğinde meydana gelir. Bu durumda model, verilen veri kümesindeki hatalı veri girişlerinden öğrenmeye başlar. Sonuç olarak, yeni veri kümelerinde düzgün çalışmaz. Yapamadığınız zaman büyük beden kot pantolonlara sığdırmaya çalışmak gibi!

Ancak makine öğrenimi modelinin başarılı bir şekilde çalışması için ona iyi bir veri seti sağlamanız gerekir. Makine öğrenmesi için veri kümeleri olmadan algoritma öğrenemez ve sorunları çözemez. Örneğin, doğru kitaplara ve kaynaklara sahip değilseniz, istediğiniz sınavı kazanamazsınız.

Veri kümelerini makine öğrenimi için hazırlama

Şimdi makine öğrenimi için veri kümeleri oluşturmak için gereken adımları öğrenelim .

Veri toplama

İlk adım, makine öğrenimi modeliniz için ihtiyaç duyabileceğiniz tüm ilgili verileri toplamaktır. Veri miktarı , makine öğrenimi projesinin karmaşıklığına bağlı olacaktır . Basit bir proje, karmaşık olandan daha az veri gerektirir. Bu nedenle, eldeki sorunu çözmek için gerçekten ihtiyacınız olan her şeyi belirlemeniz gerekir.

Aşağıdaki soruları yanıtlayarak veriler kolayca toplanabilir:

Proje için ne tür veriler mevcut?
Proje için ihtiyacınız olan hangi veriler mevcut değil? – Bu, belirli veritabanlarını veya bulut sistemlerinde depolanan verileri içerebilir. Bu verileri türetmeniz gerekebilir.
Mevcut verilerden hangi verileri kaldırabilirsiniz? Bu, projenizle ilgisi olmayan istenmeyen verileri temizlemek anlamına gelir.

Tüm bu soruların cevaplarına sahip olduğunuzda çeşitli kaynaklardan veri toplamaya başlayabilirsiniz. Bunlar, JSON ve XML dosyalarındaki ve veri havuzlarındaki iç içe geçmiş veri yapılarına bakan metin dosyaları, .csv dosyaları olabilir.

Artık makine öğrenimi için veri kümeleri oluşturmada bir sonraki adıma geçebilirsiniz .

Veri ön işleme

Artık ihtiyacınız olan tüm verilere sahip olduğunuza göre, bunları modeliniz için uygun şekilde işlemeniz gerekir. Ön işleme yöntemi, ham veri kümelerini kullanılabilir anlamlı kümelere dönüştürmektir. İşlem aşağıdaki üç adımdan oluşur:

biçimlendirme

Pek çok topladığınız ham veriler makine öğrenimi modelinize uygun bir formatta değil. Bir JSON dosyasında veya ilişkisel bir veritabanında olabilir. Bu verileri size uygun bir şekilde bir metin dosyasına veya bir .csv dosyasına dönüştürmeniz gerekir.

Temizlik

Bu, veri kümenizdeki eksik ve istenmeyen verileri düzeltip kaldırdığınız işlemdir. Bu veri örnekleri sorunu çözmeye yardımcı olmayabilir. Ek olarak, bazı öznitelikler içinde tamamen gizlemeniz veya kaldırmanız gerekebilecek hassas bilgiler olabilir. Bu, makine öğrenimi için veri kümelerinizi daha anlamlı hale getirir.

Örnekleme

Proje için gerçekten ihtiyaç duyduğunuzdan çok daha fazla veri toplamış olabilirsiniz. Büyük veri kümeleri çok fazla bellek alanı tüketir. Ayrıca, bir makine öğrenimi algoritmasına beslendiğinde daha uzun çalışma sürelerine ve çok daha fazla hesaplamaya neden olurlar. Bu sorunlardan kaçınmak için, seçilen verilerden modelinizin kolayca kullanabileceği daha küçük örnekler oluşturmanız gerekir. Bu işleme örnekleme denir .

Özellik mühendisliği

Burada, problemin çözülmesine ve tahminlerin yapılmasına yardımcı olacak en iyi özellikleri ve kalıpları belirlemek için veri seti analiz edilir. Dolayısıyla bu süreçte büyük bir veri setinden bazı veriler çıkarılabilir. Odak, modele uyan en önemli özelliklerdir.

Önemli özellikleri belirlemek için veriler küçük parçalara ayrılabilir. Örneğin, belirli bir yılın satış verileri aylara ve haftanın günlerine bölünebilir. Bu şekilde satış performansının analizi daha kolay ve hızlıdır. Bu aynı zamanda makine öğrenimi algoritmasının daha hızlı hesaplanmasına yardımcı olur.

Verileri bölme

Artık verilerin eğitim, test ve doğrulama olmak üzere üç gruba ayrılması gerekiyor. Setler için sırasıyla %70, %20 ve %10 olarak ayırmanız gerekir. Doğru test için yalnızca örtüşmeyen veri alt kümelerini seçtiğinizden emin olun. Makine öğrenimi modelinin istenen çıktıya daha hızlı ulaşmasını sağlamak için veri kümelerini doğru şekilde bölme. Veri modelini daha sonra hassaslaştırabilirsiniz.

Pekala, artık bir makine öğrenimi algoritması için bir veri setini nasıl düzenleyeceğinizi öğrendiniz. Peki ya yaklaşan bir projeniz varsa ve kendi veri setinizi oluşturmaya zamanınız yoksa? İnternet sayesinde aralarından seçim yapabileceğiniz birçok kullanıma hazır veri seti bulunmaktadır.

Çevrimiçi makine öğrenimi veri kümeleri

Web'de makine öğrenimi için en kullanışlı veri kümeleri şunlardır :

Boston Konut Veri Kümesi

Makine öğrenimi için veri kümeleri arasında popüler bir seçim . Örüntü tanıma için kullanılır. Bölgedeki oda sayısı, vergi oranı ve suç oranı gibi veriler dahil olmak üzere çeşitli Boston evleri hakkında bilgiler içerir. Veri sütunlarında 506 satır ve 14 değişkenden oluşan veri seti, konut fiyatlarını tahmin etmek için iyi.

Parkinson veri seti

Bu veri seti, biyomedikal ölçümlere sahip 23 farklı özellik ile birlikte 195 hasta kaydından oluşmaktadır. Sağlıklı hastaları Parkinson hastalığı olanlardan ayırmak için veri setini kullanabilirsiniz.

IMDB

25.000 film incelemesinden oluşan bir veri seti. Bu, ikili duygu sınıflandırması için kullanılır.

MIMIC-III

Bu, Hesaplamalı Fizyoloji için MIT Laboratuarı tarafından oluşturulmuş, herkese açık bir veri setidir. Yaklaşık 40.000 yoğun bakım hastasının sağlık verilerinden oluşur. İlaçlar, laboratuvar testleri, yaşamsal belirtiler ve demografi gibi bilgiler burada yer almaktadır.

Berkeley DeepDrive BDD100k

Berkeley DeepDrive BDD100k, şu anda sürücüsüz arabalar için makine öğrenimi programları geliştirmek için kullanılan en büyük veri setidir. Günün çeşitli saatlerinde farklı iklim koşullarında sürüş yapan 100.000'den fazla video içerir. Veriler New York ve San Francisco şehirlerine dayanmaktadır.

Uber Pickups Veri Kümesi

Bu veri seti, Nisan-Eylül 2014 arasında New York'ta Uber müşteri teslim alımları hakkında bilgi içerir. Bu türden yaklaşık 4,5 milyon müşteri verisi ve Ocak-Haziran 2015 arasında 14 milyon daha var. Müşteriler hakkında daha fazla bilgi toplamak için bu veri setini kullanarak veri analizi yapabilirsiniz. Bu, şirketlerin işlerini önemli ölçüde geliştirmelerine yardımcı olabilir.

AVM Müşterileri Veri Seti

Bu, alışveriş merkezlerini ziyaret eden kişiler hakkında bilgi içerir. Veri seti cinsiyet, yaş, müşteri kimliği, harcama puanı ve çok daha fazlası gibi ayrıntıları içerir. Bu, hedef pazarlamada çok yararlı olabilir. İşletmeler, yaş ve harcama puanı gibi verilere dayanarak müşterileri gruplara ayırabilir. Bu gruplar için benzersiz müşteri deneyimleri yaratabilirler.

Çözüm

Nasıl doğru kelime ve cümlelerin bir şiiri uzun süre aklında tutması gibi, başarılı bir proje için doğru veri setine ihtiyaç vardır. Bu nedenle en iyi şirketlerin çoğu, belirli bir makine öğrenimi sistemi için en iyi veri setini oluşturma görevi için veri mühendislerini işe alır. Bu nedenle, veri kümelerinizi makine öğrenimi için hazırlarken zaman ayırın .

Makine öğrenimi hakkında daha fazla bilgi edinmek istiyorsanız, çalışan profesyoneller için tasarlanmış ve 450+ saat zorlu eğitim, 30'dan fazla vaka çalışması ve ödev, IIIT- sunan IIIT-B & upGrad'ın Makine Öğrenimi ve Yapay Zeka alanında PG Diplomasına göz atın. B Mezun statüsü, 5'ten fazla pratik uygulamalı bitirme projesi ve en iyi firmalarla iş yardımı.

Makine öğrenimi için veri kümesi nedir?

Veri, makine öğrenimi için en önemli bileşendir. Veri kümesi, öğrenmek için kullanılan bir bilgi topluluğudur. Veri kümesi genellikle eğitim verilerinden farklı bir kaynaktan gelir. Bu veriler, modelin ne kadar iyi çalıştığını değerlendirmek için kullanılır. Örneğin, bir görüntü sınıflandırıcıyı eğitmek için ImageNet koleksiyonundaki görüntüleri kullanacaksınız. Hem eğitim hem de test veri setlerinde bir görüntünün mevcut olabileceğini, ancak farklı kategorilerde olması gerektiğini belirtmekte fayda var. Veri kümelerinin bir başka popüler kullanımı, görüntü tanıma algoritmasını eğitmektir. Algoritmayı eğitmek için on bin kedi resmine ve on bin köpek resmine sahip olmanız gerekecek. ImageNet, endüstride yaygın olarak kullanılan veri kümelerinden biridir.

Makine öğreniminde doğrulama veri kümesi nedir?

Denetimli makine öğreniminde, girdi örneklerinden ve istenen çıktılardan oluşan eğitim veri setine sahibiz. Doğrulama veri kümesi, model/model parametrelerinin eğitilmediği ikinci veri kümesidir. Model/model parametreleri, eğitim veri kümesinde tahmin edilir. Doğrulama veri seti, görünmeyen örnekler, yani test örnekleri üzerinde denetimli öğrenme modelinin beklenen doğruluğunu tahmin etmek için kullanılır. Doğrulama veri seti, denetimli öğrenme modelinin genelleme hatasını ölçmek veya tahmin etmek için kullanılır.

Makine öğreniminde kullanılan bazı popüler veri kümeleri nelerdir?

Makine öğreniminde daha iyi olmak için kullanabileceğimiz birkaç veri seti var. Bunlardan bazıları: Hanehalkı geliri ve demografik anket verileri, ABD Sayım Bürosu İşletme Sahipleri Anketi, Borsa Fiyatları, ABD vatandaşlarının yaşı ve cinsiyeti, ABD eyaletlerinin enerji kullanımı, Satın alınan, satılan ve kiralanan evlerin yüzdesi, Twitter hashtag'leri, Facebook Facebook'ta insanların beğenileri ve diğer etkinlikleri, ImageNet Büyük Ölçekli Görsel Tanıma Mücadelesi (ILSVRC) veri kümeleri, ABD'deki büyük limanlardan aylık nakliye hacmi vb. Makine öğrenimi için kullanabileceğimiz daha birçok veri kümesi var.