Yeni Başlayanlar İçin En İyi 10 Makine Öğrenimi Veri Kümesi Proje Fikirleri [2022]
Yayınlanan: 2021-01-04Makine öğrenimi veri kümelerini bulmak gerçekten de inatçıdır, ancak olması gerekmez! Bu makalede, makine öğrenimi projeleri için kullanabileceğiniz birden çok veri kümesini paylaştık. Ayrıca, her veri kümesinin ne içerdiğine ilişkin ayrıntıları ve bunlara bir bağlantı paylaştık. Listemiz, ilgi alanlarınıza ve uzmanlığınıza göre birini seçebilmeniz için farklı alanlarda ve çeşitli boyutlarda veri kümeleri içerir.
Bunun dışında, hemen bir proje üzerinde çalışmaya başlayabilmeniz için farklı veri kümeleri için de proje fikirleri paylaştık. Projeler üzerinde çalışmak, makine öğrenimi algoritmaları hakkındaki bilginizi test etmenize yardımcı olacaktır. Başlayalım:
İçindekiler
Makine Öğrenimi Veri Kümeleri Proje Fikirleri
1. Enron'un E-posta Veri Kümesi
Bu veri kümesi, 150'den fazla kullanıcının yaklaşık 500.000 e-postasını içerir. Bu e-postaların tümü Enron adlı bir şirkete aittir ve bu veri kümesinde bulunan e-postaların çoğu üst yönetim ekibine aittir. Bir doğal dil işleme projesi üzerinde çalışmak istiyorsanız, buradan başlamalısınız.
Enron'un e-posta veri seti, NLP projeleri için oldukça popülerdir ve bundan çok şey öğreneceksiniz. Bir K-araç kümeleme modeli oluşturabilir ve bunu e-posta metinleri aracılığıyla herhangi bir dolandırıcılık faaliyetini belirlemek için kullanabilirsiniz. K-ortalama kümeleme, denetimsiz bir ML algoritmasıdır ve öğeleri benzerliklerine göre k adet kümeye ayırır.
Veri Kümesine Bağlantı
2. Flickr'ın Görüntü Veri Kümesi
Flickr, dünya çapında milyonlarca kullanıcısı olan bir resim barındırma hizmetidir. Bu veri kümesinde farklı başlıklara sahip 30.000 görüntü var. Görüntüler için bir resim yazısı oluşturucu oluşturmak için bu veri kümesini kullanabilirsiniz. Bu veri seti, görüntü analizi ve metin yoluyla görüntü açıklaması için oldukça ünlüdür.

Görüntüleri analiz eden ve belirli bir modelde tanımladığı özelliklere göre bir resim yazısı oluşturan bir CNN (Evrişimli Sinir Ağı) modeli oluşturabilirsiniz. Modeli, veri kümesinde bulunan binlerce başlık aracılığıyla eğitebilirsiniz. Bir altyazı oluşturucu oluşturmak, görüntü analizi çalışmalarını ve onu gerçek dünyadaki durumlarda nasıl kullanabileceğinizi öğrenme konusunda size çok fazla deneyim kazandıracaktır.
Veri Kümesine Bağlantı
3. Iris Veri Kümesi (Başlangıç seviyesi)
Daha önce bir makine öğrenimi projesinde çalışmadıysanız, buradan başlamalısınız. Iris veri seti, basitliği ve boyutu nedeniyle makine öğrenimi öğrencileri arasında popüler bir seçimdir. Sepal ve petal boyutu gibi üç iris türü (bir çiçek) hakkında bilgi içerir.
Bu veri kümesi için başka bir isim, kökeni nedeniyle Fisher'in iris veri kümesidir. Ronald Fisher bu veri setini 1936 tarihli makalesinde kullanmıştı.
Iris veri kümesinde 150 satırlık dört sütun bulunur. Bu veri seti ile bir sınıflandırma modeli oluşturabilirsiniz. Bir sınıflandırma modeli, öğeleri özelliklerine göre farklı sınıflara ayırır ve bir sınıf oluşturmak, denetimsiz ve denetimli öğrenme arasındaki farkı öğrenmenize de yardımcı olabilir.
Veri Kümesine Bağlantı
4. Parkinson Veri Kümesi
Parkinson veri setine tıp alanında makine öğrenimini kullanmak isteyen öğrenciler erişebilir. 23 öznitelikle birlikte 195 vakayı içerdiği için tıp sektörünün makine öğrenmesi projeleri için en iyi veri kümeleri arasındadır.
Parkinson hastalığı bir sinir sistemi bozukluğudur ve temel hareketi etkiler. Yavaş hareket, denge kaybı ve sertlik bu hastalığın en belirgin semptomlarından bazılarıdır. Bu veri setini, Parkinson hastası olup olmadıklarını belirlemek için semptomlarını ve özelliklerini analiz ederek hastaları sağlıklı insanlardan ayıran bir model oluşturmak için kullanabilirsiniz.
Sağlık sektöründe makine öğreniminin kullanımı her geçen gün daha popüler hale geliyor. Dolayısıyla, bu sektörde makine öğrenimi uzmanlığınızı kullanmakla ilgileniyorsanız, buradan başlamalısınız. Sağlık alanındaki bu makine öğrenimi uygulamalarından ilham alabilirsiniz .
Veri Kümesine Bağlantı
5. Alışveriş Merkezi Müşterileri Veri Kümesi
Bu veri kümesi, bir alışveriş merkezini ziyaret eden kişiler hakkında bilgi içerir. Müşteri kimlikleri, yıllık gelirler, yaşlar, harcama puanları ve cinsiyet gibi birden çok değişkeni içerir. Veri seti, müşterileri davranış ve eğilimlerine göre farklı kategorilere ayırmıştır.
Bu veri kümesini, müşterileri cinsiyetlerine, harcama puanlarına veya yıllık gelirlerine göre ayıran bir sınıflandırma modeli oluşturmak için kullanabilirsiniz. Bu veri kümesi, iş dünyasında popüler bir AI ve ML uygulaması olan bir müşteri segmentasyonu projesi için mükemmeldir.
Şirketler, pazarlama stratejileri tasarlamak ve reklamlarını geliştirmek için müşteri segmentasyonunu kullanır. Bu proje üzerinde çalışmak, doğru müşteri segmentasyonu için makine öğrenimi algoritmalarını nasıl kullanabileceğinizi anlamanıza yardımcı olacaktır.
Veri Kümesine Bağlantı
Okuyun : Python Proje Fikirleri
6. Uber Rides Veri Kümesi
Bu, görselleştirme projeleri için en iyi makine öğrenimi veri kümeleri arasındadır. Uber Rides veri kümesi, Nisan 2014 ile Eylül 2014 arasında gerçekleşen uber yolculukları hakkında bilgi içerir. O sırada yaklaşık 4,5 milyon uber yolculuğu gerçekleşti, bu nedenle veri kümesi oldukça büyük. Veri kümesi, bu yolculuklarla ilgili konumlar ve diğer ilgili veriler hakkında bilgiler içerir.

Güzel veri görselleştirmesi oluşturmak için bu veri kümesinde bulunan verileri kullanabilirsiniz. Veri görselleştirmeleri, büyük veri havuzlarından değerli içgörüler elde etmeye yardımcı olur. Bunun dışında, veri görselleştirmeleri, ortaya çıkarılan içgörülere göre daha iyi kararlar alınmasına yardımcı olur. Başlamak için bu veri görselleştirme projelerinden ilham alabilirsiniz.
Veri Kümesine Bağlantı
7. Google Trendler ve Verileri
Google Trendler, Google aramalarını analiz etmenize ve insanların Google'da aradığı trend olan konuları bulmanıza olanak sağlayan bir araçtır. Ücretsiz ancak güçlü bir araçtır ve size insanların arama kalıpları ve eğilimleri hakkında birçok veri sağlayabilir.
Google Trendler, belirli bir anahtar kelimenin ve ilgili terimlerinin belirli bir süre için kaç arama yaptığını bulmanızı sağlar. Bir demografiye özgü verileri almak için de kullanabilirsiniz.
Veri analizi için makine öğrenimini kullanmayı planlıyorsanız, bu, başlamak için muazzam bir veri kümesidir. İstediğiniz herhangi bir konuda istediğiniz kadar veri alabilirsiniz. Google Trendler, pek çok makine öğrenimi projesinde çalışmamış yeni başlayanlar için mükemmeldir.
Veri Kümesine Bağlantı
8. Kinetik Veri Kümesi
İnsan etkileşimlerini tanımak için AI kullanmakla ilgileniyorsanız, bu sizin için doğru veri kümesidir. İnsan eylemlerini ve etkileşimlerini analiz etmek, görüntüleri ve videoları inceleyen yapay zeka alanı olan bilgisayarlı görmenin hayati bir parçasıdır. Bilgisayar vizyonunda ustalaşmak, nesne tanımlama, yüz tanıma ve bunların diğer ilgili uygulamaları üzerinde çalışmanıza yardımcı olacaktır.
Bu veri setinde insan-insan etkileşimlerinin (sarılma ve el sıkışma gibi) yanı sıra insan-nesne etkileşimlerinin (gitar çalma gibi) olduğu yaklaşık 650 bin video var. Her sınıfın en az 600 klibi olduğu 700 aksiyon sınıfına sahiptir. Her klibin tek bir eylem sınıfıyla birlikte insan açıklaması vardır. Bu veri setindeki her videonun süresi yaklaşık 10 saniyedir.
Veri Kümesine Bağlantı
Okuyun: Makine Öğrenimi Proje Fikirleri
9. GTSRB Verileri
GTSRB, Alman Trafik İşareti Tanıma Benchmark'ın kısaltmasıdır ve çok sınıflı sınıflandırma gerçekleştirmek için harika bir projedir. Bu veri kümesi, bunlarla ilgili bilgilerle birlikte 50 binden fazla görüntüye sahiptir. Veri kümesinde ayrıca 40 sınıf vardır ve bu veri kümesindeki gerçek trafik işareti olayları, içinde benzersizdir.
Kullanım senaryolarını düşündüğünüzde, makine öğrenimi projeleri için en iyi veri kümeleri arasındadır. Görüntü sınıflandırmasını inceleyebilir ve farklı trafik işaretlerini sınıflandırmak için bir çerçeve oluşturabilirsiniz.
Trafik işaretlerinin sınıflandırılması, otonom bir aracın (kendi kendini süren araba) çok önemli bir parçası olabilir, bu nedenle yapay zekanın otomotiv sektöründeki uygulamalarıyla ilgileniyorsanız, bu proje üzerinde çalışmalısınız.
Makine öğrenimi projelerinde çalışma konusunda fazla deneyiminiz yoksa, bu veri kümesinin küçük bir bölümüyle başlayabilirsiniz.
Veri Kümesine Bağlantı
10. Boston Evleri Veri Kümesi
Boston Konut Veri Kümesi, makine öğrenimi projeleri için en popüler veri kümeleri arasındadır. Örüntü tanıma projeleri için uygundur ve makine öğrenimi bilginizi kullanmanın harika bir yoludur. Bu veri seti, ABD Nüfus Servisi'nin Boston Mass bölgesindeki konutlar hakkında topladığı bilgileri içerir ve yaklaşık 500 vakaya sahiptir. Veri setinde kişi başına suç oranı, bir evdeki ortalama oda sayısı ve diğerleri dahil olmak üzere 14 değişken bulunmaktadır.

Çok az vakaya sahip olduğu için (tam olarak 506), yeni makine öğrenimi uzmanları ve öğrenciler için uygundur. Bulduğunuz verilere göre o bölgedeki evlerin fiyatlarını tahmin eden bir model oluşturmak için bu veri setini kullanabilirsiniz.
Modeli bu veri setinde bulunan ev fiyatları ile eğitebilir ve ardından belirli bir bölgenin koşullarına göre gelecekteki fiyatları tahmin etmek için kullanabilirsiniz. Bu veri seti ile, regresyon ve gayrimenkul gibi birçok benzer proje fikri üzerinde çalışabilirsiniz.
Veri Kümesine Bağlantı
Makine Öğrenimi Projelerinde Çalışma Zamanı
Artık makine öğrenimi projeleri için kapsamlı bir veri kümesi listesine sahip olduğunuza göre, artık bir tanesi üzerinde çalışmaya başlayabilirsiniz. Umarız bu listeyi faydalı bulmuşsunuzdur.
Makine öğrenimi hakkında daha fazla bilgi edinmek istiyorsanız, çalışan profesyoneller için tasarlanmış ve 450+ saat zorlu eğitim, 30'dan fazla vaka çalışması ve ödev, IIIT- sunan IIIT-B & upGrad'ın Makine Öğrenimi ve Yapay Zeka PG Diplomasına göz atın. B Mezun statüsü, 5+ pratik uygulamalı bitirme projesi ve en iyi firmalarla iş yardımı.
Makine öğreniminde veri kümeleri nelerdir?
Makine öğrenimi ve veri madenciliğinde bir veri kümesi, bir örnekler topluluğudur. Makine öğrenimi veya istatistiksel yöntemlerin uygulanması için kullanılan etiketli bir örnek kümesidir. Bir örnek, tek bir gözlem veya tüm bir gözlem koleksiyonu olabilir. Bir veri kümesindeki kalıpları belirlemek her zaman daha kolaydır. Veriler bir örnekler topluluğudur. Makine öğrenimi ve veri madenciliğinin kalbidir. Bir veri kümesinde kalıp bulmak her zaman daha kolaydır.
Veri kümesi türleri nelerdir?
Veri kümelerinin farklı türleri vardır: a. Zaman Serisi Veri Kümeleri - Bu, belirli bir zaman aralığındaki bir veri kümesinin bir zaman serisi veri kümesi olarak kabul edildiğini açıklar. B. Kesit Veri Kümeleri - Bu, aynı zaman diliminde farklı ancak benzer öğelerden gelen gözlemlerin bir koleksiyonu olan veri kümelerini tanımlar. C. Karma Veri Kümeleri - Bu, zaman serileri ve kesit veri kümesinin bir kombinasyonu olan veri kümelerini açıklar. D. Bileşenler Veri Kümeleri - Bu, belirli bir sorunu çözmek için kullanılan bir veri kümesi koleksiyonunu tanımlar. e. İşlem Veri Kümeleri Çeşitli varlıklar arasındaki kalıpları, ilişkileri ve ilişkileri bulmak için kullanılan bir veri kümesi koleksiyonunu tanımlar. F. Grafik Veri Kümeleri - Bu, bir ağdaki öğelerin grafiğini çizmek veya haritalamak için kullanılan bir veri kümesi koleksiyonunu tanımlar.
Makine öğreniminde eğitim ve test veri kümeleri nelerdir?
Eğitim veri kümesi, bir modeli eğitmek için kullanılan örnekler kümesidir. Bu veri kümesi, x girdi verisini y çıktısına eşleyen matematiksel işlevi veya f(x) modelini oluşturmak için kullanılır. Test veri setleri, eğitim veri setinden farklıdır. Test veri kümesi, sınıflandırıcının performansını değerlendirmek için kullanılan sınıflandırıcıyı eğitmek için kullanılmayan bir dizi örnektir. Sınıflandırıcı eğitim örnekleri üzerinde eğitildiğinden, sınıflandırıcının test veri kümesi üzerindeki performansı tam olarak bilinmemektedir.