Top 10 idei de proiecte de seturi de date de învățare automată pentru începători [2022]

Publicat: 2021-01-04

Găsirea setului de date de învățare automată este într-adevăr tenace, dar nu trebuie să fie! În acest articol, am distribuit mai multe seturi de date pe care le puteți utiliza pentru proiecte de învățare automată. De asemenea, am împărtășit detalii despre ceea ce conține fiecare set de date, împreună cu un link către acestea. Lista noastră include seturi de date de diferite câmpuri și diferite dimensiuni, astfel încât să puteți alege unul în funcție de interesele și expertiza dvs.

În afară de asta, am împărtășit idei de proiecte pentru diferite seturi de date, astfel încât să puteți începe să lucrați la un proiect imediat. Lucrul la proiecte vă va ajuta să vă testați cunoștințele despre algoritmii de învățare automată. Să începem:

Cuprins

Idei de proiecte pentru seturi de date de învățare automată
- 1. Setul de date de e-mail al Enron
- 2. Setul de date de imagine al Flickr
- 3. Setul de date Iris (nivel începător)
- 4. Setul de date Parkinson
- 5. Setul de date Clienții Mall
- 6. Setul de date Uber Rides
- 7. Google Trends și datele sale
- 8. Setul de date Kinetics
- 9. Date GTSRB
- 10. Setul de date Boston Houses
E timpul să lucrezi la proiecte de învățare automată
Ce sunt seturile de date în învățarea automată?
Care sunt tipurile de seturi de date?
Ce sunt seturile de date de instruire și testare în învățarea automată?

Idei de proiecte pentru seturi de date de învățare automată

1. Setul de date de e-mail al Enron

Acest set de date conține aproximativ 5.00.000 de e-mailuri de la peste 150 de utilizatori. Toate aceste e-mailuri sunt ale unei companii numite Enron, iar majoritatea e-mailurilor prezente în acest set de date sunt ale echipei sale de conducere. Dacă doriți să lucrați la un proiect de procesare a limbajului natural, atunci ar trebui să începeți de aici.

Setul de date de e-mail al Enron este foarte popular pentru proiectele NLP și veți putea învăța multe din asta. Puteți crea un model de clustering K-means și îl puteți utiliza pentru a identifica orice activități frauduloase prin textele e-mailurilor. Gruparea K-means este un algoritm ML nesupravegheat și separă articolele în k cantitate de clustere în funcție de asemănările lor.

Link către setul de date

2. Setul de date de imagine al Flickr

Flickr este un serviciu de găzduire a imaginilor cu milioane de utilizatori din întreaga lume. Acest set de date are 30.000 de imagini cu titluri diferite. Puteți folosi acest set de date pentru a crea un generator de subtitrări pentru imagini. Acest set de date este destul de renumit pentru analiza imaginilor și descrierea imaginii prin text.

Puteți crea un model CNN (Convolutional Neural Network) care analizează imaginile și generează o legendă în funcție de caracteristicile pe care le identifică într-o anumită. Puteți antrena modelul prin miile de subtitrări disponibile în setul de date. Construirea unui generator de subtitrări vă va oferi o mulțime de experiență în învățarea lucrărilor de analiză a imaginilor și a modului în care îl puteți utiliza în cazurile din lumea reală.

Link către setul de date

3. Setul de date Iris (nivel începător)

Dacă nu ați mai lucrat la un proiect de învățare automată, atunci ar trebui să începeți de aici. Setul de date Iris este o alegere populară printre studenții ML datorită simplității și dimensiunii sale. Conține informații despre cele trei specii de iris (o floare), cum ar fi dimensiunea sepalului și a petalei.

Un alt nume pentru acest set de date este setul de date iris al lui Fisher din cauza originii sale. Ronald Fisher a folosit acest set de date în lucrarea sa din 1936.

Setul de date Iris are patru coloane cu 150 de rânduri. Puteți crea un model de clasificare cu acest set de date. Un model de clasificare separă articolele în diferite clase în funcție de atributele lor, iar crearea unuia te poate ajuta să înveți și diferența dintre învățarea nesupravegheată și supravegheată.

Link către setul de date

4. Setul de date Parkinson

Setul de date Parkinson este accesibil studenților care doresc să folosească învățarea automată în domeniul medical. Este printre cele mai bune seturi de date pentru proiecte de învățare automată din sectorul medical, deoarece conține 195 de cazuri împreună cu 23 de atribute.

Boala Parkinson este o tulburare a sistemului nervos și afectează mișcarea de bază. Mișcarea lentă, pierderea echilibrului și rigiditatea sunt unele dintre cele mai proeminente simptome ale acestei boli. Puteți utiliza acest set de date pentru a crea un model care separă pacienții de oamenii sănătoși, analizându-le simptomele și atributele pentru a determina dacă au Parkinson sau nu.

Utilizarea învățării automate în sectorul sănătății devine din ce în ce mai populară în fiecare zi. Deci, dacă sunteți interesat să vă folosiți expertiza în învățarea automată în acest sector, ar trebui să începeți de aici. Vă puteți inspira din aceste aplicații ale învățării automate în domeniul sănătății .

Link către setul de date

5. Setul de date Clienții Mall

Acest set de date conține informații despre persoanele care vizitează un mall. Conține mai multe variabile, cum ar fi ID-urile clienților, veniturile anuale, vârstele, scorurile de cheltuieli și sexul. Setul de date a împărțit clienții în diferite categorii în funcție de comportamentul și tendințele lor.

Puteți folosi acest set de date pentru a crea un model de clasificare care separă clienții în funcție de sex, scorul de cheltuieli sau venitul anual. Acest set de date este perfect pentru un proiect de segmentare a clienților, care este o aplicație populară a AI și ML în afaceri.

Companiile folosesc segmentarea clienților pentru a concepe strategii de marketing și pentru a-și îmbunătăți reclamele. Lucrul la acest proiect vă va ajuta să înțelegeți cum puteți utiliza algoritmii de învățare automată pentru o segmentare precisă a clienților.

Link către setul de date

Citiți : Idei de proiecte Python

6. Setul de date Uber Rides

Acesta este printre cele mai bune seturi de date de învățare automată pentru proiecte de vizualizare. Setul de date Uber Rides conține informații despre călătoriile cu uber care au avut loc între aprilie 2014 și septembrie 2014. Aproximativ 4,5 milioane de călătorii cu uber au avut loc la acel moment, așa că setul de date este destul de uriaș. Setul de date conține informații despre locațiile legate de acele curse și alte date relevante.

Puteți utiliza datele prezente în acest set de date pentru a crea o vizualizare frumoasă a datelor. Vizualizările datelor ajută la obținerea de informații valoroase din grupuri mari de date. În afară de aceasta, vizualizările datelor ajută la luarea unor decizii mai bune în funcție de informațiile descoperite. Vă puteți inspira din aceste proiecte de vizualizare a datelor pentru a începe.

Link către setul de date

7. Google Trends și datele sale

Google Trends este un instrument care vă permite să analizați căutările Google și să găsiți subiecte în tendințe despre care oamenii caută pe Google. Este un instrument gratuit, dar puternic și vă poate oferi o mulțime de date despre modelele și tendințele de căutare ale oamenilor.

Google Trends vă permite să aflați câte căutări a avut un anumit cuvânt cheie și termenii aferenti acestuia pentru o anumită perioadă de timp. De asemenea, îl puteți folosi pentru a obține date specifice unui grup demografic.

Dacă intenționați să utilizați învățarea automată pentru analiza datelor, atunci acesta este un set de date enorm pentru a începe. Puteți obține cât de multe date doriți despre orice subiect doriți. Google Trends este excelent pentru un începător care nu a lucrat la multe proiecte de învățare automată.

Link către setul de date

8. Setul de date Kinetics

Dacă sunteți interesat să utilizați AI pentru a recunoaște interacțiunile umane, atunci acesta este setul de date potrivit pentru dvs. Analiza acțiunilor și interacțiunilor umane, este o parte vitală a vederii computerizate, domeniul inteligenței artificiale care studiază imagini și videoclipuri. Devenirea expertă în viziunea computerizată vă va ajuta să lucrați la identificarea obiectelor, recunoașterea facială și alte aplicații relevante ale acestora.

Acest set de date are aproape 650.000 de videoclipuri care au interacțiuni om-om (cum ar fi îmbrățișarea și strângerea mâinii), precum și interacțiuni om-obiect (cum ar fi cântatul la chitară). Are 700 de clase de acțiune în care fiecare clasă are cel puțin 600 de clipuri. Fiecare clip are adnotare umană împreună cu o singură clasă de acțiune. Durata fiecărui videoclip din acest set de date este de aproximativ 10 secunde.

Link către setul de date

Citiți: Idei de proiecte de învățare automată

9. Date GTSRB

GTSRB înseamnă German Traffic Sign Recognition Benchmark și este un proiect grozav pentru a realiza clasificarea multiclasă. Acest set de date are peste 50.000 de imagini împreună cu informații despre ele. Setul de date are, de asemenea, 40 de clase, iar evenimentele reale de semne de trafic din acest set de date sunt unice în cadrul acestuia.

Se numără printre cele mai bune seturi de date pentru proiecte de învățare automată atunci când luați în considerare cazurile de utilizare. Puteți studia clasificarea imaginilor și puteți crea un cadru pentru a clasifica diferite semne de circulație.

Clasificarea semnelor de circulație poate fi o parte crucială a unui vehicul autonom (mașină cu conducere autonomă), așa că dacă sunteți interesat de aplicațiile AI în sectorul auto, ar trebui să lucrați la acest proiect.

Puteți începe cu o mică secțiune a acestui set de date dacă nu aveți prea multă experiență în lucrul la proiecte ML.

Link către setul de date

10. Setul de date Boston Houses

Setul de date Boston Housing este printre cele mai populare seturi de date pentru proiectele de învățare automată. Este potrivit pentru proiectele de recunoaștere a modelelor și este o modalitate excelentă de a vă exercita cunoștințele ML. Acest set de date conține informații adunate de Serviciul de recensământ al SUA despre locuințele din zona Boston Mass și are aproximativ 500 de cazuri. În setul de date, există 14 variabile, inclusiv rata criminalității pe cap de locuitor, numărul mediu de camere dintr-o casă și altele.

Deoarece are foarte puține cazuri (506 mai exact), este potrivit pentru noii profesioniști și studenți în învățarea automată. Puteți utiliza acest set de date pentru a crea un model care prezice prețurile caselor din acea regiune în funcție de datele pe care le-ați găsit.

Puteți antrena modelul cu prețurile caselor prezente în acest set de date și apoi îl puteți utiliza pentru a prezice prețurile viitoare în funcție de condițiile unei anumite zone. Cu acest set de date, puteți lucra la multe idei de proiecte similare de regresie și imobiliare.

Link către setul de date

E timpul să lucrezi la proiecte de învățare automată

Acum că aveți o listă extinsă de seturi de date pentru proiecte de învățare automată, puteți începe să lucrați la unul. Sperăm că ați găsit această listă utilă.

Dacă sunteți interesat să aflați mai multe despre învățarea automată, consultați Diploma PG de la IIIT-B și upGrad în Învățare automată și AI, care este concepută pentru profesioniști care lucrează și oferă peste 450 de ore de pregătire riguroasă, peste 30 de studii de caz și sarcini, IIIT- B Statut de absolvenți, peste 5 proiecte practice practice și asistență pentru locuri de muncă cu firme de top.

Ce sunt seturile de date în învățarea automată?

În învățarea automată și extragerea datelor, un set de date este o colecție de exemple. Este un set etichetat de exemple utilizate pentru învățarea automată sau pentru aplicarea metodelor statistice. Un exemplu poate fi o singură observație sau o întreagă colecție de observații. Este întotdeauna mai ușor să identifici modele într-un set de date. Datele sunt o colecție de exemple. Este inima machine learning și data mining. Este întotdeauna mai ușor să găsiți modele într-un set de date.

Care sunt tipurile de seturi de date?

Seturile de date au diferite tipuri: a. Seturi de date serii temporale - Acesta descrie un set de date dintr-o anumită perioadă de timp este considerat un set de date serii temporale. b. Seturi de date transversale - Acesta descrie seturi de date care sunt o colecție de observații din elemente diferite, dar similare, în aceeași perioadă de timp. c. Seturi de date mixte - Acesta descrie seturi de date care sunt o combinație de serii de date și seturi de date transversale. d. Componente Seturi de date - Aceasta descrie o colecție de set de date care este utilizat pentru a rezolva o anumită problemă. e. Seturi de date tranzacționale Descrie o colecție de set de date care este utilizat pentru a găsi modele, asocieri și relații între diferitele entități. f. Seturi de date grafice - Acesta descrie o colecție de set de date care este utilizat pentru a desena un grafic sau a mapa elementele dintr-o rețea.

Ce sunt seturile de date de instruire și testare în învățarea automată?

Setul de date de antrenament este setul de exemple utilizate pentru a antrena un model. Acest set de date este folosit pentru a construi funcția matematică, sau modelul, f(x) care mapează datele de intrare x la ieșirea y. Seturile de date de testare sunt diferite de setul de date de antrenament. Setul de date de testare este un set de exemple care nu sunt utilizate pentru a antrena clasificatorul care este utilizat pentru a evalua performanța clasificatorului. Deoarece clasificatorul este antrenat pe exemplele de antrenament, performanța clasificatorului pe setul de date de testare nu este pe deplin cunoscută.