10 najlepszych pomysłów na projekty zestawów danych uczenia maszynowego dla początkujących [2022]

Opublikowany: 2021-01-04

Wyszukiwanie zestawów danych uczenia maszynowego jest rzeczywiście wytrwałe, ale nie musi tak być! W tym artykule udostępniliśmy wiele zestawów danych, których można używać w projektach uczenia maszynowego. Udostępniliśmy również szczegółowe informacje na temat zawartości każdego zestawu danych wraz z linkiem do nich. Nasza lista zawiera zestawy danych z różnych dziedzin i różnych rozmiarów, dzięki czemu możesz wybrać jeden zgodnie ze swoimi zainteresowaniami i wiedzą.

Oprócz tego podzieliliśmy się pomysłami na projekty dla różnych zestawów danych, dzięki czemu możesz od razu rozpocząć pracę nad projektem. Praca nad projektami pomoże Ci sprawdzić swoją wiedzę na temat algorytmów uczenia maszynowego. Zacznijmy:

Spis treści

Pomysły na projekty dotyczące zestawów danych uczenia maszynowego

1. E-mailowy zestaw danych Enron

Ten zbiór danych zawiera około 500 000 e-maili od ponad 150 użytkowników. Wszystkie te e-maile pochodzą od firmy o nazwie Enron, a większość e-maili obecnych w tym zestawie danych pochodzi od jej wyższego kierownictwa. Jeśli chcesz pracować nad projektem przetwarzania języka naturalnego, powinieneś zacząć tutaj.

Zestaw danych e-mail firmy Enron jest bardzo popularny w projektach NLP i wiele się z niego nauczysz. Możesz utworzyć model klastrowania K-średnich i użyć go do zidentyfikowania wszelkich oszukańczych działań na podstawie tekstu e-maili. Grupowanie K-średnich jest nienadzorowanym algorytmem ML i dzieli elementy na k liczby klastrów zgodnie z ich podobieństwami.

Link do zbioru danych

2. Zbiór danych obrazu Flickr

Flickr to usługa hostingu obrazów z milionami użytkowników na całym świecie. Ten zbiór danych zawiera 30 000 obrazów z różnymi podpisami. Możesz użyć tego zbioru danych do utworzenia generatora podpisów dla obrazów. Ten zbiór danych jest dość znany z analizy obrazu i opisu obrazu za pomocą tekstu.

Możesz utworzyć model CNN (Convolutional Neural Network), który analizuje obrazy i generuje podpis zgodnie z cechami, które identyfikuje w konkretnym. Model można wytrenować za pomocą tysięcy podpisów dostępnych w zestawie danych. Zbudowanie generatora napisów da ci duże doświadczenie w nauce pracy z analizą obrazu i jej wykorzystania w rzeczywistych przypadkach.

Link do zbioru danych

3. Zestaw danych Iris (poziom początkujący)

Jeśli nie pracowałeś wcześniej nad projektem uczenia maszynowego, powinieneś zacząć tutaj. Zestaw danych Iris jest popularnym wyborem wśród studentów ML ze względu na swoją prostotę i rozmiar. Zawiera informacje o trzech gatunkach tęczówki (kwiatu), takich jak wielkość działki i płatka.

Inną nazwą tego zbioru danych jest zbiór danych tęczówki Fishera ze względu na jego pochodzenie. Ronald Fisher wykorzystał ten zbiór danych w swoim artykule z 1936 roku.

Zestaw danych Iris ma cztery kolumny ze 150 wierszami. Za pomocą tego zestawu danych można utworzyć model klasyfikacji. Model klasyfikacji dzieli przedmioty na różne klasy zgodnie z ich atrybutami, a utworzenie jednego może pomóc ci również poznać różnicę między uczeniem się nienadzorowanym a nadzorowanym.

Link do zbioru danych

4. Zbiór danych Parkinsona

Zbiór danych Parkinsona jest dostępny dla studentów, którzy chcą korzystać z uczenia maszynowego w medycynie. Jest to jeden z najlepszych zbiorów danych dla projektów uczenia maszynowego w sektorze medycznym, ponieważ zawiera 195 przypadków wraz z 23 atrybutami.

Choroba Parkinsona jest zaburzeniem układu nerwowego i wpływa na podstawowe ruchy. Powolny ruch, utrata równowagi i sztywność to jedne z najbardziej widocznych objawów tej choroby. Możesz użyć tego zbioru danych do stworzenia modelu, który oddziela pacjentów od zdrowych ludzi, analizując ich objawy i atrybuty w celu ustalenia, czy mają chorobę Parkinsona, czy nie.

Wykorzystanie uczenia maszynowego w sektorze opieki zdrowotnej z dnia na dzień staje się coraz bardziej popularne. Jeśli więc chcesz wykorzystać swoją wiedzę na temat uczenia maszynowego w tym sektorze, powinieneś zacząć tutaj. Możesz czerpać inspirację z tych zastosowań uczenia maszynowego w opiece zdrowotnej .

Link do zbioru danych

5. Zbiór danych klientów centrum handlowego

Ten zbiór danych zawiera informacje o osobach odwiedzających centrum handlowe. Zawiera wiele zmiennych, takich jak identyfikatory klientów, roczne dochody, wiek, wyniki wydatków i płeć. Zbiór danych podzielił klientów na różne kategorie zgodnie z ich zachowaniami i tendencjami.

Możesz użyć tego zestawu danych, aby utworzyć model klasyfikacji, który segreguje klientów według ich płci, wyniku wydatków lub rocznego dochodu. Ten zestaw danych jest idealny do projektu segmentacji klientów, który jest popularnym zastosowaniem AI i ML w biznesie.

Firmy wykorzystują segmentację klientów do opracowywania strategii marketingowych i ulepszania swoich reklam. Praca nad tym projektem pomoże Ci zrozumieć, jak wykorzystać algorytmy uczenia maszynowego do dokładnej segmentacji klientów.

Link do zbioru danych

Przeczytaj : Pomysły na projekty Pythona

6. Zestaw danych Uber Rides

Jest to jeden z najlepszych zestawów danych uczenia maszynowego do projektów wizualizacji. Zestaw danych Uber Rides zawiera informacje o przejazdach Uber, które miały miejsce między kwietniem 2014 r. a wrześniem 2014 r. W tym czasie odbyło się około 4,5 miliona przejazdów Uberem, więc zestaw danych jest dość ogromny. Zbiór danych zawiera informacje o lokalizacjach związanych z tymi przejażdżkami oraz inne istotne dane.

Możesz użyć danych zawartych w tym zestawie danych, aby stworzyć piękną wizualizację danych. Wizualizacje danych pomagają w uzyskaniu cennych informacji z dużych pul danych. Poza tym wizualizacje danych pomagają podejmować lepsze decyzje zgodnie z odkrytymi spostrzeżeniami. Na początek możesz czerpać inspirację z tych projektów wizualizacji danych .

Link do zbioru danych

7. Trendy Google i ich dane

Google Trends to narzędzie, które umożliwia analizowanie wyszukiwań w Google i znajdowanie popularnych tematów, które ludzie przeglądają w Google. Jest to bezpłatne, ale potężne narzędzie, które może dostarczyć wiele danych na temat wzorców wyszukiwania i trendów użytkowników.

Google Trends pozwala sprawdzić, ile wyszukiwań uzyskało dane słowo kluczowe i powiązane z nim hasła w określonym czasie. Możesz go również użyć, aby uzyskać dane specyficzne dla grupy demograficznej.

Jeśli planujesz używać uczenia maszynowego do analizy danych, to jest to ogromny zestaw danych na początek. Możesz uzyskać tyle danych, ile chcesz na dowolny temat. Trendy Google są doskonałe dla początkującego, który nie pracował nad wieloma projektami uczenia maszynowego.

Link do zbioru danych

8. Zbiór danych kinetycznych

Jeśli interesuje Cię wykorzystanie sztucznej inteligencji do rozpoznawania interakcji międzyludzkich, to jest to odpowiedni zestaw danych dla Ciebie. Analiza ludzkich działań i interakcji jest istotną częścią wizji komputerowej, dziedziny sztucznej inteligencji, która bada obrazy i filmy. Uzyskanie biegłości w widzeniu komputerowym pomoże ci w pracy nad identyfikacją obiektów, rozpoznawaniem twarzy i innymi odpowiednimi zastosowaniami tego samego.

Ten zbiór danych zawiera prawie 650 tys. filmów, które zawierają interakcje człowiek-człowiek (takie jak przytulanie i uścisk dłoni), a także interakcje człowiek-obiekt (takie jak gra na gitarze). Ma 700 klas akcji, z których każda ma co najmniej 600 klipów. Każdy klip ma ludzką adnotację wraz z pojedynczą klasą akcji. Czas trwania każdego filmu w tym zbiorze danych wynosi około 10 sekund.

Link do zbioru danych

Przeczytaj: Pomysły na projekty uczenia maszynowego

9. Dane GTSRB

GTSRB to skrót od niemieckiego testu rozpoznawania znaków drogowych i jest to świetny projekt do przeprowadzenia klasyfikacji wieloklasowej. Ten zbiór danych zawiera ponad 50 tys. obrazów wraz z informacjami na ich temat. Zbiór danych ma również 40 klas, a rzeczywiste zdarzenia dotyczące znaków drogowych w tym zbiorze danych są w nim unikalne.

Jest to jeden z najlepszych zestawów danych dla projektów uczenia maszynowego, jeśli weźmie się pod uwagę jego przypadki użycia. Możesz badać klasyfikację obrazów i tworzyć ramy do klasyfikacji różnych znaków drogowych.

Klasyfikacja znaków drogowych może być kluczową częścią pojazdu autonomicznego (samochodu autonomicznego), więc jeśli interesują Cię zastosowania AI w sektorze motoryzacyjnym, powinieneś popracować nad tym projektem.

Możesz zacząć od małej części tego zestawu danych, jeśli nie masz dużego doświadczenia w pracy nad projektami ML.

Link do zbioru danych

10. Zbiór danych Boston Houses

Zestaw danych Boston Housing jest jednym z najpopularniejszych zestawów danych dla projektów uczenia maszynowego. Nadaje się do projektów związanych z rozpoznawaniem wzorców i jest świetnym sposobem na ćwiczenie wiedzy z zakresu ML. Ten zbiór danych zawiera dane US Census Service zebrane informacje na temat mieszkań w rejonie Boston Mass i zawiera około 500 przypadków. W zbiorze danych znajduje się 14 zmiennych, w tym wskaźnik przestępczości na mieszkańca, średnia liczba pokoi w domu i inne.

Ponieważ ma bardzo niewiele przypadków (dokładnie 506), jest odpowiedni dla nowych profesjonalistów i studentów zajmujących się uczeniem maszynowym. Możesz użyć tego zestawu danych, aby utworzyć model, który przewiduje ceny domów w tym regionie na podstawie znalezionych danych.

Możesz trenować model z cenami domów obecnych w tym zbiorze danych, a następnie użyć go do przewidywania przyszłych cen zgodnie z warunkami konkretnego obszaru. Dzięki temu zestawowi danych możesz pracować nad wieloma podobnymi pomysłami na projekty dotyczące regresji i nieruchomości.

Link do zbioru danych

Czas na pracę nad projektami uczenia maszynowego

Teraz, gdy masz już obszerną listę zestawów danych dla projektów uczenia maszynowego, możesz rozpocząć pracę nad jednym. Mamy nadzieję, że ta lista okazała się przydatna.

Jeśli chcesz dowiedzieć się więcej o uczeniu maszynowym, sprawdź dyplom PG IIIT-B i upGrad w uczeniu maszynowym i sztucznej inteligencji, który jest przeznaczony dla pracujących profesjonalistów i oferuje ponad 450 godzin rygorystycznego szkolenia, ponad 30 studiów przypadków i zadań, IIIT- Status absolwenta B, ponad 5 praktycznych, praktycznych projektów zwieńczenia i pomoc w pracy z najlepszymi firmami.

Czym są zbiory danych w uczeniu maszynowym?

W uczeniu maszynowym i eksploracji danych zbiór danych to zbiór przykładów. Jest to oznaczony zestaw przykładów wykorzystywanych do uczenia maszynowego lub do zastosowania metod statystycznych. Przykładem może być pojedyncza obserwacja lub cały zbiór obserwacji. Zawsze łatwiej jest zidentyfikować wzorce w zestawie danych. Dane to zbiór przykładów. Jest sercem uczenia maszynowego i eksploracji danych. Zawsze łatwiej jest znaleźć wzorce w zestawie danych.

Jakie są typy zbiorów danych?

Zbiory danych mają różne typy: Zestawy danych szeregów czasowych — opisuje zestaw danych z określonego okresu, który jest uważany za zestaw danych szeregów czasowych. b. Zestawy danych przekrojowych — opisuje zestawy danych, które są zbiorem obserwacji z różnych, ale podobnych elementów w tym samym okresie czasu. C. Mieszane zestawy danych — opisuje zestawy danych, które są kombinacją szeregów czasowych i przekrojowych zestawów danych. D. Components Datasets - Opisuje zbiór danych, który jest używany do rozwiązania konkretnego problemu. mi. Zbiory danych transakcji Opisuje zbiór zbioru danych, który jest używany do wyszukiwania wzorców, powiązań i relacji między różnymi podmiotami. F. Zestawy danych wykresu — opisuje zbiór zestawu danych, który jest używany do rysowania wykresu lub mapowania elementów w sieci.

Czym są szkolenia i testy zbiorów danych w uczeniu maszynowym?

Treningowy zestaw danych to zestaw przykładów używanych do trenowania modelu. Ten zbiór danych jest używany do budowania funkcji matematycznej lub modelu f(x), który odwzorowuje dane wejściowe x na dane wyjściowe y. Testowe zbiory danych różnią się od treningowego zbioru danych. Testowy zestaw danych to zestaw przykładów, które nie są używane do uczenia klasyfikatora, który służy do oceny wydajności klasyfikatora. Ponieważ klasyfikator jest szkolony na przykładach uczących, wydajność klasyfikatora w testowym zestawie danych nie jest w pełni znana.