8 zdumiewających projektów Data Science w R dla początkujących [2022]

Opublikowany: 2021-01-05

Czy chcesz wejść do pola Data Science?

Chcesz rozwijać innowacyjne narzędzia i rozwiązania Data Science?

Jeśli tak, to trafiłeś na idealny artykuł! W tym poście podzielimy się z Tobą niektórymi z najbardziej ekscytujących pomysłów na projekty Data Science dla początkujących.

Dlaczego warto pracować nad projektami Data Science?

W miarę jak coraz więcej firm i organizacji dołącza do platformy Data Science, zapotrzebowanie na wykwalifikowanych i wykwalifikowanych ekspertów w dziedzinie Data Science, sztucznej inteligencji i ML gwałtownie rośnie. Chociaż jest to obiecująca szansa dla milionów aspirantów i profesjonalistów Data Science, zdobycie stanowiska w Data Science nie jest bułką z masłem. Firmy zatrudniają tylko tych kandydatów, którzy posiadają odpowiednie wykształcenie, zestaw umiejętności, a co najważniejsze, doświadczenie praktyczne.

Czy więc doświadczenie praktyczne oznacza doświadczenie zawodowe? A jeśli tak, to co z początkującymi, którzy właśnie ukończyli szkolenie Data Science?

Kiedy mówimy „doświadczenie praktyczne”, nie mamy na myśli doświadczenia zawodowego. Zamiast tego mówimy o budowaniu i tworzeniu rzeczywistych projektów Data Science. Dla każdego aspiranta Data Science praca nad projektami na żywo jest ważnym krokiem w kierunku budowania udanej kariery w Data Science.

Projekty oferują możliwość wdrożenia wiedzy teoretycznej i umiejętności w rzeczywistych scenariuszach. Pomaga to nie tylko wzmocnić bazę wiedzy i wyostrzyć umiejętności, ale także budować pewność siebie. Co więcej, na rynku, na którym panuje ostra konkurencja, pracodawcy zawsze preferują kandydatów, którzy mają czynnik „X”. W ten sposób projekty, które budujesz, mogą wyróżnić Cię z tłumu równie wykwalifikowanych aspirantów.

Jednak prawdziwym wyzwaniem jest znalezienie odpowiednich projektów zgodnie z Twoimi kwalifikacjami, umiejętnościami i zainteresowaniami. Dlatego przygotowaliśmy listę doskonałych pomysłów na projekty Data Science w języku R dla początkujących!

Spis treści

Projekty Data Science w R

1. Projekt analizy nastrojów

Zadowolenie klienta jest obecnie jednym z najważniejszych celów niemal każdej firmy i marki. Najlepszym sposobem na stworzenie grona fanów lojalnych i zadowolonych klientów jest wejście w ich psychikę – zrozumienie ich upodobań i niechęci, zidentyfikowanie ich wzorców preferencji, a co najważniejsze, ich potrzeb. Analiza nastrojów to narzędzie, którego większość firm używa do zrozumienia nastawienia ich docelowych odbiorców do ich produktów/usług.

Jak sama nazwa wskazuje, Analiza Nastrojów analizuje słowa, aby zidentyfikować ukryte emocje osób, które je wyrażają. Analizując słowa, narzędzie analizy sentymentu kategoryzuje je na dwa pliki binarne – jako pozytywne, negatywne i neutralne. W tym projekcie użyjesz zestawu/pakietu danych „janeaustenR”. Inne narzędzia wykorzystywane w projekcie to leksykony ogólnego przeznaczenia, takie jak AFINN, Bing i Loughran. Ponadto użyjesz chmury słów, aby wyświetlić wyniki.

2. Projekt analizy danych Uber

Uber to marka oparta na danych. Firma pozyskuje i wykorzystuje dane użytkowników, aby stworzyć najlepiej dopasowane rozwiązania kabinowe dla swoich klientów. Chociaż Uber inwestuje w podejmowanie decyzji opartych na danych, wykorzystuje również połączenie zaawansowanej analizy danych i analiz predykcyjnych do projektowania strategii marketingowych, ofert promocyjnych i polityki cenowej.

W tym projekcie zaprojektujesz system analizy danych, korzystając z biblioteki ggplot2, aby uzyskać wgląd w dane użytkowników i wygenerować niemal dokładne prognozy klientów, którzy będą korzystać z podróży i przejazdów Ubera. System użyje programowania R i biblioteki ggplot2 do analizy różnych parametrów klienta, takich jak liczba podróży wykonywanych w ciągu dnia, dzienne godziny podróży stałych klientów, liczba podróży w danym miesiącu itp.

Wizualizując te punkty danych, system może obliczyć średnią liczbę pasażerów korzystających z przejazdów Ubera w ciągu dnia, godziny szczytu, kiedy w aplikacji jest największy ruch, dni z największą liczbą podróży w miesiącu itd. .

3. Projekt wykrywania oszustw kart kredytowych

Ostatnio liczba oszustw związanych z kartami kredytowymi gwałtownie wzrosła. W rzeczywistości jest to jedno z najpowszechniejszych zagrożeń sektora BFSI. Ideą tego projektu R jest opracowanie klasyfikatora, który może skutecznie wykrywać nieuczciwe transakcje kartą kredytową.

Zbiór danych dla projektu będzie zbiorem danych transakcji kartą kredytową zawierającym mieszankę transakcji nieoszukańczych i nieuczciwych. Projekt obejmie liczne algorytmy ML, takie jak drzewa decyzyjne, regresja logistyczna, sztuczne sieci neuronowe i klasyfikator ze wzmocnieniem gradientowym.

Dzięki zaimplementowaniu tych algorytmów ML, system będzie w stanie odróżnić fałszywe połączenie od niefałszywego połączenia. Ten projekt nauczy Cię, jak zastosować algorytmy ML w rzeczywistym scenariuszu do przeprowadzenia klasyfikacji.

4. Projekt rekomendacji filmów

Jeśli jesteś zagorzałym miłośnikiem Amazon, Amazon Prime lub Netflix, prawdopodobnie wiesz, że te platformy wykorzystują „silniki rekomendacji”. Jak można się domyślić po nazwie, jedynym celem silnika rekomendacji jest „polecanie” odpowiednich rzeczy klientom – podczas gdy w przypadku Amazon rekomenduje produkty, w przypadku Prime i Netflix poleca treści użytkownikom na podstawie ich historii zakupów lub historii oglądania.

Głównym celem tego projektu R jest zaprojektowanie systemu rekomendacji, który będzie polecał filmy użytkownikom. Zestaw danych używany w tym projekcie to zestaw danych MovieLens. Te dane obejmują 105339 ocen dla ponad 10329 filmów. W tym projekcie utworzysz filtr grupowy oparty na elementach.

Najlepsze w budowaniu tego silnika rekomendacji filmów od podstaw jest to, że pomoże ci on zrozumieć wewnętrzne funkcjonowanie i mechanizm silnika rekomendacji. Dowiesz się, jak wdrożyć swoje umiejętności programowania R wraz z umiejętnościami uczenia maszynowego w projekcie na żywo.

5. Projekt rekomendacji muzycznych

System rekomendacji muzyki działa podobnie do systemu rekomendacji filmów, z tą różnicą, że zamiast filmów będzie polecać muzykę użytkownikom. To jest projekt Python + R. Zestaw danych wykorzystany w tym projekcie pochodzi z KKBOX, wiodącej usługi strumieniowego przesyłania muzyki w Azji, która może pochwalić się biblioteką zawierającą ponad 30 milionów utworów muzycznych .

W tym projekcie zbudujesz system ML za pomocą Pythona i R, który może przewidzieć szanse na odsłuchanie przez użytkownika utworu w pętli po wyzwoleniu pierwszego zdarzenia słuchania w określonym przedziale czasowym. Tutaj zestawy danych treningowych i testowych są wybierane z historii słuchania różnych użytkowników w danym okresie.

Na przykład, jeśli cykliczne zdarzenie nasłuchowe zostanie wyzwolone w ciągu miesiąca po pierwszym obserwowalnym zdarzeniu nasłuchowym użytkownika, system oznacza cel jako 1 w zestawie treningowym, a w przeciwnym razie oznacza 0. Następnie stosuje się tę samą regułę do zestawu testowego. Ten projekt jest idealną okazją do nauczenia się, jak wykonać podstawowe EDA, aby uzyskać wgląd w dane.

6. Projekt segmentacji klientów

Podobnie jak analiza nastrojów służy do uzyskania głębszego wglądu w opinie i emocje klientów dotyczące różnych produktów/usług, segmentacja klientów służy do bardziej ukierunkowanego marketingu. Dzieląc grupę docelową na różne osobowości kupujących zgodnie z ich potrzebami, preferencjami, wiekiem, lokalizacją, pracą, zachowaniami zakupowymi itp., marki mogą tworzyć spersonalizowane produkty, strategie marketingowe i oferty / rabaty dla określonego segmentu klientów. Pozwala to na większą satysfakcję klientów, co ostatecznie zwiększa sprzedaż i przychody.

Segmentacja klientów jest jedną z najszerzej stosowanych aplikacji uczenia się bez nadzoru (ML). W tym projekcie użyjesz algorytmu K-średnich do grupowania nieoznakowanego zbioru danych. Algorytm grupowania K-średnich może skutecznie wizualizować rozkład wieku i płci w zbiorze danych. Ponadto przeanalizuje również roczne dochody i wzorce wydatków. Zasadniczo ten projekt R zaoferuje opisową analizę danych poprzez implementację różnych wersji algorytmu K-średnich.

7. Projekt identyfikacji pakietu produktów

Koncepcja łączenia produktów nie jest niczym nowym w dziedzinie marketingu. W podejściu do łączenia produktów różne produkty są łączone i sprzedawane jako pojedyncza jednostka po określonej cenie (zwykle po obniżonej cenie). Pozwala to marketerom zachęcać klientów do kupowania większej ilości ich produktów. Być może najlepszym przykładem pakietu produktów jest Happy Meal McDonald's.

W tym projekcie Data Science główny nacisk zostanie położony na subiektywną segmentację, technikę grupowania, która może pomóc w identyfikacji najlepszych pakietów produktów w danych sprzedaży. Tutaj weźmiemy cotygodniowy zestaw danych transakcji sprzedaży zawierający zakupione ilości różnych produktów na przestrzeni kilku tygodni.

Zbiór danych będzie również zawierał znormalizowane wartości. Korzystając z tego zestawu danych, celem jest ustalenie, które produkty można łączyć w pakiety, aby stworzyć doskonałe kombinacje dla klientów. Podczas gdy tradycyjne podejście wykorzystuje analizę koszyka rynkowego do identyfikacji pakietów produktów, w tym projekcie naszym celem jest porównanie i analiza względnego znaczenia grupowania szeregów czasowych w określaniu pakietów produktów na podstawie danych sprzedaży.

8. Projekt prognozy jakości wina

Chodzi o to, aby poprawić jakość wina za pomocą modelowania predykcyjnego. W ramach tego projektu Data Science przeanalizujemy zbiór danych dotyczących czerwonego wina, aby ocenić jakość wina. Celem tego projektu jest zbadanie właściwości chemicznych wpływających na jakość czerwonego wina.

W projekcie pierwszą kwestią jest wykorzystanie zmiennych wejściowych do przewidywania jakości wina, podczas gdy drugą kwestią jest klasyfikowanie win o doskonałych właściwościach. Będziesz tworzyć i udoskonalać wykresy, aby zilustrować unikalne relacje w danych w miarę ich odkrywania. Projekt nauczy Cię eksploracji danych, wizualizacji danych, opowiadania historii, a także tego, jak stosować modele regresji i zadawać właściwe pytania do analizy danych na różnych etapach projektu.

Zarabiaj kursy nauki o danych na najlepszych światowych uniwersytetach. Dołącz do naszych programów Executive PG, Advanced Certificate Programs lub Masters, aby przyspieszyć swoją karierę.

Wniosek

Oto 8 ciekawych projektów Data Science, które możesz wypróbować! Podczas pracy nad nimi opanujesz podstawowe koncepcje Data Science i programowania R. Co najważniejsze, będziesz miał szansę zaprezentować wszystkie swoje projekty w swoim CV – co lepiej przyciągnąć uwagę potencjalnego pracodawcy!

Struktura Programu Data Science ma na celu ułatwienie Ci stania się prawdziwym talentem w dziedzinie Data Science, co ułatwia znalezienie najlepszego pracodawcy na rynku. Zarejestruj się już dziś, aby rozpocząć swoją przygodę ze ścieżką edukacyjną z upGrad!

Przygotuj się na karierę przyszłości

AKTUALIZACJA I DYPLOM PG IIIT-BANGALORE W NAUCE O DANYCH

Zapisz się dzisiaj