4 rodzaje danych: nominalne, porządkowe, dyskretne, ciągłe

Opublikowany: 2020-12-01

Spis treści

Wstęp

Nauka o danych polega na eksperymentowaniu z danymi surowymi lub ustrukturyzowanymi. Dane to paliwo, które może skierować firmę na właściwą ścieżkę lub przynajmniej dostarczyć praktycznych spostrzeżeń, które mogą pomóc w opracowaniu strategii bieżących kampanii, łatwej organizacji wprowadzania nowych produktów lub wypróbowaniu różnych eksperymentów.

Wszystkie te rzeczy mają jeden wspólny składnik napędowy i to są dane. Wkraczamy w erę cyfrową, w której produkujemy wiele danych. Na przykład firma taka jak Flipkart codziennie produkuje ponad 2 TB danych.

Kiedy te dane mają tak duże znaczenie w naszym życiu, ważne jest, aby prawidłowo je przechowywać i przetwarzać bez żadnych błędów. W przypadku zestawów danych kategoria danych odgrywa ważną rolę w określaniu, która strategia wstępnego przetwarzania zadziała dla określonego zestawu, aby uzyskać właściwe wyniki lub jaki rodzaj analizy statystycznej należy zastosować w celu uzyskania najlepszych wyników. Przyjrzyjmy się niektórym powszechnie używanym kategoriom danych.

Jakościowy typ danych

Dane jakościowe lub kategorialne opisują rozważany obiekt przy użyciu skończonego zbioru klas dyskretnych. Oznacza to, że tego typu danych nie da się łatwo policzyć ani zmierzyć za pomocą liczb, a zatem podzielić na kategorie. Płeć osoby (mężczyzna, kobieta lub inna osoba) jest dobrym przykładem tego typu danych.

Są one zwykle wyodrębniane z dźwięku, obrazów lub nośnika tekstowego. Innym przykładem może być marka smartfona, która podaje informacje o aktualnej ocenie, kolorze telefonu, kategorii telefonu i tak dalej. Wszystkie te informacje można sklasyfikować jako dane jakościowe. W ramach tego są dwie podkategorie:

Nominalny

To zbiór wartości, które nie mają naturalnego uporządkowania. Zrozummy to na kilku przykładach. Kolor smartfona można uznać za nominalny typ danych, ponieważ nie możemy porównać jednego koloru z innymi.

Nie można stwierdzić, że „czerwony” jest większy niż „niebieski”. Płeć osoby to kolejna, w której nie możemy odróżnić mężczyzny, kobiety lub innych. Kategorie telefonów komórkowych, niezależnie od tego, czy są to smartfony ze średniej półki, budżetowe czy premium, to również nominalny typ danych.

Przeczytaj: Kariera w nauce o danych

Porządkowy

Tego typu wartości mają naturalny porządek przy zachowaniu swojej klasy wartości. Jeśli weźmiemy pod uwagę rozmiar marki odzieżowej, możemy łatwo posortować je według ich plakietek w kolejności małe < średnie < duże. System ocen przy ocenianiu kandydatów w teście może być również traktowany jako porządkowy typ danych, gdzie A+ jest zdecydowanie lepszy niż B ocena.

Kategorie te pomagają nam zdecydować, którą strategię kodowania można zastosować do jakiego typu danych. Kodowanie danych dla danych jakościowych jest ważne, ponieważ modele uczenia maszynowego nie mogą bezpośrednio obsługiwać tych wartości i musiały zostać przekonwertowane na typy liczbowe, ponieważ modele mają charakter matematyczny.

W przypadku nominalnego typu danych, w którym nie ma porównania między kategoriami, można zastosować kodowanie jednorazowe, które jest podobne do kodowania binarnego, biorąc pod uwagę, że jest ich mniej, a dla porządkowego typu danych można zastosować kodowanie etykiet, które jest formą liczby całkowitej kodowanie.

Ilościowy typ danych

Ten typ danych próbuje określić ilościowo rzeczy i robi to, biorąc pod uwagę wartości liczbowe, które sprawiają, że jest on policzalny w naturze. Cena smartfona, oferowana zniżka, liczba ocen produktu, częstotliwość procesora smartfona lub pamięć RAM tego konkretnego telefonu, wszystkie te rzeczy należą do kategorii typów danych ilościowych.

Najważniejsze jest to, że może istnieć nieskończona liczba wartości, które może przyjąć funkcja. Na przykład cena smartfona może wahać się od kwoty x do dowolnej wartości i można ją dalej rozbić na podstawie wartości ułamkowych. Dwie podkategorie, które je wyraźnie opisują, to:

Oddzielny

Wartości liczbowe, które należą do tej kategorii, są liczbami całkowitymi lub całkowitymi, są umieszczane w tej kategorii. Liczba głośników w telefonie, aparaty fotograficzne, rdzenie w procesorze, liczba obsługiwanych simów to tylko niektóre przykłady typu danych dyskretnych.

Ciągły

Liczby ułamkowe są traktowane jako wartości ciągłe. Mogą one przybierać postać częstotliwości operacyjnej procesorów, wersji telefonu na Androida, częstotliwości Wi-Fi, temperatury rdzeni i tak dalej.

Trzeba przeczytać: Wynagrodzenie analityka danych w Indiach

Czy typy porządkowe i dyskretne mogą się nakładać?

Jeśli zwrócisz na to uwagę, możesz nadać numerację klasom porządkowym, a następnie należy to nazwać typem dyskretnym czy porządkowym? Prawda jest taka, że nadal jest porządkowa. Powodem tego jest to, że nawet jeśli numeracja jest wykonana, nie przekazuje rzeczywistych odległości między klasami.

Weźmy na przykład pod uwagę system oceniania testu. Odpowiednimi ocenami mogą być A, B, C, D, E, a jeśli ponumerujemy je od początku, będzie to 1,2,3,4,5. Teraz, zgodnie z różnicami liczbowymi, odległość między klasą E a klasą D jest taka sama jak odległość między klasą D i C, co nie jest zbyt dokładne, ponieważ wszyscy wiemy, że klasa C jest nadal akceptowalna w porównaniu do klasy E, ale średnia różnica deklaruje je jako równe.

Tę samą technikę można również zastosować do formularza ankiety, w którym wrażenia użytkownika są rejestrowane w skali od bardzo słabego do bardzo dobrego. Różnice między różnymi klasami nie są jasne, dlatego nie można ich bezpośrednio określić ilościowo.

Różne testy

Omówiliśmy wszystkie główne klasyfikacje danych. Jest to ważne, ponieważ teraz możemy nadać priorytet testom do wykonania w różnych kategoriach. Teraz sensowne jest wykreślenie histogramu lub wykresu częstotliwości dla danych ilościowych oraz wykresu kołowego i wykresu słupkowego dla danych jakościowych.

Analiza regresji, w której analizowany jest związek między jedną zmienną zależną a dwiema lub więcej zmiennymi niezależnymi, jest możliwa tylko dla danych ilościowych. Test ANOVA (Analiza wariancji) ma zastosowanie tylko do zmiennych jakościowych, chociaż można zastosować dwuczynnikowy test ANOVA, który wykorzystuje jedną zmienną pomiarową i dwie zmienne nominalne.

W ten sposób można zastosować test chi-kwadrat na danych jakościowych, aby odkryć relacje między zmiennymi kategorialnymi.

Wniosek

W tym artykule omówiliśmy, w jaki sposób tworzone przez nas dane mogą odwrócić tabele do góry nogami, jak różne kategorie danych są uporządkowane zgodnie z ich potrzebami. Przyjrzeliśmy się również, w jaki sposób porządkowe typy danych mogą nakładać się na dyskretne typy danych.

Jaki typ wykresu jest odpowiedni dla jakiej kategorii danych omówiono również różne typy testów, które można zastosować do określonego typu danych i inne testy wykorzystujące wszystkie rodzaje danych.

Jeśli jesteś ciekawy, jak uczyć się nauki o danych, aby być na czele szybkiego postępu technologicznego, sprawdź Zaawansowany certyfikat upGrad i IIIT-B w dziedzinie nauki o danych

Dlaczego nauka o danych jest ważna?

Znaczenie nauki o danych polega na tym, że łączy ona specjalistyczną wiedzę z dziedziny programowania, matematyki i statystyki w celu generowania nowych spostrzeżeń i zrozumienia dużych ilości danych. Dla firm nauka o danych jest ważnym źródłem podejmowania decyzji opartych na danych, ponieważ opisuje zbieranie, zapisywanie, sortowanie i ocenę danych. Często korzystają z niego doświadczeni eksperci komputerowi. Kiedy zadajemy sobie pytanie, dlaczego nauka o danych jest niezbędna, odpowiedź pozostaje, ponieważ wartość danych stale rośnie. Nauka o danych jest bardzo potrzebna, ponieważ pokazuje, w jaki sposób dane cyfrowe zmieniają organizacje i umożliwiają im dokonywanie bardziej świadomych i niezbędnych wyborów.

Jaki jest zakres nauki o danych?

W dzisiejszych czasach analitykę danych można znaleźć niemal wszędzie. Obejmuje to transakcje online, takie jak zakupy Amazon, kanały mediów społecznościowych, takie jak Facebook/Instagram, rekomendacje Netflix, a nawet funkcje rozpoznawania palców i twarzy oferowane przez smartfony. Data Science obejmuje wiele nowatorskich pomysłów technologicznych, takich jak sztuczna inteligencja, Internet rzeczy (IoT) i głębokie uczenie, aby wymienić tylko kilka. Efekt nauki o danych wzrósł dramatycznie ze względu na jej postęp i zaawansowanie techniczne, rozszerzając jego zakres. Ucząc się nauki o danych, możesz wybrać swój profil zawodowy z wielu opcji, a większość z tych miejsc pracy jest dobrze płatna. Niektóre z tych profili zawodowych to: analityk danych, naukowiec danych, inżynier danych, naukowiec i inżynier ds. uczenia maszynowego, programista Business Intelligence, architekt danych, statystyk itp.

Czym różnią się dane nominalne od danych porządkowych?

Dane nominalne obejmują nazwy lub cechy, które zawierają co najmniej dwie kategorie, a kategorie nie mają własnego porządku. Innymi słowy, tego typu dane nie mają żadnego naturalnego rankingu ani kolejności. Porządkowy typ danych jest podobny do nominalnego, ale rozróżnienie między nimi jest oczywistym porządkiem danych. Ogólnie rzecz biorąc, dane porządkowe mają pewien porządek, ale dane nominalne nie. Wszystkie dane rankingowe, takie jak skale Likerta, skale kału Bristol i wszelkie inne skale ocenione w zakresie od 0 do 10, można wyrazić za pomocą danych porządkowych.