Podstawowe podstawy statystyki dla nauki o danych

Opublikowany: 2018-02-27

Jeśli jesteś początkującym naukowcem zajmującym się danymi, zapoznaj się z podstawowymi koncepcjami statystyki dla nauki o danych . Nie musisz być doktorem. w Statystyce, aby osiągnąć sukces w Data Science, ale musisz wiedzieć wystarczająco dużo, aby być może opisać kilka podstawowych algorytmów na przyjęciu.

W przyszłości przeprowadzimy Cię przez niektóre wymagania wstępne dotyczące podstaw statystyki dla nauki o danych .

Jeśli dopiero wkroczyłeś w świat Data Science, być może natknąłeś się na ludzi, którzy twierdzą, że „Matematyka” jest warunkiem wstępnym nauki o danych. Szczerze mówiąc, to nie jest matematyka per se, ale musisz nauczyć się statystyki dla nauki o danych .

Obecnie biblioteki takie jak Tensorflow ukrywają przed użytkownikiem prawie całą złożoną matematykę. Dobrze dla nas, ale nadal dobrze jest mieć podstawową wiedzę na temat podstawowych zasad, na których działają te rzeczy. Dobre zrozumienie analityki danych może pomóc Ci lepiej zrozumieć wszystko.

Ten artykuł pomoże ci uzbroić się w niektóre twierdzenia, koncepcje i równania, które nie tylko pomogą twojej sprawie jako naukowcom zajmującym się danymi, ale także sprawią, że będziesz brzmiał, jakbyś przeszedł na kurs z zaawansowanych obliczeń statystycznych.

Spis treści

Rozkłady statystyczne

Jest to prawdopodobnie jedna z najważniejszych rzeczy, o których musisz wiedzieć, uzbrajając się w wymaganą aplikację Statistics for Data Science .

  • Rozkład Poissona

    Statystyki dla nauki o danych Rozkład Poissona jest jednym z najważniejszych narzędzi w statystyce. Służy do obliczania liczby zdarzeń, które mogą wystąpić w danym przedziale czasu. Na przykład, ile rozmów telefonicznych może się odbyć w danym okresie.
    Zabawnie wyglądający symbol w tym równaniu (λ) jest znany jako lambda . Służy do reprezentowania średniej liczby zdarzeń występujących w przedziale czasu.

    Innym dobrym przykładem zastosowania rozkładu Poissona jest obliczanie strat w produkcji. Załóżmy, że maszyna produkuje blachy i ma X wad na metr. Załóżmy na przykład, że poziom błędu wynosił 2 na jard arkusza – wtedy korzystając z rozkładu Poissona, możemy obliczyć prawdopodobieństwo, że w jednym jardzie wystąpią dokładnie dwa błędy.

  • Rozkład dwumianowy

    Statystyki dla nauki o danych
    Jeśli kiedykolwiek zetknąłeś się z podstawowymi statystykami, być może natknąłeś się na rozkład dwumianowy.

    Załóżmy, że przeprowadziłeś eksperyment polegający na trzykrotnym rzuceniu bezstronną monetą.
    Czy potrafisz określić prawdopodobieństwo, że moneta pokaże reszki we wszystkich trzech rzutach?

    Po pierwsze, z podstawowej kombinatoryki możemy dowiedzieć się, że istnieje osiem możliwych kombinacji wyników przy trzykrotnym rzuceniu monetą. Teraz możemy wykreślić prawdopodobieństwa posiadania 0,1,2 lub 3 głów. Ten wykres da nam wymagany rozkład dwumianowy dla tego problemu. Na wykresie zauważysz, że wygląda bardzo podobnie do typowej krzywej rozkładu normalnego, teoretycznie obie są bardzo podobne. Podczas gdy rozkład dwumianowy dotyczy wartości dyskretnych (ograniczona liczba rzutów monetą), rozkład normalny zajmuje się wartościami ciągłymi.

    Istnieje wiele dystrybucji innych niż te, o których mówiliśmy powyżej. Jeśli jesteś zainteresowaną duszą i chcesz lepiej uzbroić się w potrzebne Statistics for Data Science , zalecamy zapoznanie się również z następującymi dystrybucjami:

  • Rozkład geometryczny
  • Dystrybucja hipergeometryczna
  • Dyskretna dystrybucja równomierna
  • Ujemny rozkład dwumianowy
Eksploracyjna analiza danych i jej znaczenie dla Twojej firmy

Niektóre twierdzenia i algorytmy

Kiedy mówimy o Statystyce dla nauki o danych , nie możemy po prostu zignorować podstawowych twierdzeń i algorytmów, które są podstawą wielu bibliotek, nad którymi będziesz pracować jako Data Scientist. Istnieje wiele algorytmów klasyfikacji, algorytmów klastrowania, algorytmów sieci neuronowych, drzew decyzyjnych i tak dalej. W tej sekcji omówimy kilka podstawowych twierdzeń, które powinieneś znać – pomoże ci to również z łatwością zrozumieć inne złożone twierdzenia.

Twierdzenie Bayesa

Jest to jedno z powszechnych twierdzeń, na które natkniesz się, jeśli masz formalne wykształcenie w dziedzinie informatyki. Na przestrzeni lat pojawiło się wiele książek, które nadmiernie omawiają twierdzenie Bayesa i jego koncepcje w wyszukany sposób.

Twierdzenie Bayesa znacznie upraszcza złożone koncepcje. Wyjaśnia wiele faktów statystycznych za pomocą kilku prostych zmiennych. Popiera koncepcję „ prawdopodobieństwa warunkowego ”(np. jeśli wystąpiło A, odegrało rolę w wystąpieniu B). Najbardziej zauważalną rzeczą w tym jest fakt, że możesz przewidzieć prawdopodobieństwo dowolnej hipotezy, używając tylko podanych punktów danych.

Bayes może pomóc Ci przewidzieć prawdopodobieństwo zachorowania na raka, po prostu znając jego wiek. Może również poinformować Cię, czy wiadomość e-mail jest spamem, na podstawie liczby słów. Twierdzenie to jest w istocie używane do usuwania niepewności.

Ciekawostka: Twierdzenie Bayesa pomogło przewidzieć lokalizację U-Bootów, a także przewidzieć konfigurację maszyny Enigmy do tłumaczenia niemieckich kodów podczas II wojny światowej. Nawet we współczesnej Data Science Bayes znajduje szerokie zastosowanie w wielu algorytmach.
Co to jest magazynowanie danych i eksploracja danych

Algorytm K-najbliższego sąsiada

Statystyki dla nauki o danych
Jest to bardzo łatwy algorytm zarówno pod względem zrozumienia, jak i implementacji. Do tego stopnia, że ​​określa się to mianem „leniwego algorytmu”. Jego prostota polega na tym, że opiera się na logicznych dedukcjach niż na jakiejkolwiek podstawowej statystyce per se. Mówiąc laikiem, ten algorytm szuka grup znajdujących się najbliżej siebie.

K-NN wykorzystuje koncepcję odległości euklidesowej. Wyszukuje lokalne grupy w określonej liczbie punktów centralnych i wokół nich. Liczba ta jest reprezentowana przez „k”. Istnieje wiele podejść do ustalenia, jak duża powinna być wartość „k”, ponieważ jest to wartość ustalana przez użytkownika.

Ta koncepcja doskonale nadaje się do grupowania funkcji, podstawowej segmentacji rynku i wyszukiwania wartości odstających z grupy wpisów danych. Większość nowoczesnych języków programowania implementuje algorytm K-NN w zaledwie dwóch wierszach kodu.

Bagging (agregacja Bootstrap)

Bagging zasadniczo odnosi się do tworzenia więcej niż jednego modelu pojedynczego algorytmu – jak drzewo decyzyjne. Każdy z modeli jest szkolony na różnych przykładowych danych (nazywa się to próbką bootstrap).

Dlatego każde drzewo decyzyjne jest tworzone przy użyciu innych danych z próby – rozwiązuje to problem przeregulowania do wielkości próby. Grupowanie drzew decyzyjnych w ten sposób zasadniczo pomaga w zmniejszeniu całkowitego błędu, ponieważ ogólna wariancja zmniejsza się wraz z każdym dodanym nowym drzewem. Worek takich drzew decyzyjnych nazywany jest losowym lasem.

Rozpocznij naukę o danych w Pythonie

Analiza krzywej ROC

Statystyki dla nauki o danych
Termin ROC oznacza charakterystykę działania odbiornika. Krzywa analizy ROC znajduje szerokie zastosowanie w Data Science. Przewiduje, jak dobrze test prawdopodobnie wykona, mierząc jego ogólną czułość w porównaniu do wskaźnika opadania. Analiza ROC jest niezwykle ważna przy określaniu wykonalności dowolnego modelu.

Jak to działa?

Twój model uczenia maszynowego może dawać niedokładne prognozy. Niektóre z nich wynikają z tego, że konkretna wartość powinna być „prawda”, ale zamiast tego jest ustawiona na „fałsz” lub odwrotnie.

Jakie jest wtedy prawdopodobieństwo, że masz rację?

Korzystając z krzywej ROC, możesz zobaczyć, jak dokładne jest Twoje przewidywanie. Dzięki dwóm różnym przypowieściom możesz również dowiedzieć się, gdzie umieścić swoją wartość progową. Próg to miejsce, w którym decydujesz, czy klasyfikacja binarna jest dodatnia, czy ujemna – prawda lub fałsz.

Gdy te dwie przypowieści zbliżą się do siebie, obszar pod krzywą będzie dążył do zera. Zasadniczo oznacza to, że twój model ma tendencję do niedokładności. Większy obszar, większa dokładność modelu. Jest to jeden z pierwszych testów wykorzystywanych podczas testowania dowolnego modelowania, ponieważ pomaga wcześnie wykryć problemy, stwierdzając, czy model jest poprawny.

Rzeczywisty przykład krzywych ROC – są używane do przedstawienia związku/kompromisu między czułością kliniczną a swoistością dla wartości odcięcia dla konkretnego testu lub kombinacji testów – w sposób graficzny. Co więcej, obszar pod krzywą ROC daje dobre wyobrażenie o korzyściach płynących z zastosowania powyższych testów. Dlatego krzywe ROC znajdują szerokie zastosowanie w biochemii do wyboru odpowiedniego punktu odcięcia. Idealnie, najlepszym punktem odcięcia jest ten, który ma najniższy współczynnik wyników fałszywie pozytywnych z najwyższym razem współczynnikiem wyników prawdziwie pozytywnych.

Jak przejść do analizy danych?

Znaczenie statystyki w nauce o danych

Z powyższej dyskusji teraz, gdy znasz podstawowe pojęcia statystyki i podstawy statystyki, porozmawiajmy o znaczeniu uczenia się statystyki dla nauki o danych. Kluczowe narzędzia i technologie do organizowania i znajdowania głębokich wglądów w dane, analizowania i określania ilościowego danych są dostarczane przez Statistics for Data Analytics.

Przedstawiliśmy Ci przegląd podstawowych pojęć Statystyka oraz wpływ statystyki na eksplorację, analizę, modelowanie i reprezentację danych. Wskazujemy również na problem, jeśli jest to niespójność, zaniedbując podstawy statystyki. Jeśli jesteś zainteresowany dołączeniem do najszybciej rozwijającej się branży, wejdź bezpośrednio na naszą stronę internetową w UpGrad, aby zapoznać się z naszym samouczkiem Statistics for Data Science, ponieważ zapewniamy zarówno kursy online, jak i offline. Gdy już osiągniesz przewagę w grze przynajmniej w podstawach statystyki i podstawach statystyki, będziesz gotowy do pracy.

Podsumowując…
Powyższa lista tematów w żadnym wypadku nie jest wyczerpującą listą wszystkiego, co musisz wiedzieć w Statystyce. Ta lista ma tylko dać przedsmak tego, co możesz napotkać w swojej podróży z Data Science i jak możesz się na to przygotować.

Podsumowując, w tym artykule przedstawiono niektóre z podstawowych koncepcji statystyki dla nauki o danych . Dogłębne zrozumienie wyjaśnionych pojęć w połączeniu pomoże ci łatwo zrozumieć inne pojęcia. Jeśli chcesz dowiedzieć się więcej i opanować naukę o danych, znajdź nasze najlepsze internetowe kursy nauki o danych.

Jakie znaczenie ma statystyka dla nauki o danych?

Statystyka dostarcza technik i narzędzi do identyfikacji struktury w dużych zbiorach danych, a także umożliwia osobom i organizacjom lepsze zrozumienie realiów ujawnianych przez ich dane, przy użyciu odpowiednich metod statystycznych, które umożliwiają klasyfikację i organizację, pomagają obliczać rozkład prawdopodobieństwa i szacować, i znajdź strukturę danych, wykrywając anomalie i trendy. Statystyka pomaga również w wizualizacji i modelowaniu danych z wykorzystaniem wykresów i sieci. Pomaga w identyfikacji klastrów danych lub innych struktur, na które mają wpływ zmienne, i pomaga zmniejszyć liczbę założeń w modelu, czyniąc go bardziej dokładnym i użytecznym.

Jakie są kluczowe podstawowe pojęcia statystyki wymagane do nauki o danych?

Podstawowe koncepcje statystyki są niezbędne dla nauki o danych. Oto kilka kluczowych pojęć, które pomogą Ci rozpocząć przygodę z nauką o danych:

1. Prawdopodobieństwo: stanowi podstawę nauki o danych. Teoria prawdopodobieństwa jest bardzo przydatna w formułowaniu przewidywań. Dane są podstawą wszelkiego prawdopodobieństwa i statystyki.
2. Próbkowanie : Próbkowanie danych to technika analizy statystycznej, która obejmuje wybieranie, manipulowanie i analizowanie reprezentatywnego wyboru punktów danych w celu znalezienia wzorców i trendów w większym zbiorze danych.
3. Tendencja i dystrybucja danych: Dystrybucja danych jest kluczowym czynnikiem. Znaczenie dobrze znanego rozkładu, takiego jak rozkład normalny, jest ogromne. W rezultacie określenie rozkładu i skośności danych jest pojęciem krytycznym.
4. Hipotezy Testowanie : Hipotezy Testowanie identyfikuje sytuacje, w których należy podjąć lub nie podjąć działania w zależności od oczekiwanych wyników.
5. Wariacje: Odnosi się to do zniekształcenia, błędu i przesunięcia danych.
6. Regresja: ma kluczowe znaczenie dla Data Science, ponieważ pomaga w zrozumieniu istniejących rozwiązań, a także w odkrywaniu nowych innowacji.

W jaki sposób statystyki są wykorzystywane w nauce o danych?

Naukowcy zajmujący się danymi wykorzystują statystyki, aby pomóc firmom podejmować lepsze decyzje dotyczące produktów, projektować i interpretować próby, określać czynniki napędzające sprzedaż, prognozować trendy i wzorce sprzedaży. Wizualna reprezentacja danych i wydajności algorytmu pomaga znaleźć wartości odstające, określone trywialne wzorce i podsumowanie metryki.