Co sprawia, że post „Nauka o danych” jest popularny na medium?
Opublikowany: 2018-10-18Ten blog został pierwotnie opublikowany na Medium przez Aiswaryę Ramachandran – absolwentkę programu UpGrad's Data Science z IIIT-Bangalore.
W jednym z moich poprzednich postów na Medium pisałem o tym, jak zeskrobać wyniki wyszukiwania dla określonego ciągu zapytania z Medium. W tym poście omówimy szczegółowo analizę danych usuniętych dla wyszukiwanego hasła „Nauka o danych”, aby pogrupować posty na podstawie liczby klaśnięć i odpowiedzi na różne poziomy popularności, a także zrozumiemy, dlaczego te posty są popularne.
Dane usunięte z wyników wyszukiwania Medium to plik JSON z obszernymi danymi o każdym wyniku wyszukiwania. Do zbadania struktury pliku JSON użyłem Notepad++ z wtyczką JSON. Plik JSON zawierał dane dotyczące postów, autora posta i wydawcę powiązanego z tym postem (jeśli istnieje). Oto struktura danych JSON dla średniego posta:
Kod do wyodrębnienia danych z pliku JSON można znaleźć tutaj. Oprócz wydobycia danych z pliku JSON dodałem również pole z datą złomowania posta.
Analiza danych podsumowana na jednym zdjęciuSpis treści
Analiza eksploracyjna postów związanych z „nauką o danych”
Podczas pobierania wyników wyszukiwania hasła „Nauka o danych” zostało usuniętych 831 postów, z których 31 stanowiło odpowiedzi na post i zostało wykluczonych z analizy. Oto liczba postów opublikowanych na przestrzeni lat, dane usunięte z okresu od marca 2013 do kwietnia 2018:

Wszystkie pola daty, takie jak Data utworzenia, Data pierwszej publikacji, Data ostatniej aktualizacji, w których upłynęły milisekundy od stycznia 1970 r. Zostały przekonwertowane na format daty czytelny dla człowieka za pomocą poniższej funkcji
# Funkcja konwertowania daty EPOCH na format czytelny dla człowieka
def konwertujNaDateString(data): return (datetime(1970, 1, 1) + timedelta(milisekundy=data)).strftime("%Y-%m-%d %H:%M:%S")
Następnym krokiem było przyjrzenie się, jakie słowa najczęściej występują w tytułach tych postów. Jak widać z chmury słów poniżej, Data Science, Big Data, AI, Analytics, Machine Learning, Python, self-driven (o samojezdnych samochodach) to jedne z najczęściej występujących słów.

Rozkład liczby klaśnięć i liczby odpowiedzi jest mocno wypaczony. 708 postów ma mniej niż 500 klaśnięć. To pokazuje, że niewiele jest postów, które stają się popularne. Oto rozkład klaśnięć:

Czas czytania (w minutach) większości artykułów wynosi od 1 do 3 minut.

Na Medium każdy post może mieć maksymalnie 5 tagów. Tagi ułatwiają czytelnikom znajdowanie treści. Im trafniejsze tagi, tym łatwiej je znaleźć. Jak widać na obrazku, najczęściej używanym tagiem jest Data Science, następnie Machine Learning, Big Data, Artificial Intelligence. Oto 10 najlepszych tagów związanych z nauką o danych:
Dlaczego prace związane z nauką o danych są bardzo poszukiwane?
Tworzenie klastrów na podstawie odpowiedzi użytkowników
Istnieją trzy wskaźniki, które mierzą popularność wpisu na Medium. #Klaszcze, #Odpowiedzi i #Poleca. Aby dokonać uczciwego porównania, dodałem również funkcję #Dni między datą pierwszego opublikowania a datą zebrania danych. W tym zestawie funkcji zastosowałem grupowanie k-średnich i zidentyfikowałem trzy klastry. Jak widać na poniższym obrazku, istnieje ogromna różnica między trzema wskaźnikami w klastrach (grupy popularności). Widzimy również, że w przypadku mniej popularnych postów, mimo że ich mediana dni między publikacją a wyrzuceniem jest najwyższa, ich zaangażowanie jest bardzo niskie. Oto metryki w klastrach (grupach popularności):

Zrozumienie, co sprawia, że nauka o danych jest popularna
Jak widać na poniższym obrazku, dla bardziej popularnych artykułów mediana dla artykułów o wysokiej i średniej popularności wynosi 9 i 7. Mają też więcej linków w porównaniu do mniej popularnych artykułów. Oznacza to, że Popularne posty odnoszą się do innych postów i innych źródeł informacji, które zwiększają wartość treści. Różnica między popularnymi a niepopularnymi postami

Na powyższym obrazku widzimy również, że post o średniej popularności jest bliższy grupie bardzo popularnej niż grupie mniej popularnej.
Zastosowania nauki o danych i uczenia maszynowego w NETFLIXZa pomocą prostych k-średnich byliśmy w stanie zidentyfikować popularne i niepopularne posty na Medium związane z Data Science.
Ucz się kursów nauki o danych z najlepszych światowych uniwersytetów. Zdobywaj programy Executive PG, Advanced Certificate Programs lub Masters Programs, aby przyspieszyć swoją karierę.
Jeśli chodzi o Medium, jak często powinieneś publikować?
Jeśli chcesz odnieść sukces na Medium i nie możesz publikować codziennie, pisz przynajmniej 3 do 5 razy w tygodniu. Konsekwencja jest najważniejszą rzeczą, o którą powinieneś dążyć. Niezależnie od tego, jaki harmonogram wymyślisz, upewnij się, że jest on zrównoważony w dłuższej perspektywie i trzymaj się go.
Czy każdy może zostać opublikowany na Medium?
Każdy może założyć darmowe konto Medium i od razu zacząć blogować. Pisarze mogą zgłaszać samodzielne utwory, współtworzyć kolekcje zebranych opowiadań lub tworzyć własne kolekcje. Dzięki prostemu edytorowi możesz dzielić się swoimi doświadczeniami ze światem jako średni pisarz. Publikowanie na Medium jest całkowicie bezpłatne, a Twoje historie będą udostępniane Twoim obserwatorom, a także milionom innych osób zainteresowanych podobnymi tematami.
Na Medium, co to jest w kierunku nauki o danych?
Firma Towards Data Science Inc. ma siedzibę w Kanadzie. Używają Medium do stworzenia forum dla tysięcy osób, na którym mogą dzielić się pomysłami i dowiedzieć się więcej o data science. Autorzy mogą ograniczyć dostęp do swoich postów do członków wyłącznie w ramach ekosystemu Medium. Dzięki programowi średniego partnera możesz dotrzeć do większej liczby odbiorców i zarabiać pieniądze, publikując w Towards Data Science. Zgodnie z Warunkami korzystania z usługi Medium, na które wyrażasz zgodę podczas tworzenia konta Medium, jesteś również jedynym właścicielem swojej pracy.