Ce face o postare „Data Science” populară pe mediu?
Publicat: 2018-10-18Acest blog a fost publicat inițial pe Medium de Aiswarya Ramachandran – un absolvent al programului UpGrad Data Science cu IIIT-Bangalore.
Într-una dintre postările mele anterioare despre Medium, am scris despre cum să răzuiesc rezultatele căutării pentru un anumit șir de interogare din Medium. În această postare, vom intra în detalii despre analiza datelor eliminate pentru termenul de căutare „Data Science” pentru a grupa postările în funcție de numărul de aplauze și răspunsuri în diferite niveluri de popularitate și, de asemenea, vom înțelege ce face ca aceste postări să fie populare.
Datele eliminate din rezultatele căutării Medium erau fișiere JSON cu date extinse despre fiecare rezultat al căutării. Pentru a explora structura fișierului JSON, am folosit Notepad++ cu pluginul JSON. Fișierul JSON conținea date despre postări, autorul postării și editorul asociat postării respective (dacă există). Iată structura de date JSON pentru o postare medie:

Codul pentru extragerea datelor din fișierul JSON poate fi găsit aici. Pe lângă extragerea datelor din fișierul JSON, am adăugat și un câmp cu data la care postarea a fost eliminată.
Știința datelor rezumată într-o singură imagineCuprins
Analiza exploratorie a postărilor legate de „știința datelor”
La răzuirea rezultatelor pentru termenul de căutare „Data Science”, au fost eliminate 831 de postări, dintre care 31 au fost răspunsuri la o postare și au fost excluse din analiză. Iată numărul de postări publicate de-a lungul anilor, datele casate au fost din martie 2013 până în aprilie 2018:

Toate câmpurile de dată, cum ar fi Data creării, Data primei publicații, Data ultimei actualizări, în care au trecut milisecunde din ianuarie 1970. Au fost convertite într-un format de dată care poate fi citit de om folosind funcția de mai jos
# Funcție de conversie a datei EPOCH în format care poate fi citit de om
def convertToDateString(data):
return (datetime(1970, 1, 1) + timedelta(milisecunde=data)).strftime("%Y-%m-%d %H:%M:%S")Următorul pas a fost să vedem ce cuvinte apar cel mai frecvent în titlurile acestor postări. După cum puteți vedea din norul de cuvinte de mai jos, Data Science, Big Data, AI, Analytics, Machine Learning, Python, self-driven (despre mașinile cu conducere autonomă) sunt unele dintre cuvintele cele mai frecvente.

Distribuția Număr de aplauze, Număr de răspunsuri este foarte distorsionată. 708 postări au mai puțin de 500 de palme. Acest lucru arată că există puține postări care devin populare. Iată distribuția din palme:

Timpul de citire (minute) al majorității articolelor este între 1 și 3 minute. 

Pe Medium, fiecare postare poate avea maximum 5 etichete. Etichetele ajută cititorii să găsească conținut mai ușor. Cu cât etichetele sunt mai relevante, cu atât mai ușor de găsit. După cum putem vedea în imagine, Data Science este eticheta cel mai des folosită, urmată de Machine Learning, Big data, Artificial Intelligence. Iată primele 10 etichete legate de știința datelor:

De ce locurile de muncă în domeniul științei datelor sunt la mare căutare?
Crearea de clustere pe baza răspunsurilor utilizatorului
Există trei valori pentru a măsura cât de populară este o postare pe mediu, adică. #Aplauze, #Răspunsuri și #Recomandări. Pentru a face o comparație corectă, am inclus și caracteristica #Zile între prima publicare și data colectării datelor. Pe acest set de caracteristici, am aplicat gruparea k-means și am identificat trei grupuri. După cum putem vedea din imaginea de mai jos, există o diferență uriașă între cele trei valori din grupuri (grupuri de popularitate). De asemenea, putem vedea că pentru postările mai puțin populare, deși zilele lor medii dintre publicare și casare sunt cele mai ridicate, implicarea lor este foarte scăzută. Iată valorile pentru grupuri (grupuri de popularitate):

Înțelegerea faptului ce face populară o postare despre știința datelor
După cum putem vedea din imaginea de mai jos, pentru articolele mai populare mediana pentru articolele cu popularitate mare și medie este 9 și 7. De asemenea, au mai multe link-uri în comparație cu articolele mai puțin populare. Aceasta înseamnă că postările populare se referă la alte postări și alte surse de informații care adaugă mai multă valoare conținutului. Diferența dintre postările populare și cele nepopulare

Din imaginea de mai sus, putem observa și că postarea cu popularitate medie este mai aproape de un grup foarte popular decât de grupul mai puțin popular.
Aplicații ale Data Science și Machine Learning în NETFLIXCu un simplu k-means, am putut identifica postări populare și nepopulare pe Medium legate de Data Science.
Învață cursuri de știință a datelor de la cele mai bune universități din lume. Câștigă programe Executive PG, programe avansate de certificat sau programe de master pentru a-ți accelera cariera.
Când vine vorba de Medium, cât de des ar trebui să postezi?
Dacă vrei să ai succes pe Medium și nu poți posta în fiecare zi, scrie cel puțin de 3 până la 5 ori pe săptămână. Consecvența este cel mai esențial lucru pentru care ar trebui să te străduiești. Indiferent de orar cu care veți veni, asigurați-vă că este sustenabil pe termen lung și respectați-l.
Este posibil ca cineva să fie publicat pe Medium?
Oricine poate să creeze un cont Medium gratuit și să înceapă blogul imediat. Scriitorii pot trimite piese de sine stătătoare, pot contribui la colecții de povești colectate sau pot crea propria lor colecție. Cu editorul lor simplu, vă puteți împărtăși experiențele lumii ca scriitor mediu. Publicarea pe Medium este complet gratuită, iar poveștile tale vor fi distribuite urmăritorilor tăi, precum și altor milioane de persoane interesate de teme similare.
Pe mediu, ce este Towards Data Science?
Compania, Towards Data Science Inc., are sediul în Canada. Ei folosesc Medium pentru a crea un forum pentru mii de persoane care să împărtășească idei și să învețe mai multe despre știința datelor. Autorii pot alege să restricționeze accesul la postările lor membrilor exclusiv ca parte a ecosistemului Medium. Prin intermediul Programului de parteneriat mediu, puteți ajunge la un public mai larg și puteți câștiga bani publicând în Towards Data Science. În conformitate cu Termenii și condițiile Medium, cu care sunteți de acord atunci când creați un cont Medium, sunteți și singurul proprietar al lucrării dvs.
