Cosa rende popolare un post di "Scienza dei dati" su Medium?

Pubblicato: 2018-10-18

Questo blog è stato originariamente pubblicato su Medium da Aiswarya Ramachandran, un ex allievo del programma Data Science di UpGrad con IIIT-Bangalore.

In uno dei miei post precedenti su Medium, avevo scritto su come raschiare i risultati della ricerca per una particolare stringa di query da Medium. In questo post, entreremo nei dettagli dell'analisi dei dati scartati per il termine di ricerca "Scienza dei dati" per raggruppare i post in base al numero di applausi e risposte in diversi livelli di popolarità e capire anche cosa rende popolari questi post.

I dati scartati dai risultati di ricerca medi erano file JSON con dati estesi su ciascun risultato di ricerca. Per esplorare la struttura del file JSON, ho usato Notepad++ con il plugin JSON. Il file JSON conteneva dati sui post, l'autore del post e l'editore associato a quel post (se presente). Ecco la struttura dei dati JSON per un post medio:

Il codice per estrarre i dati dal file JSON può essere trovato qui. Oltre a estrarre i dati dal file JSON, ho anche aggiunto un campo con la data in cui il post è stato scartato.

Scienza dei dati riassunta in un'unica immagine

Sommario

Analisi esplorativa dei post relativi a "Scienza dei dati"

Durante lo scraping dei risultati per il termine di ricerca "Data Science", sono stati eliminati 831 post, di cui 31 erano risposte a un post e sono stati esclusi dall'analisi. Ecco il numero di post pubblicati negli anni, i dati scartati sono stati da marzo 2013 ad aprile 2018:

Tutti i campi della data come Data di creazione, Data di prima pubblicazione, Data di ultimo aggiornamento in cui i millisecondi sono trascorsi da gennaio 1970. Sono stati convertiti in un formato di data leggibile dall'uomo utilizzando la funzione seguente

 # Funzione per convertire la data EPOCH in formato leggibile dall'uomo
 def convertToDateString(data):
    return (datetime(1970, 1, 1) + timedelta(milliseconds=date)).strftime("%Y-%m-%d %H:%M:%S")

Il passo successivo è stato quello di esaminare quali parole si trovavano più comunemente nei titoli di questi post. Come puoi vedere dalla nuvola di parole qui sotto, Data Science, Big Data, AI, Analytics, Machine Learning, Python, self-driven (sulle auto a guida autonoma) sono alcune delle parole più frequenti.

La distribuzione di Numero di applausi, Numero di risposte è molto asimmetrica. 708 post hanno meno di 500 applausi. Questo dimostra che ci sono pochi post che diventano popolari. Ecco la distribuzione degli applausi:

Il tempo di lettura (min) della maggior parte degli articoli è compreso tra 1 e 3 min.

Su Medium, ogni post può avere un massimo di 5 tag. I tag aiutano i lettori a trovare i contenuti più facilmente. I tag più rilevanti, più facile da trovare. Come possiamo vedere nell'immagine, Data Science è il tag più utilizzato, seguito da Machine Learning, Big data, Intelligenza artificiale. Ecco i primi 10 tag relativi alla scienza dei dati:


Perché i lavori di Data Science sono molto richiesti?

Creazione di cluster in base alle risposte dell'utente

Ci sono tre metriche per misurare la popolarità di un post su Medium, vale a dire. #Applausi, #Risposte e #Raccomanda. Per fare un confronto equo, ho incluso anche la funzione #Giorni tra la prima pubblicazione e la data di raccolta dei dati. In questo set di funzionalità, ho applicato il clustering k-means e identificato tre cluster. Come possiamo vedere dall'immagine qui sotto, c'è un'enorme differenza tra le tre metriche tra i cluster (Gruppi di popolarità). Inoltre, possiamo vedere che per i post meno popolari, anche se i loro giorni mediani tra la pubblicazione e la demolizione sono i più alti, il loro coinvolgimento è molto basso. Di seguito sono riportate le metriche tra i cluster (gruppi di popolarità):

Capire cosa rende popolare un post di data science

Come possiamo vedere dall'immagine qui sotto, per gli articoli più popolari la mediana per gli articoli di alta e media popolarità sono 9 e 7. Hanno anche più link rispetto agli articoli meno popolari. Ciò significa che i post popolari si riferiscono ad altri post e altre fonti di informazioni che aggiungono più valore al contenuto. Differenza tra post popolari e non popolari

Dall'immagine sopra, possiamo anche vedere che il post con popolarità media è più vicino a un gruppo molto popolare che al gruppo meno popolare.

Applicazioni di Data Science e Machine Learning in NETFLIX

Con un semplice k-mean, siamo stati in grado di identificare post popolari e non popolari su Medium relativi alla scienza dei dati.

Impara i corsi di scienza dei dati dalle migliori università del mondo. Guadagna programmi Executive PG, programmi di certificazione avanzati o programmi di master per accelerare la tua carriera.

Quando si tratta di Medium, quanto spesso dovresti pubblicare?

Se vuoi avere successo su Medium e non puoi postare tutti i giorni, scrivi almeno da 3 a 5 volte a settimana. La coerenza è la cosa più essenziale per cui dovresti lottare. Qualunque sia il programma che ti viene in mente, assicurati che sia sostenibile a lungo termine e attieniti ad esso.

È possibile che qualcuno venga pubblicato su Medium?

Chiunque può creare un account Medium gratuito e iniziare subito a bloggare. Gli scrittori possono inviare pezzi indipendenti, contribuire a raccolte di storie raccolte o creare la propria raccolta. Con il loro semplice editor, puoi condividere le tue esperienze con il mondo come scrittore medio. La pubblicazione su Medium è completamente gratuita e le tue storie saranno condivise con i tuoi follower e con milioni di altre persone interessate a temi simili.

Su Medium, cos'è Verso la scienza dei dati?

La società, Towards Data Science Inc., ha sede in Canada. Usano Medium per creare un forum in cui migliaia di persone possono condividere idee e saperne di più sulla scienza dei dati. Gli autori possono scegliere di limitare l'accesso ai propri post ai membri esclusivamente come parte dell'ecosistema Medium. Attraverso il Medium Partner Program, puoi raggiungere un pubblico più ampio e guadagnare pubblicando in Towards Data Science. In linea con i Termini di servizio Medium, che accetti quando crei un account Medium, sei anche l'unico proprietario del tuo lavoro.