Was macht einen „Data Science“-Beitrag auf Medium beliebt?

Veröffentlicht: 2018-10-18

Dieser Blog wurde ursprünglich auf Medium von Aiswarya Ramachandran veröffentlicht – einem Absolventen des Data Science-Programms von UpGrad mit IIIT-Bangalore.

In einem meiner vorherigen Posts auf Medium hatte ich darüber geschrieben, wie man Suchergebnisse für eine bestimmte Abfragezeichenfolge von Medium kratzt. In diesem Beitrag gehen wir detailliert auf die Analyse der Daten ein, die für den Suchbegriff „Data Science“ verschrottet wurden, um Beiträge basierend auf der Anzahl der Klatschen und Antworten in verschiedene Popularitätsstufen zu gruppieren und auch zu verstehen, was diese Beiträge beliebt macht.

Die aus den mittleren Suchergebnissen gelöschten Daten waren JSON-Dateien mit umfangreichen Daten zu jedem Suchergebnis. Um die Struktur der JSON-Datei zu untersuchen, habe ich Notepad ++ mit dem JSON-Plugin verwendet. Die JSON-Datei enthielt Daten über die Beiträge, den Autor des Beitrags und den mit diesem Beitrag verknüpften Herausgeber (falls vorhanden). Hier ist die JSON-Datenstruktur für einen mittleren Beitrag:

Den Code zum Extrahieren von Daten aus der JSON-Datei finden Sie hier. Zusätzlich zum Extrahieren von Daten aus der JSON-Datei habe ich auch ein Feld mit dem Datum hinzugefügt, an dem der Beitrag verschrottet wurde.

Data Science in einem Bild zusammengefasst

Inhaltsverzeichnis

Explorative Analyse von Beiträgen mit Bezug zu „Data Science“

Beim Scraping von Ergebnissen für den Suchbegriff „Data Science“ wurden 831 Beiträge gestrichen, von denen 31 Antworten auf einen Beitrag waren und von der Analyse ausgeschlossen wurden. Hier ist die Anzahl der im Laufe der Jahre veröffentlichten Beiträge, die gelöschten Daten waren von März 2013 bis April 2018:

Alle Datumsfelder wie Erstellungsdatum, Datum der ersten Veröffentlichung, Datum der letzten Aktualisierung, wobei seit Januar 1970 Millisekunden verstrichen sind. Sie wurden mithilfe der folgenden Funktion in ein für Menschen lesbares Datumsformat konvertiert

 # Funktion zum Konvertieren des EPOCH-Datums in ein für Menschen lesbares Format
 def convertToDateString(date):
    return (datetime(1970, 1, 1) + timedelta(Millisekunden=Datum)).strftime("%Y-%m-%d %H:%M:%S")

Der nächste Schritt bestand darin, sich anzusehen, welche Wörter am häufigsten in den Titeln dieser Posts vorkommen. Wie Sie der Wortwolke unten entnehmen können, sind Data Science, Big Data, AI, Analytics, Machine Learning, Python, self-driven (über selbstfahrende Autos) einige der am häufigsten vorkommenden Wörter.

Die Verteilung von Number of Claps, Number of Responses ist stark verzerrt. 708 Beiträge haben weniger als 500 Klatschen. Dies zeigt, dass es wenige Beiträge gibt, die populär werden. Hier ist die Verteilung von Claps:

Die Lesezeit (Minuten) der meisten Artikel liegt zwischen 1 und 3 Minuten.

Auf Medium kann jeder Beitrag maximal 5 Tags haben. Tags helfen Lesern, Inhalte leichter zu finden. Je mehr relevante Tags, desto einfacher zu finden. Wie wir im Bild sehen können, ist Data Science das am häufigsten verwendete Tag, gefolgt von Machine Learning, Big Data, Artificial Intelligence. Hier sind die Top-10-Tags im Zusammenhang mit Data Science:


Warum Data-Science-Jobs so gefragt sind

Erstellen von Clustern basierend auf Benutzerantworten

Es gibt drei Metriken, um zu messen, wie beliebt ein Beitrag auf Medium ist. #Klatschen, #Antworten und #Empfehlungen. Um einen fairen Vergleich zu ermöglichen, habe ich auch das Feature #Tage zwischen der Erstveröffentlichung und dem Datum der Datenerfassung aufgenommen. Auf dieses Feature-Set habe ich k-Means-Clustering angewendet und drei Cluster identifiziert. Wie wir aus dem Bild unten sehen können, gibt es einen großen Unterschied zwischen den drei Metriken zwischen den Clustern (Popularitätsgruppen). Wir können auch sehen, dass für die weniger beliebten Posts, obwohl ihre mittleren Tage zwischen Veröffentlichung und Verschrottung am höchsten sind, ihr Engagement sehr gering ist. Hier sind die Metriken über Cluster (Popularity Groups):

Verstehen, was einen Data-Science-Beitrag beliebt macht

Wie wir dem Bild unten entnehmen können, liegt der Median für Artikel mit hoher und mittlerer Beliebtheit bei 9 und 7 für populärere Artikel. Sie haben auch mehr Links im Vergleich zu weniger beliebten Artikeln. Das bedeutet, dass beliebte Posts auf andere Posts und andere Informationsquellen verweisen, die dem Inhalt mehr Wert verleihen. Unterschied zwischen beliebten und unbeliebten Beiträgen

Aus dem obigen Bild können wir auch erkennen, dass der Beitrag mit mittlerer Popularität näher an einer sehr beliebten Gruppe liegt als an der weniger beliebten Gruppe.

Anwendungen von Data Science und maschinellem Lernen in NETFLIX

Mit einem einfachen k-means konnten wir beliebte und unbeliebte Beiträge auf Medium mit Bezug zu Data Science identifizieren.

Lernen Sie Datenwissenschaftskurse von den besten Universitäten der Welt. Verdienen Sie Executive PG-Programme, Advanced Certificate-Programme oder Master-Programme, um Ihre Karriere zu beschleunigen.

Wenn es um Medium geht, wie oft sollten Sie posten?

Wenn Sie auf Medium erfolgreich sein möchten und nicht jeden Tag posten können, schreiben Sie mindestens 3 bis 5 Mal pro Woche. Konsistenz ist das Wichtigste, wonach Sie streben sollten. Unabhängig davon, welchen Zeitplan Sie sich ausdenken, stellen Sie sicher, dass er langfristig tragbar ist, und halten Sie sich daran.

Kann jeder auf Medium veröffentlicht werden?

Jeder kann ein kostenloses Medium-Konto erstellen und sofort mit dem Bloggen beginnen. Autoren können eigenständige Beiträge einreichen, zu Sammlungen gesammelter Geschichten beitragen oder ihre eigene Sammlung erstellen. Mit ihrem einfachen Editor können Sie Ihre Erfahrungen als Medium-Autor mit der Welt teilen. Das Veröffentlichen auf Medium ist völlig kostenlos und Ihre Geschichten werden mit Ihren Followern sowie Millionen anderer Menschen geteilt, die sich für ähnliche Themen interessieren.

Was ist Towards Data Science auf Medium?

Das Unternehmen Towards Data Science Inc. hat seinen Sitz in Kanada. Sie verwenden Medium, um ein Forum für Tausende von Einzelpersonen zu schaffen, um Ideen auszutauschen und mehr über Data Science zu erfahren. Als Teil des Medium-Ökosystems können Autoren den Zugriff auf ihre Beiträge ausschließlich auf Mitglieder beschränken. Über das Medium Partner Program können Sie ein größeres Publikum erreichen und Geld verdienen, indem Sie in Towards Data Science veröffentlichen. Gemäß den Medium-Nutzungsbedingungen, denen Sie beim Erstellen eines Medium-Kontos zustimmen, sind Sie auch der alleinige Eigentümer Ihrer Arbeit.