Qu'est-ce qui rend un article "Data Science" populaire sur Medium ?

Publié: 2018-10-18

Ce blog a été initialement publié sur Medium par Aiswarya Ramachandran - un ancien élève du programme Data Science d'UpGrad avec l'IIIT-Bangalore.

Dans l'un de mes articles précédents sur Medium, j'avais écrit sur la façon de récupérer les résultats de recherche pour une chaîne de requête particulière à partir de Medium. Dans cet article, nous entrerons dans les détails de l'analyse des données supprimées pour le terme de recherche "Data Science" afin de regrouper les publications en fonction du nombre d'applaudissements et de réponses en différents niveaux de popularité et de comprendre également ce qui rend ces publications populaires.

Les données supprimées des résultats de recherche moyens étaient un fichier JSON contenant des données détaillées sur chaque résultat de recherche. Pour explorer la structure du fichier JSON, j'ai utilisé Notepad++ avec le plugin JSON. Le fichier JSON contenait des données sur les publications, l'auteur de la publication et l'éditeur associé à cette publication (le cas échéant). Voici la structure de données JSON pour une publication moyenne :

Le code pour extraire les données du fichier JSON peut être trouvé ici. En plus d'extraire des données du fichier JSON, j'ai également ajouté un champ avec la date à laquelle le message a été supprimé.

La science des données résumée en une seule image

Table des matières

Analyse exploratoire des articles liés à la « science des données »

Lors de la récupération des résultats pour le terme de recherche "Data Science", 831 messages ont été supprimés, dont 31 étaient des réponses à un message et ont été exclus de l'analyse. Voici le nombre de messages publiés au fil des ans, les données supprimées étaient de mars 2013 à avril 2018 :

Tous les champs de date comme la date de création, la première date de publication, la dernière date de mise à jour dans laquelle les millisecondes se sont écoulées depuis janvier 1970. Ils ont été convertis en un format de date lisible par l'homme à l'aide de la fonction ci-dessous

 # Fonction pour convertir la date EPOCH au format lisible par l'homme
 def convertToDateString(date):
    return (datetime(1970, 1, 1) + timedelta(millisecondes=date)).strftime("%Y-%m-%d %H:%M:%S")

L'étape suivante consistait à examiner quels mots apparaissaient le plus souvent dans les titres de ces messages. Comme vous pouvez le voir sur le nuage de mots ci-dessous, Data Science, Big Data, AI, Analytics, Machine Learning, Python, self-drive (sur les voitures autonomes) sont quelques-uns des mots les plus fréquents.

La distribution du nombre d'applaudissements, du nombre de réponses est très asymétrique. 708 messages ont moins de 500 applaudissements. Cela montre qu'il y a peu de messages qui deviennent populaires. Voici la distribution des claps :

Le temps de lecture (min) de la plupart des articles est compris entre 1 et 3 min.

Sur Medium, chaque publication peut avoir un maximum de 5 balises. Les balises aident les lecteurs à trouver le contenu plus facilement. Plus les balises sont pertinentes, plus elles sont faciles à trouver. Comme nous pouvons le voir sur l'image, Data Science est la balise la plus fréquemment utilisée, suivie par Machine Learning, Big data, Intelligence artificielle. Voici les 10 principales balises liées à la science des données :


Pourquoi les emplois en science des données sont-ils en forte demande ?

Création de clusters basés sur les réponses des utilisateurs

Il existe trois mesures pour mesurer la popularité d'une publication sur Medium viz. #Applaudissements, #Réponses et #Recommande. Pour faire une comparaison équitable, j'ai également inclus la fonctionnalité #Days entre la première publication et la date de collecte des données. Sur cet ensemble de fonctionnalités, j'ai appliqué le clustering k-means et identifié trois clusters. Comme nous pouvons le voir sur l'image ci-dessous, il existe une énorme différence entre les trois métriques à travers les clusters (groupes de popularité). De plus, nous pouvons voir que pour les messages les moins populaires, bien que leurs jours médians entre la publication et la mise au rebut soient les plus élevés, leur engagement est très faible. Voici les métriques sur les clusters (groupes de popularité) :

Comprendre ce qui rend un article sur la science des données populaire

Comme nous pouvons le voir sur l'image ci-dessous, pour les articles les plus populaires, la médiane des articles à popularité élevée et moyenne est de 9 et 7. Ils ont également plus de liens que les articles moins populaires. Cela signifie que les publications populaires font référence à d'autres publications et à d'autres sources d'informations ajoutant plus de valeur au contenu. Différence entre les messages populaires et non populaires

À partir de l'image ci-dessus, nous pouvons également voir que le message avec une popularité moyenne est plus proche d'un groupe très populaire que du groupe le moins populaire.

Applications de la science des données et de l'apprentissage automatique dans NETFLIX

Avec un simple k-means, nous avons pu identifier les publications populaires et non populaires sur Medium liées à la science des données.

Apprenez des cours de science des données dans les meilleures universités du monde. Gagnez des programmes Executive PG, des programmes de certificat avancés ou des programmes de maîtrise pour accélérer votre carrière.

En ce qui concerne Medium, à quelle fréquence devriez-vous publier ?

Si vous voulez réussir sur Medium et que vous ne pouvez pas publier tous les jours, écrivez au moins 3 à 5 fois par semaine. La cohérence est la chose la plus essentielle à laquelle vous devriez vous efforcer. Quel que soit le calendrier que vous proposez, assurez-vous qu'il est durable à long terme et respectez-le.

Est-il possible pour n'importe qui d'être publié sur Medium ?

N'importe qui peut créer un compte Medium gratuit et commencer à bloguer immédiatement. Les écrivains peuvent soumettre des pièces autonomes, contribuer à des collections d'histoires collectées ou créer leur propre collection. Avec leur éditeur simple, vous pouvez partager vos expériences avec le monde en tant qu'écrivain Medium. La publication sur Medium est entièrement gratuite et vos histoires seront partagées avec vos abonnés ainsi qu'avec des millions d'autres personnes intéressées par des thèmes similaires.

Sur Medium, qu'est-ce que Vers la science des données ?

La société, Towards Data Science Inc., est basée au Canada. Ils utilisent Medium pour créer un forum permettant à des milliers de personnes de partager des idées et d'en savoir plus sur la science des données. Les auteurs peuvent choisir de restreindre l'accès à leurs publications aux membres exclusivement dans le cadre de l'écosystème Medium. Grâce au Medium Partner Program, vous pouvez atteindre un public plus large et gagner de l'argent en publiant dans Towards Data Science. Conformément aux Conditions d'utilisation de Medium, que vous acceptez lors de la création d'un compte Medium, vous êtes également le seul propriétaire de votre travail.