是什么让“数据科学”帖子在 Medium 上流行起来?
已发表: 2018-10-18该博客最初由 Aiswarya Ramachandran 发表在 Medium 上,他是 IIIT-Bangalore 的 UpGrad 数据科学项目的校友。
在我之前关于 Medium 的一篇文章中,我曾写过如何从 Medium 中抓取特定查询字符串的搜索结果。 在这篇文章中,我们将详细分析从搜索词“数据科学”中删除的数据,以根据拍手次数和回复将帖子分组为不同的受欢迎程度,并了解这些帖子受欢迎的原因。
从 Medium 搜索结果中提取的数据是 JSON 文件,其中包含有关每个搜索结果的大量数据。 为了探索 JSON 文件的结构,我使用了带有 JSON 插件的 Notepad++。 JSON 文件包含有关帖子、帖子作者和与该帖子关联的发布者(如果有)的数据。 这是一篇中等帖子的 JSON 数据结构:
可以在此处找到从 JSON 文件中提取数据的代码。 除了从 JSON 文件中提取数据之外,我还添加了一个包含帖子被废弃日期的字段。
一张图片总结的数据科学目录
“数据科学”相关帖子的探索性分析
在搜索词“数据科学”的抓取结果中,有 831 个帖子被废弃,其中 31 个是对帖子的回复,并被排除在分析之外。 以下是多年来发布的帖子数量,废弃的数据是从 2013 年 3 月到 2018 年 4 月:

所有日期字段,如创建日期、首次发布日期、最后更新日期,其中自 1970 年 1 月以来经过的毫秒数。使用以下函数将它们转换为人类可读的日期格式
# 将 EPOCH 日期转换为人类可读格式的函数
def 转换日期字符串(日期): return (datetime(1970, 1, 1) + timedelta(milliseconds=date)).strftime("%Y-%m-%d %H:%M:%S")
下一步是查看这些帖子标题中最常出现的单词。 从下面的词云可以看出,Data Science、Big Data、AI、Analytics、Machine Learning、Python、self-driven(关于自动驾驶汽车)是一些最常出现的词。

拍手数、响应数的分布高度偏斜。 708 个帖子的掌声少于 500 个。 这表明很少有帖子变得流行。 以下是掌声分布:

大多数文章的阅读时间(分钟)在 1 到 3 分钟之间。

在 Medium 上,每个帖子最多可以有 5 个标签。 标签可帮助读者更轻松地找到内容。 标签越相关,越容易找到。 正如我们在图片中看到的,数据科学是最常用的标签,其次是机器学习、大数据、人工智能。 以下是与数据科学相关的前 10 个标签:
为什么数据科学工作需求量很大?
根据用户响应创建集群
有三个指标可以衡量帖子在 Medium 上的受欢迎程度。 #Claps、#Responses 和 #Recommends。 为了进行公平比较,我还包括了特征#Days between First Published and data collection date。在这个特征集上,我应用了k-means聚类并确定了三个聚类。 从下图中我们可以看出,跨集群(人气组)的三个指标之间存在巨大差异。 此外,我们可以看到,对于不太受欢迎的帖子,尽管发布和报废之间的平均天数最高,但他们的参与度非常低。 以下是跨集群(人气组)的指标:

了解是什么让数据科学帖子受欢迎
从下图中我们可以看出,对于更受欢迎的文章,中高人气文章的中位数是 9 和 7。与不太受欢迎的文章相比,它们也有更多的链接。 这意味着热门帖子是指其他帖子和其他信息来源,可为内容增加更多价值。 热门帖子和非热门帖子之间的区别

从上图中我们也可以看出,中等人气的帖子更接近于高人气的群体,而不是低人气的群体。
数据科学和机器学习在 NETFLIX 中的应用通过简单的 k-means,我们能够识别出 Medium 上与数据科学相关的热门和非热门帖子。
学习世界顶尖大学的数据科学课程。 获得行政 PG 课程、高级证书课程或硕士课程,以加快您的职业生涯。
谈到 Medium,您应该多久发布一次?
如果你想在 Medium 上取得成功,又不能每天发帖,至少每周写 3 到 5 次。 一致性是您应该努力争取的最重要的事情。 无论您想出什么时间表,请确保它是长期可持续的并坚持下去。
任何人都可以在 Medium 上发表文章吗?
任何人都可以创建一个免费的 Medium 帐户并立即开始写博客。 作家可以提交独立的作品,为收集的故事集做出贡献,或创建自己的收藏。 使用他们简单的编辑器,您可以作为 Medium 作家与世界分享您的经验。 在 Medium 上发布是完全免费的,您的故事将与您的追随者以及数百万对类似主题感兴趣的其他人分享。
在 Medium 上,什么是走向数据科学?
该公司名为 Towards Data Science Inc.,总部位于加拿大。 他们使用 Medium 为成千上万的人创建了一个论坛,以分享想法并了解有关数据科学的更多信息。 作为 Medium 生态系统的一部分,作者可以选择将其帖子的访问权限仅限于成员。 通过中型合作伙伴计划,您可以通过在 Towards Data Science 上发表文章来接触更多的受众并赚钱。 根据您在创建 Medium 帐户时同意的 Medium 服务条款,您也是您作品的唯一所有者。