是什麼讓“數據科學”帖子在 Medium 上流行起來?

已發表: 2018-10-18

該博客最初由 Aiswarya Ramachandran 發表在 Medium 上,他是 IIIT-Bangalore 的 UpGrad 數據科學項目的校友。

在我之前關於 Medium 的一篇文章中,我曾寫過如何從 Medium 中抓取特定查詢字符串的搜索結果。 在這篇文章中,我們將詳細分析從搜索詞“數據科學”中刪除的數據,以根據拍手次數和回復將帖子分組為不同的受歡迎程度,並了解這些帖子受歡迎的原因。

從 Medium 搜索結果中提取的數據是 JSON 文件,其中包含有關每個搜索結果的大量數據。 為了探索 JSON 文件的結構,我使用了帶有 JSON 插件的 Notepad++。 JSON 文件包含有關帖子、帖子作者和與該帖子關聯的發布者(如果有)的數據。 這是一篇中等帖子的 JSON 數據結構:

可以在此處找到從 JSON 文件中提取數據的代碼。 除了從 JSON 文件中提取數據之外,我還添加了一個包含帖子被廢棄日期的字段。

一張圖片總結的數據科學

目錄

“數據科學”相關帖子的探索性分析

在搜索詞“數據科學”的抓取結果中,有 831 個帖子被廢棄,其中 31 個是對帖子的回复,並被排除在分析之外。 以下是多年來發布的帖子數量,廢棄的數據是從 2013 年 3 月到 2018 年 4 月:

所有日期字段,如創建日期、首次發布日期、最後更新日期,其中自 1970 年 1 月以來經過的毫秒數。使用以下函數將它們轉換為人類可讀的日期格式

# 將 EPOCH 日期轉換為人類可讀格式的函數
def 轉換日期字符串(日期):
    return (datetime(1970, 1, 1) + timedelta(milliseconds=date)).strftime("%Y-%m-%d %H:%M:%S")

下一步是查看這些帖子標題中最常出現的單詞。 從下面的詞云可以看出,Data Science、Big Data、AI、Analytics、Machine Learning、Python、self-driven(關於自動駕駛汽車)是一些最常出現的詞。

拍手數、響應數的分佈高度偏斜。 708 個帖子的掌聲少於 500 個。 這表明很少有帖子變得流行。 以下是掌聲分佈:

大多數文章的閱讀時間(分鐘)在 1 到 3 分鐘之間。

在 Medium 上,每個帖子最多可以有 5 個標籤。 標籤可幫助讀者更輕鬆地找到內容。 標籤越相關,越容易找到。 正如我們在圖片中看到的,數據科學是最常用的標籤,其次是機器學習、大數據、人工智能。 以下是與數據科學相關的前 10 個標籤:


為什麼數據科學工作需求量很大?

根據用戶響應創建集群

有三個指標可以衡量帖子在 Medium 上的受歡迎程度。 #Claps、#Responses 和 #Recommends。 為了進行公平比較,我還包括了特徵#Days between First Published and data collection date。在這個特徵集上,我應用了k-means聚類並確定了三個聚類。 從下圖中我們可以看出,跨集群(人氣組)的三個指標之間存在巨大差異。 此外,我們可以看到,對於不太受歡迎的帖子,儘管發布和報廢之間的平均天數最高,但他們的參與度非常低。 以下是跨集群(人氣組)的指標:

了解是什麼讓數據科學帖子受歡迎

從下圖中我們可以看出,對於更受歡迎的文章,中高人氣文章的中位數是 9 和 7。與不太受歡迎的文章相比,它們也有更多的鏈接。 這意味著熱門帖子是指其他帖子和其他信息來源,可為內容增加更多價值。 熱門帖子和非熱門帖子之間的區別

從上圖中我們也可以看出,中等人氣的帖子更接近於高人氣的群體,而不是低人氣的群體。

數據科學和機器學習在 NETFLIX 中的應用

通過簡單的 k-means,我們能夠識別出 Medium 上與數據科學相關的熱門和非熱門帖子。

學習世界頂尖大學的數據科學課程獲得行政 PG 課程、高級證書課程或碩士課程,以加快您的職業生涯。

談到 Medium,您應該多久發布一次?

如果你想在 Medium 上取得成功,又不能每天發帖,至少每週寫 3 到 5 次。 一致性是您應該努力爭取的最重要的事情。 無論您想出什麼時間表,請確保它是長期可持續的並堅持下去。

任何人都可以在 Medium 上發表文章嗎?

任何人都可以創建一個免費的 Medium 帳戶並立即開始寫博客。 作家可以提交獨立的作品,為收集的故事集做出貢獻,或創建自己的收藏。 使用他們簡單的編輯器,您可以作為 Medium 作家與世界分享您的經驗。 在 Medium 上發布是完全免費的,您的故事將與您的追隨者以及數百萬對類似主題感興趣的其他人分享。

在 Medium 上,什麼是走向數據科學?

該公司名為 Towards Data Science Inc.,總部位於加拿大。 他們使用 Medium 為成千上萬的人創建了一個論壇,以分享想法並了解有關數據科學的更多信息。 作為 Medium 生態系統的一部分,作者可以選擇將其帖子的訪問權限僅限於成員。 通過中型合作夥伴計劃,您可以通過在 Towards Data Science 上發表文章來接觸更多的受眾並賺錢。 根據您在創建 Medium 帳戶時同意的 Medium 服務條款,您也是您作品的唯一所有者。