「データサイエンス」の投稿がメディアで人気の理由は何ですか?

公開: 2018-10-18

このブログは元々、IIIT-BangaloreによるUpGradのデータサイエンスプログラムの卒業生であるAiswaryaRamachandranによってMediumに公開されました。

Mediumに関する以前の投稿の1つで、Mediumから特定のクエリ文字列の検索結果を取得する方法について書いていました。 この投稿では、「データサイエンス」という検索用語で廃棄されたデータを分析して、拍手と応答の数に基づいて投稿をさまざまな人気レベルにグループ化し、これらの投稿が人気を博している理由を理解します。

中程度の検索結果から廃棄されたデータは、各検索結果に関する広範なデータを含むJSONファイルでした。 JSONファイルの構造を調べるために、JSONプラグインでNotepad++を使用しました。 JSONファイルには、投稿、投稿の作成者、およびその投稿に関連付けられた発行元(存在する場合)に関するデータが含まれていました。 中規模の投稿のJSONデータ構造は次のとおりです。

JSONファイルからデータを抽出するためのコードはここにあります。 JSONファイルからデータを抽出することに加えて、投稿が廃棄された日付のフィールドも追加しました。

1つの画像にまとめられたデータサイエンス

目次

「データサイエンス」に関連する投稿の探索的分析

検索用語「データサイエンス」の検索結果をスクラップすると、831件の投稿が廃棄され、そのうち31件が投稿への回答であり、分析から除外されました。 何年にもわたって公開された投稿の数は次のとおりです。廃棄されたデータは2013年3月から2018年4月まででした。

作成日、最初の公開日、最終更新日など、1970年1月からミリ秒が経過したすべての日付フィールド。以下の関数を使用して、人間が読める形式の日付形式に変換されました。

 #EPOCH日付を人間が読める形式に変換する関数
def convertToDateString(date):
    return(datetime(1970、1、1)+ timedelta(milliseconds = date))。strftime( "%Y-%m-%d%H:%M:%S")

次のステップは、これらの投稿のタイトルで最も一般的に発生している単語を確認することでした。 以下のワードクラウドからわかるように、データサイエンス、ビッグデータ、AI、分析、機械学習、Python、自己駆動(自己駆動車について)は、最も頻繁に発生する単語の一部です。

拍手数、応答数の分布は大きく偏っています。 708の投稿の拍手は500未満です。 これは、人気のある投稿がほとんどないことを示しています。 拍手の分布は次のとおりです。

ほとんどの記事の読書時間(分)は1〜3分です。

Mediumでは、各投稿に最大5つのタグを付けることができます。 タグは、読者がコンテンツをより簡単に見つけるのに役立ちます。 関連性の高いタグほど、見つけやすくなります。 画像でわかるように、データサイエンスが最も頻繁に使用されるタグであり、次に機械学習、ビッグデータ、人工知能が続きます。 データサイエンスに関連する上位10個のタグは次のとおりです。


データサイエンスの仕事の需要が高いのはなぜですか?

ユーザーの応答に基づいたクラスターの作成

投稿がMediumvizでどれだけ人気があるかを測定するための3つのメトリックがあります。 #拍手、#応答、#推奨。 公平に比較​​するために、最初に公開されてからデータ収集日までの機能#Daysも含めました。この機能セットでは、k-meansクラスタリングを適用し、3つのクラスターを特定しました。 下の画像からわかるように、クラスター(人気グループ)全体で3つのメトリック間に大きな違いがあります。 また、あまり人気のない投稿については、公開から廃棄までの日数の中央値が最も高いものの、エンゲージメントは非常に低いことがわかります。 クラスタ全体のメトリックは次のとおりです(人気グループ)。

データサイエンスの投稿が人気になる理由を理解する

下の画像からわかるように、人気の高い記事の場合、人気の高い記事と中程度の記事の中央値は9と7です。また、人気の低い記事に比べてリンクが多くなっています。 これは、人気のある投稿が他の投稿や他の情報源を参照し、コンテンツにより多くの価値を追加することを意味します。 人気のある投稿と人気のない投稿の違い

上の画像から、人気が中程度の投稿は、人気の低いグループよりも人気の高いグループに近いことがわかります。

NETFLIXでのデータサイエンスと機械学習のアプリケーション

単純なk-meansを使用して、データサイエンスに関連するMediumの人気のある投稿と人気のない投稿を特定することができました。

世界のトップ大学からデータサイエンスコース学びましょうエグゼクティブPGプログラム、高度な証明書プログラム、または修士プログラムを取得して、キャリアを早急に進めましょう。

Mediumに関しては、どのくらいの頻度で投稿する必要がありますか?

Mediumで成功したいのに毎日投稿できない場合は、少なくとも週に3〜5回書いてください。 一貫性はあなたが努力すべき最も重要なことです。 あなたが思いついたスケジュールが何であれ、それが長期的に持続可能であることを確認し、それに固執してください。

誰でもMediumで公開することは可能ですか?

誰でも無料のMediumアカウントを作成して、すぐにブログを始めることができます。 作家は、独立した作品を提出したり、収集されたストーリーのコレクションに貢献したり、独自のコレクションを作成したりできます。 彼らのシンプルなエディターで、あなたはミディアムライターとして世界とあなたの経験を共有することができます。 Mediumでの公開は完全に無料で、あなたのストーリーはフォロワーだけでなく、同様のテーマに興味を持っている何百万人もの人々と共有されます。

中規模では、データサイエンスに向けて何ですか?

Towards Data Science Inc.は、カナダを拠点としています。 彼らはMediumを使用して、何千人もの個人がアイデアを共有し、データサイエンスについてさらに学ぶためのフォーラムを作成しています。 著者は、中規模エコシステムの一部としてのみ、投稿へのアクセスをメンバーに制限することを選択できます。 ミディアムパートナープログラムを通じて、データサイエンスに向けて公開することで、より多くの視聴者にリーチし、お金を稼ぐことができます。 ミディアムアカウントを作成するときに同意するミディアム利用規約に沿って、あなたはあなたの作品の唯一の所有者でもあります。