Что делает пост «Наука о данных» популярным на Medium?

Опубликовано: 2018-10-18

Этот блог изначально был опубликован на Medium Айсварией Рамачандран — выпускницей программы UpGrad по науке о данных с IIIT-Bangalore.

В одном из моих предыдущих постов на Medium я писал о том, как собирать результаты поиска по определенной строке запроса из Medium. В этом посте мы подробно рассмотрим анализ данных, удаленных для поискового запроса «Наука о данных», чтобы сгруппировать сообщения на основе количества хлопков и ответов по разным уровням популярности, а также понять, что делает эти сообщения популярными.

Данные, извлеченные из результатов поиска Medium, представляли собой файл JSON с подробными данными о каждом результате поиска. Чтобы изучить структуру файла JSON, я использовал Notepad++ с плагином JSON. Файл JSON содержал данные о сообщениях, авторе сообщения и издателе, связанном с этим сообщением (если таковые имеются). Вот структура данных JSON для поста среднего размера:

Код для извлечения данных из файла JSON можно найти здесь. Помимо извлечения данных из JSON-файла, я также добавил поле с датой удаления поста.

Наука о данных в одном изображении

Оглавление

Исследовательский анализ постов, связанных с «наукой о данных»

При очистке результатов по поисковому запросу «Наука о данных» был удален 831 пост, из которых 31 был ответом на пост и был исключен из анализа. Вот количество постов, опубликованных за годы, данные были удалены с марта 2013 года по апрель 2018 года:

Все поля даты, такие как Дата создания, Дата первой публикации, Дата последнего обновления, в которых миллисекунды истекли с января 1970 года. Они были преобразованы в удобочитаемый формат даты с помощью функции ниже

 # Функция для преобразования даты EPOCH в удобочитаемый формат
 def convertToDateString (дата):
    return (datetime(1970, 1, 1) + timedelta(миллисекунды=дата)).strftime("%Y-%m-%d %H:%M:%S")

Следующим шагом было посмотреть, какие слова чаще всего встречаются в заголовках этих постов. Как вы можете видеть из приведенного ниже слова «облако», Data Science, Big Data, AI, Analytics, Machine Learning, Python, self-driven (о беспилотных автомобилях) — одни из наиболее часто встречающихся слов.

Распределение количества хлопков и количества ответов сильно перекошено. 708 постов имеют менее 500 лайков. Это показывает, что мало постов становятся популярными. Вот распределение хлопков:

Время чтения (мин) большинства статей составляет от 1 до 3 минут.

На Medium у каждого поста может быть максимум 5 тегов. Теги помогают читателям легче находить контент. Чем больше релевантных тегов, тем легче их найти. Как мы видим на изображении, Data Science является наиболее часто используемым тегом, за которым следуют машинное обучение, большие данные, искусственный интеллект. Вот 10 лучших тегов, связанных с наукой о данных:


Почему профессии Data Science пользуются большим спросом?

Создание кластеров на основе ответов пользователей

Есть три показателя, чтобы измерить, насколько популярен пост на Medium, а именно. #Аплодисменты, #Ответы и #Рекомендации. Чтобы сделать справедливое сравнение, я также включил функцию #Days между первой публикацией и датой сбора данных. В этом наборе функций я применил кластеризацию k-средних и определил три кластера. Как видно из изображения ниже, существует огромная разница между тремя показателями по кластерам (группам популярности). Кроме того, мы можем видеть, что для менее популярных постов, хотя их медиана дней между публикацией и удалением является самой высокой, их вовлеченность очень низка. Вот метрики по кластерам (группам популярности):

Понимание того, что делает пост о науке о данных популярным

Как видно из изображения ниже, для более популярных статей медиана для статей с высокой и средней популярностью составляет 9 и 7. Они также имеют больше ссылок по сравнению с менее популярными статьями. Это означает, что популярные посты ссылаются на другие посты и другие источники информации, повышающие ценность контента. Разница между популярными и непопулярными сообщениями

На изображении выше также видно, что пост со средней популярностью ближе к группе с высокой популярностью, чем к группе с меньшей популярностью.

Приложения науки о данных и машинного обучения в NETFLIX

С помощью простого k-среднего мы смогли определить популярные и непопулярные посты на Medium, связанные с наукой о данных.

Изучите курсы по науке о данных в лучших университетах мира. Участвуйте в программах Executive PG, Advanced Certificate Programs или Master Programs, чтобы ускорить свою карьеру.

Когда дело доходит до Medium, как часто вы должны публиковать?

Если вы хотите добиться успеха на Medium и не можете публиковать каждый день, пишите хотя бы 3–5 раз в неделю. Последовательность — это самое главное, к чему вы должны стремиться. Какой бы график вы ни придумали, убедитесь, что он устойчив в долгосрочной перспективе, и придерживайтесь его.

Может ли кто-нибудь опубликоваться на Medium?

Любой может создать бесплатную учетную запись Medium и сразу начать вести блог. Писатели могут отправлять отдельные произведения, вносить свой вклад в сборники собранных рассказов или создавать свои собственные сборники. С их простым редактором вы можете поделиться своим опытом с миром в качестве автора Medium. Публикация на Medium совершенно бесплатна, и ваши истории будут доступны вашим подписчикам, а также миллионам других людей, которым интересны схожие темы.

На Medium, что такое Наука о данных?

Компания Towards Data Science Inc. базируется в Канаде. Они используют Medium для создания форума, на котором тысячи людей могут делиться идеями и узнавать больше о науке о данных. Авторы могут разрешить доступ к своим сообщениям исключительно участникам экосистемы Medium. Благодаря партнерской программе Medium вы можете охватить более широкую аудиторию и зарабатывать деньги, публикуя материалы в Towards Data Science. В соответствии с Условиями обслуживания Medium, с которыми вы соглашаетесь при создании учетной записи Medium, вы также являетесь единственным владельцем своей работы.