매체에서 "데이터 과학" 게시물을 인기 있는 이유는 무엇입니까?

게시 됨: 2018-10-18

이 블로그는 원래 IIIT-Bangalore와 함께 UpGrad의 데이터 과학 프로그램 졸업생인 Aiswarya Ramachandran이 Medium에 게시했습니다.

Medium에 대한 이전 게시물 중 하나에서 Medium에서 특정 쿼리 문자열에 대한 검색 결과를 스크랩하는 방법에 대해 썼습니다. 이번 포스트에서는 "데이터 사이언스"라는 검색어에 대해 스크랩한 데이터를 분석하여 박수 수와 응답 수를 기반으로 게시물을 인기도 수준으로 분류하고 이러한 게시물이 인기를 얻는 요인을 이해하는 방법에 대해 자세히 알아보겠습니다.

Medium 검색 결과에서 스크랩한 데이터는 각 검색 결과에 대한 방대한 데이터가 포함된 JSON 파일이었습니다. JSON 파일의 구조를 탐색하기 위해 JSON 플러그인과 함께 Notepad++를 사용했습니다. JSON 파일에는 해당 게시물(있는 경우)과 관련된 게시물, 게시물 작성자 및 게시자에 대한 데이터가 있습니다. 다음은 중간 게시물의 JSON 데이터 구조입니다.

JSON 파일에서 데이터를 추출하는 코드는 여기에서 찾을 수 있습니다. JSON 파일에서 데이터를 추출하는 것 외에도 게시물이 스크랩된 날짜가 있는 필드도 추가했습니다.

한 장의 사진으로 요약된 데이터 과학

목차

"데이터 사이언스" 관련 게시물의 탐색적 분석

'데이터 사이언스'라는 검색어에 대한 스크랩 결과 831개의 게시물이 스크랩되었으며 ​​이 중 31개는 게시물에 대한 응답으로 분석에서 제외되었습니다. 다음은 수년 동안 게시된 게시물 수입니다. 스크랩된 데이터는 2013년 3월부터 2018년 4월까지입니다.

만든 날짜, 첫 번째 게시 날짜, 마지막 업데이트 날짜와 같은 모든 날짜 필드에서 1970년 1월 이후 밀리초가 경과했습니다. 아래 함수를 사용하여 사람이 읽을 수 있는 날짜 형식으로 변환했습니다.

 # EPOCH 날짜를 사람이 읽을 수 있는 형식으로 변환하는 기능
 def convertToDateString(날짜):
    반환(날짜 시간(1970, 1, 1) + timedelta(밀리초=날짜)).strftime("%Y-%m-%d %H:%M:%S")

다음 단계는 이 게시물의 제목에서 가장 일반적으로 나오는 단어를 살펴보는 것이었습니다. 아래 워드 클라우드에서 볼 수 있듯이 데이터 과학, 빅 데이터, AI, 분석, 머신 러닝, 파이썬, 자율주행(자율주행차에 관한)은 가장 자주 등장하는 단어 중 일부입니다.

박수 수, 응답 수의 분포가 심하게 편향되어 있습니다. 708개의 게시물에는 500개 미만의 박수가 있습니다. 이것은 인기있는 게시물이 거의 없음을 보여줍니다. 박수 분포는 다음과 같습니다.

대부분의 기사를 읽는 시간(분)은 1분에서 3분 사이입니다.

Medium에서 각 게시물은 최대 5개의 태그를 가질 수 있습니다. 태그를 사용하면 독자가 콘텐츠를 더 쉽게 찾을 수 있습니다. 관련 태그가 많을수록 더 쉽게 찾을 수 있습니다. 이미지에서 볼 수 있듯이 데이터 과학이 가장 많이 사용되는 태그이고 머신 러닝, 빅 데이터, 인공 지능이 그 뒤를 잇습니다. 다음은 데이터 과학과 관련된 상위 10개 태그입니다.


데이터 과학 직업이 수요가 많은 이유는 무엇입니까?

사용자 응답을 기반으로 클러스터 생성

Medium 즉, 게시물의 인기도를 측정하는 세 가지 측정항목이 있습니다. #박수, #응답 및 #추천. 공정한 비교를 위해 First Published와 데이터 수집 날짜 사이의 기능 #Days도 포함했습니다. 이 기능 세트에서 k-means 클러스터링을 적용하고 3개의 클러스터를 식별했습니다. 아래 이미지에서 볼 수 있듯이 클러스터(인기 그룹) 전체에서 세 가지 메트릭 간에는 큰 차이가 있습니다. 또한 덜 인기 있는 게시물의 경우 게시와 스크랩 사이의 중간 날짜가 가장 높지만 참여도가 매우 낮다는 것을 알 수 있습니다. 다음은 클러스터(인기 그룹)의 메트릭입니다.

데이터 과학 게시물이 인기 있는 이유 이해하기

아래 이미지에서 볼 수 있듯이 인기가 높은 기사의 경우 인기가 높은 기사와 중간 인기 기사의 중앙값은 9와 7입니다. 또한 덜 인기있는 기사에 비해 링크가 더 많습니다. 즉, 인기 게시물은 콘텐츠에 더 많은 가치를 추가하는 다른 게시물 및 기타 정보 소스를 참조합니다. 인기있는 게시물과 인기없는 게시물의 차이점

위의 이미지에서 중간 정도의 인기도를 가진 게시물이 인기도가 낮은 그룹보다 인기가 높은 그룹에 더 가깝다는 것을 알 수 있습니다.

NETFLIX에서 데이터 과학 및 기계 학습의 응용

간단한 k-means를 통해 우리는 데이터 과학과 관련된 Medium에서 인기 있는 게시물과 인기 없는 게시물을 식별할 수 있었습니다.

세계 최고의 대학에서 데이터 과학 과정배우십시오 . 이그 제 큐 티브 PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램을 획득하여 경력을 빠르게 추적하십시오.

매체의 경우 얼마나 자주 게시해야 합니까?

Medium에서 성공하고 싶지만 매일 게시할 수 없다면 매주 적어도 3~5회는 작성하십시오. 일관성은 당신이 노력해야 할 가장 필수적인 것입니다. 어떤 일정을 짜든 장기적으로 지속 가능한지 확인하고 준수하세요.

누구나 Medium에 게시할 수 있습니까?

누구나 무료 Medium 계정을 만들고 바로 블로그를 시작할 수 있습니다. 작가는 독립형 작품을 제출하거나 수집된 이야기 컬렉션에 기여하거나 자신의 컬렉션을 만들 수 있습니다. 그들의 간단한 편집기를 사용하여 Medium 작가로서 전 세계와 경험을 공유할 수 있습니다. Medium에 퍼블리싱하는 것은 완전 무료이며 당신의 이야기는 당신의 팔로워와 유사한 주제에 관심이 있는 수백만 명의 다른 사람들과 공유될 것입니다.

매체에서 데이터 과학을 향하여란 무엇입니까?

Towards Data Science Inc.라는 회사는 캐나다에 있습니다. 그들은 Medium을 사용하여 수천 명의 개인이 아이디어를 공유하고 데이터 과학에 대해 더 많이 배울 수 있는 포럼을 만듭니다. 작성자는 자신의 게시물에 대한 액세스를 Medium 생태계의 일부로 회원에게만 제한하도록 선택할 수 있습니다. 미디엄 파트너 프로그램을 통해 데이터 과학을 향하여 게시하여 더 많은 청중에게 다가가고 수익을 올릴 수 있습니다. Medium 계정을 생성할 때 동의하는 Medium 서비스 약관에 따라 귀하는 작업의 단독 소유자이기도 합니다.