O que torna um post de “Ciência de Dados” popular no Medium?

Publicados: 2018-10-18

Este blog foi publicado originalmente no Medium por Aiswarya Ramachandran – um ex-aluno do programa de Ciência de Dados do UpGrad com o IIIT-Bangalore.

Em um dos meus posts anteriores no Medium, escrevi sobre como extrair resultados de pesquisa para uma string de consulta específica do Medium. Nesta postagem, entraremos em detalhes sobre como analisar os dados descartados para o termo de pesquisa “Data Science” para agrupar postagens com base no número de palmas e respostas em diferentes níveis de popularidade e também entender o que torna essas postagens populares.

Os dados retirados dos resultados de pesquisa do Medium eram arquivos JSON com dados extensivos sobre cada resultado da pesquisa. Para explorar a estrutura do arquivo JSON, usei o Notepad++ com o plugin JSON. O arquivo JSON tinha dados sobre as postagens, autor da postagem e editor associado a essa postagem (se houver). Aqui está a estrutura de dados JSON para uma postagem média:

O código para extrair dados do arquivo JSON pode ser encontrado aqui. Além de extrair dados do arquivo JSON, também adicionei um campo com a data em que o post foi descartado.

Ciência de dados resumida em uma imagem

Índice

Análise exploratória de postagens relacionadas a “Ciência de dados”

Ao raspar os resultados do termo de pesquisa “Data Science”, 831 postagens foram descartadas, das quais 31 eram respostas a uma postagem e foram excluídas da análise. Aqui está o número de postagens publicadas ao longo dos anos, os dados descartados foram de março de 2013 a abril de 2018:

Todos os campos de data como Data de criação, Data da primeira publicação, Data da última atualização em milissegundos se passaram desde janeiro de 1970. Eles foram convertidos em um formato de data legível por humanos usando a função abaixo

 # Função para converter a data EPOCH para o formato legível por humanos
 def convertToDateString(data):
    return (datetime(1970, 1, 1) + timedelta(milissegundos=data)).strftime("%Y-%m-%d %H:%M:%S")

O próximo passo foi ver quais palavras ocorriam com mais frequência nos títulos dessas postagens. Como você pode ver na nuvem de palavras abaixo, Data Science, Big Data, AI, Analytics, Machine Learning, Python, self-driven (sobre carros autônomos) são algumas das palavras que ocorrem com mais frequência.

A distribuição do número de palmas, número de respostas é altamente distorcida. 708 posts têm menos de 500 palmas. Isso mostra que são poucos os posts que se tornam populares. Segue a distribuição das palmas:

O Tempo de Leitura (minutos) da maioria dos artigos é de 1 a 3 minutos.

No Medium, cada postagem pode ter no máximo 5 tags. As tags ajudam os leitores a encontrar o conteúdo com mais facilidade. Quanto mais tags relevantes, mais fácil de encontrar. Como podemos ver na imagem, Data Science é a tag mais usada, seguida de Machine Learning, Big data, Inteligência Artificial. Aqui estão as 10 principais tags relacionadas à ciência de dados:


Por que os empregos em ciência de dados estão em alta demanda?

Criando clusters com base nas respostas do usuário

Existem três métricas para medir a popularidade de uma postagem no Medium viz. #Aplausos, #Respostas e #Recomenda. Para fazer uma comparação justa, também incluí o recurso #Dias entre a primeira publicação e a data da coleta de dados. Nesse conjunto de recursos, apliquei o agrupamento k-means e identifiquei três agrupamentos. Como podemos ver na imagem abaixo, há uma enorme diferença entre as três métricas nos clusters (Grupos de Popularidade). Além disso, podemos ver que, para as postagens menos populares, embora seus dias médios entre a publicação e o descarte sejam os mais altos, seu engajamento é muito baixo. Aqui estão as métricas entre clusters (grupos de popularidade):

Entendendo o que torna uma publicação de ciência de dados popular

Como podemos ver na imagem abaixo, para artigos mais populares a mediana para artigos de alta e média popularidade são 9 e 7. Eles também têm mais links em comparação com artigos menos populares. Isso significa que os posts Populares referem-se a outros posts e outras fontes de informação agregando mais valor ao conteúdo. Diferença entre postagens populares e não populares

A partir da imagem acima, também podemos ver que o post com popularidade média está mais próximo de um grupo altamente popular do que do grupo menos popular.

Aplicações de Data Science e Machine Learning no NETFLIX

Com um simples k-means, conseguimos identificar postagens populares e não populares no Medium relacionadas a Data Science.

Aprenda cursos de ciência de dados das melhores universidades do mundo. Ganhe Programas PG Executivos, Programas de Certificado Avançado ou Programas de Mestrado para acelerar sua carreira.

Quando se trata do Medium, com que frequência você deve postar?

Se você quer ter sucesso no Medium e não pode postar todos os dias, escreva pelo menos 3 a 5 vezes por semana. A consistência é a coisa mais essencial pela qual você deve se esforçar. Seja qual for o cronograma que você conceber, certifique-se de que seja sustentável a longo prazo e cumpra-o.

É possível que qualquer pessoa seja publicada no Medium?

Qualquer pessoa pode criar uma conta gratuita no Medium e começar a blogar imediatamente. Os escritores podem enviar peças independentes, contribuir para coleções de histórias coletadas ou criar sua própria coleção. Com seu editor simples, você pode compartilhar suas experiências com o mundo como escritor do Medium. A publicação no Medium é totalmente gratuita e suas histórias serão compartilhadas com seus seguidores e com milhões de outras pessoas interessadas em temas semelhantes.

No Medium, o que é Towards Data Science?

A empresa, Towards Data Science Inc., está sediada no Canadá. Eles usam o Medium para criar um fórum para milhares de indivíduos compartilharem ideias e aprenderem mais sobre ciência de dados. Os autores podem optar por restringir o acesso às suas postagens exclusivamente aos membros como parte do ecossistema Medium. Por meio do Medium Partner Program, você pode alcançar um público maior e ganhar dinheiro publicando no Towards Data Science. De acordo com os Termos de Serviço do Medium, com os quais você concorda ao criar uma conta no Medium, você também é o único proprietário do seu trabalho.