¿Qué hace que una publicación de "Ciencia de datos" sea popular en Medium?
Publicado: 2018-10-18Este blog fue publicado originalmente en Medium por Aiswarya Ramachandran, ex alumno del programa de ciencia de datos de UpGrad con IIIT-Bangalore.
En una de mis publicaciones anteriores en Medium, había escrito sobre cómo raspar los resultados de búsqueda para una cadena de consulta particular de Medium. En esta publicación, entraremos en detalles sobre el análisis de los datos descartados para el término de búsqueda "Ciencia de datos" para agrupar las publicaciones según el número de aplausos y respuestas en diferentes niveles de popularidad y también comprenderemos qué hace que estas publicaciones sean populares.
Los datos eliminados de los resultados de búsqueda de Medium eran un archivo JSON con datos extensos sobre cada resultado de búsqueda. Para explorar la estructura del archivo JSON, utilicé Notepad ++ con el complemento JSON. El archivo JSON tenía datos sobre las publicaciones, el autor de la publicación y el editor asociado con esa publicación (si corresponde). Aquí está la estructura de datos JSON para una publicación mediana:
El código para extraer datos del archivo JSON se puede encontrar aquí. Además de extraer datos del archivo JSON, también agregué un campo con la fecha en que se eliminó la publicación.
Ciencia de datos resumida en una imagenTabla de contenido
Análisis exploratorio de publicaciones relacionadas con "Ciencia de datos"
Al extraer los resultados del término de búsqueda "Ciencia de datos", se eliminaron 831 publicaciones, de las cuales 31 eran respuestas a una publicación y se excluyeron del análisis. Aquí está la cantidad de publicaciones publicadas a lo largo de los años, los datos descartados fueron desde marzo de 2013 hasta abril de 2018:

Todos los campos de fecha, como Fecha de creación, Fecha de primera publicación, Fecha de última actualización, en los que transcurrieron milisegundos desde enero de 1970. Se convirtieron a un formato de fecha legible por humanos usando la función a continuación
# Función para convertir la fecha EPOCH a un formato legible por humanos
def convertToDateString(fecha): return (datetime(1970, 1, 1) + timedelta(milisegundos=fecha)).strftime("%Y-%m-%d %H:%M:%S")
El siguiente paso fue ver qué palabras aparecían con mayor frecuencia en los títulos de estas publicaciones. Como puede ver en la nube de palabras a continuación, Data Science, Big Data, AI, Analytics, Machine Learning, Python, self-driven (sobre autos sin conductor) son algunas de las palabras más frecuentes.

La distribución de Número de aplausos, Número de respuestas está muy sesgada. 708 publicaciones tienen menos de 500 aplausos. Esto muestra que hay pocas publicaciones que se vuelven populares. Aquí está la distribución de aplausos:

El tiempo de lectura (mins) de la mayoría de los artículos es de 1 a 3 min.

En Medium, cada publicación puede tener un máximo de 5 etiquetas. Las etiquetas ayudan a los lectores a encontrar contenido más fácilmente. Cuantas más etiquetas relevantes, más fácil de encontrar. Como podemos ver en la imagen, Data Science es la etiqueta más utilizada, seguida de Machine Learning, Big data, Artificial Intelligence. Aquí están las 10 etiquetas principales relacionadas con la ciencia de datos:
¿Por qué los trabajos de ciencia de datos tienen una gran demanda?
Creación de clústeres en función de las respuestas de los usuarios
Hay tres métricas para medir qué tan popular es una publicación en Medium viz. #Aplausos, #Respuestas y #Recomiendas. Para hacer una comparación justa, también incluí la característica #Days between First Published y la fecha de recopilación de datos. En este conjunto de características, apliqué el agrupamiento de k-means e identifiqué tres grupos. Como podemos ver en la imagen a continuación, existe una gran diferencia entre las tres métricas en los clústeres (Grupos de popularidad). Además, podemos ver que para las publicaciones menos populares, aunque la mediana de días entre la publicación y el desguace es la más alta, su compromiso es muy bajo. Estas son las métricas de los clústeres (grupos de popularidad):

Comprender qué hace que una publicación de ciencia de datos sea popular
Como podemos ver en la imagen a continuación, para los artículos más populares, la mediana de los artículos de popularidad alta y media es 9 y 7. También tienen más enlaces en comparación con los artículos menos populares. Esto significa que las publicaciones Populares se refieren a otras publicaciones y otras fuentes de información agregando más valor al contenido. Diferencia entre publicaciones populares y no populares

En la imagen de arriba, también podemos ver que la publicación con una popularidad media está más cerca de un grupo muy popular que del grupo menos popular.
Aplicaciones de Data Science y Machine Learning en NETFLIXCon un simple k-means, pudimos identificar publicaciones populares y no populares en Medium relacionadas con Data Science.
Aprenda cursos de ciencia de datos de las mejores universidades del mundo. Obtenga programas Executive PG, programas de certificados avanzados o programas de maestría para acelerar su carrera.
Cuando se trata de Medium, ¿con qué frecuencia debe publicar?
Si quieres tener éxito en Medium y no puedes publicar todos los días, al menos escribe de 3 a 5 veces por semana. La consistencia es lo más esencial por lo que debes esforzarte. Sea cual sea el calendario que se te ocurra, asegúrate de que sea sostenible a largo plazo y apégate a él.
¿Es posible que cualquier persona se publique en Medium?
Cualquiera puede crear una cuenta gratuita en Medium y comenzar a publicar en un blog de inmediato. Los escritores pueden enviar piezas independientes, contribuir a colecciones de historias recopiladas o crear su propia colección. Con su sencillo editor, puedes compartir tus experiencias con el mundo como escritor de Medium. Publicar en Medium es completamente gratis, y tus historias se compartirán con tus seguidores y con millones de otras personas interesadas en temas similares.
En Medium, ¿qué es Towards Data Science?
La empresa, Towards Data Science Inc., tiene su sede en Canadá. Usan Medium para crear un foro para que miles de personas compartan ideas y aprendan más sobre la ciencia de datos. Los autores pueden optar por restringir el acceso a sus publicaciones a los miembros exclusivamente como parte del ecosistema de Medium. A través del Programa de socios medianos, puede llegar a un público más amplio y ganar dinero publicando en Towards Data Science. De acuerdo con los Términos de servicio de Medium, que acepta al crear una cuenta de Medium, también es el único propietario de su trabajo.