Contourner la censure d'Internet en Chine : comment j'ai créé un agrégateur de microblogs censurés
Publié: 2022-03-11Comme on le sait dans le monde entier, le gouvernement chinois applique une censure stricte sur Internet. Le système de censure chinois, communément appelé le Grand Pare-feu de Chine, est géré par le ministère de la Sécurité publique et est officiellement nommé le projet Golden Shield. Le système est opérationnel depuis 2003.
Les sites d'information internationaux qui contiennent généralement du contenu politiquement sensible, comme le New York Times, ou les sites de médias sociaux qui ne respectent pas les règles de censure, comme Facebook et Twitter, sont généralement bloqués et indisponibles pour les utilisateurs chinois. Ceci est accompli en utilisant une variété de méthodes sophistiquées.
Pour les sites d'information et de médias sociaux chinois, pratiquement tout est sous la surveillance du gouvernement. Afin d'être autorisés à opérer, les FAI et les fournisseurs de contenu Internet en Chine ont généralement leur propre mécanisme de filtrage de contenu pour bloquer ou supprimer le contenu publié par ses utilisateurs, ou même supprimer directement le compte des utilisateurs s'ils sont présumés illégaux par le gouvernement. politique. Ces entreprises ont leur propre logiciel de censure sur leurs serveurs, ainsi que des équipes ou des départements spéciaux pour gérer manuellement les tâches de censure que les logiciels de censure automatisés ne peuvent pas gérer. Ces équipes coopèrent avec les divisions locales du ministère de la Sécurité publique, recevant de nouvelles commandes et politiques, et travaillant généralement ensemble.
Pour nos développeurs Web nationaux, la censure de l'Internet chinois filtre non seulement notre liberté d'expression, mais également de précieuses ressources professionnelles du monde entier. Dans mon travail quotidien, je dois contourner la censure d'Internet pour me connecter via VPN afin d'utiliser Gmail, Dropbox et de nombreux autres sites cruciaux. Je me souviens encore à quel point c'était gênant en 2010, lorsque les services de Google sont devenus instables ou inaccessibles en Chine après que Google a refusé de continuer à se conformer aux règles de censure. Ce serait incroyable pour les développeurs d'autres pays.
Censure sur Sina Weibo
Sina Weibo est le plus grand site de réseau social de microblogging en Chine. Étant donné que Twitter ne respecte pas les règles chinoises, Weibo n'a pas à le concurrencer pour les utilisateurs. Les nouvelles se propagent plus rapidement et directement sur Weibo que tout autre média en Chine. Les membres des jeunes générations, comme moi, aiment l'utiliser pour partager des nouvelles et discuter d'événements publics. Mais bien sûr, sous la censure chinoise d'Internet, de nombreux messages chauds ou intéressants sont supprimés immédiatement après leur publication. Les publications d'événements politiques et publics sont les plus susceptibles d'être supprimées, tandis que les actualités de divertissement sont les moins susceptibles d'être supprimées. Une étude réalisée en 2013 par les informaticiens Jed Crandall et Dan Wallach a révélé qu'environ 12 % des microblogs chinois sont supprimés chaque jour.
Les jours politiquement sensibles comme le 4 juin, on s'attend à ce qu'un plus grand nombre de messages censurés de Microblog soient supprimés. Ces jours-ci, les utilisateurs ne peuvent généralement même pas saisir certains mots sensibles lorsqu'ils tentent d'écrire un microblog.
À quoi cela ressemble-t-il lorsqu'un message est censuré ? Lorsque vous actualisez un nouveau microblog sur le site, vous verrez souvent quelque chose comme ceci :
C'est l'équivalent d'un retweet, où le message d'origine apparaît généralement dans la zone grise. La boîte indique maintenant "Désolé. Le microblog a été supprimé. S'il vous plaît voir… » Le message original était un plaidoyer pour la justice par une mère, pour l'enlèvement, le viol et la prostitution forcée de sa fille de 11 ans en 2013.
2013 est une année où de nombreux scandales politiques ont été révélés via la plateforme de microblogs. La popularité de Sina Weibo a grimpé en flèche pendant cette période. En réponse, le gouvernement est devenu nerveux et a commencé à renforcer sa censure sur la plateforme de médias sociaux.
Avant le microblog, les jeunes comme moi qui s'intéressaient à la politique devaient généralement utiliser des serveurs proxy ou des services de tunneling pour rechercher des informations sensibles sur des sites Web internationaux. Du coup, nous avions une plate-forme de réseau social chinois relativement ouverte. Mais le gouvernement est intervenu rapidement et cela s'est avéré n'être qu'un feu de paille. Cela m'a vraiment exaspéré. J'ai parlé avec des amis, et nous étions tous en colère contre le renforcement de la censure sur la plateforme. Mes amis demandaient : « Pourquoi ne pouvons-nous rien faire à ce sujet ? J'ai décidé d'essayer. J'ai donc créé un site Web pour commencer à contourner la censure d'Internet afin de voir exactement ce qui était bloqué ou supprimé de Sina Weibo.
Discussion technique
Fondamentalement, j'avais besoin de configurer un serveur qui recherchait constamment les microblogs chinois bloqués ou supprimés et les affichait sur un nouveau site Web. J'avais prévu d'utiliser un service cloud domestique comme Aliyun, mais il s'avère qu'il existe de nombreuses contraintes sur la plate-forme, telles que la redirection de domaine, et leurs prix ne sont pas moins chers que les autres services cloud. Bien sûr, ma préoccupation supplémentaire était que le serveur lui-même serait sous surveillance si je le déployais au niveau national. J'ai donc fini par acheter un serveur sur Linode et j'ai localisé le serveur au Japon. J'ai également acheté le domaine freeweibo.me pour commencer à contourner la censure de Sina Weibo.
Le graphique suivant montre l'architecture globale du système : MongoDB, un serveur Web et un crawler. J'ai choisi Node.js pour l'environnement de développement, car il est plus efficace et évolutif pour les applications réseau et, personnellement, j'ai plus d'expérience avec. Le serveur Web a été développé à l'aide du framework Express.js et a utilisé l'API Weibo pour capturer les données. Initialement, le crawler était conçu pour être un processus distinct, mais plus tard, j'ai découvert que le regrouper en tant que module dans le processus du serveur Web était suffisant pour la première étape.
Le contenu d'un microblog présente deux principaux intérêts. L'un concerne les données textuelles et leurs attributs pertinents. L'autre est les images affiliées à la publication. Pour enregistrer un message, nous souhaitons également télécharger les images et les enregistrer sous forme de fichiers sur le disque. Pour les blogs bloqués ou supprimés, ces images sont très importantes. En Chine, il est très courant et populaire d'utiliser des images pour publier du contenu textuel, car ce contenu est beaucoup plus difficile à détecter avec le filtrage et la censure automatisés basés sur le texte sur les serveurs des sociétés Internet.

L'idée de base de la détection des messages bloqués ou supprimés est de rechercher constamment de nouveaux messages, à partir d'une liste connue d'utilisateurs, puis de revérifier la disponibilité des messages ultérieurement. Un microblog peut être supprimé ou bloqué en quelques minutes ou plusieurs jours. Ainsi, le crawler se compose de deux tâches principales : la tâche de récupération, pour récupérer le contenu nouvellement publié, et la tâche de vérification, pour vérifier si le contenu précédemment publié a été censuré.
Au début, j'ai configuré le crawler pour explorer les microblogs des 100 meilleurs utilisateurs connus sur Weibo. Mais il s'est avéré qu'il n'y avait presque pas de blogs supprimés détectés chaque jour. La raison en est que la plupart des principaux utilisateurs ne s'intéressent pas aux sujets politiques ou sensibles au public - ils ne publient ni ne transmettent jamais ce type de microblogs. Par exemple, cette blogueuse, qui est une actrice avec plus de 10 millions de followers, est l'une des utilisatrices les plus populaires, mais elle ne publie jamais de blogs sensibles.
Après quelques expérimentations et réflexions, j'ai trouvé une technique pour trouver de manière adaptative les utilisateurs qui sont constamment censurés. Le réseau de médias sociaux est interconnecté par sujets et les utilisateurs ont tendance à se rassembler en groupes par intérêt. Si un utilisateur s'intéresse à des sujets publics ou politiques, il est plus susceptible de publier ou de transférer les blogs d'autres utilisateurs similaires. Ces messages transférés constituent un bon moyen d'identifier de nouveaux utilisateurs à analyser.
Par exemple, supposons que l'utilisateur A se trouve déjà dans la base de données et que le robot d'exploration détecte qu'un blog, qui a été republié par l'utilisateur A, est supprimé. Si l'utilisateur B, l'auteur original du blog, n'est pas dans la base de données, le robot enregistrera l'utilisateur B. La prochaine fois, lorsque le robot analysera à nouveau les nouveaux blogs, il analysera également les nouveaux blogs de l'utilisateur B. Ainsi, la quantité de les utilisateurs scannables se développeront automatiquement en exploitant ce type de connexion d'intérêt social.
Après avoir réglé l'algorithme du robot d'exploration pour tirer parti de cette méthodologie, je n'ai eu qu'à sélectionner plusieurs utilisateurs clés qui avaient un intérêt marqué pour la publication de blogs sensibles et le robot d'exploration a automatiquement découvert de nouveaux utilisateurs à analyser. Le nombre total quotidien de blogs censurés détectés a augmenté régulièrement de jour en jour. Voici un aperçu des blogs supprimés archivés dans ma boîte aux lettres.
- Un dialogue historique de Mao Zedong réprimandant un responsable local pour ne pas avoir abattu l'ancien mur de la ville de Chengdu.
- Un article sur Xu Zhiyong, qui est un avocat actif dans le domaine des droits. Il a aidé de nombreuses personnes défavorisées et a lancé le Mouvement des Nouveaux Citoyens en Chine. Il a été condamné à la prison en janvier 2014.
- Critique du journal gouvernemental People's Daily
- Commentez l'arrestation et le procès de Wang Gongquan, milliardaire en Chine et leader du Mouvement des nouveaux citoyens.
- Une référence à l'arrestation de militants qui participent à des mouvements sociaux.
Résultats
Après deux semaines de codage et de débogage de mon système de contournement de microblog chinois, j'ai déployé le site sur freeweibo.me . Cependant, après plusieurs semaines de fonctionnement, le serveur n'a plus détecté de nouveaux blogs. Après quelques recherches, j'ai trouvé deux problèmes. La première était que la plate-forme Weibo avait changé son interface API d'origine. L'autre était que les requêtes API du crawler dépassaient la limite de débit (1 000 par minute) en raison de l'augmentation du nombre de blogs et d'utilisateurs dans la base de données. J'ai donc ajusté mon code pour adopter la nouvelle interface et aussi pour diminuer le nombre de requêtes API par minute. Le crawler était stable depuis lors.
J'ai été confronté à un dilemme quant à l'opportunité ou non de faire connaître le site à de nombreuses personnes. Je savais que plus il y avait de personnes qui visitaient le site, plus tôt il serait repéré par le gouvernement et bloqué. Je n'ai donc partagé le site qu'avec certains de mes amis. Au départ, il n'y avait qu'environ 10 à 20 visites par jour. Mais un mois plus tard, les visites ont atteint 80 ou plus certains jours, et j'avais des dizaines d'abonnés par e-mail.
Et puis, comme je m'y attendais, le matin est venu où j'ai découvert que mon site était bloqué en Chine. Cela avait duré environ trois mois. Afin d'accéder au site par la suite, les utilisateurs devaient utiliser un service de tunnellisation VPN pour visiter le site. Ce n'est pas pratique pour la plupart des internautes chinois.
Cependant, ce même jour, j'ai été soulagé et ravi de constater qu'un autre site, freeweibo.com, fournit exactement le même service et est plus sophistiqué que celui que j'ai construit. Le projet freeweibo.com est très ingénieux. Il est actif sur les réseaux sociaux et offre différents moyens d'accéder au contenu, comme les flux RSS, l'abonnement par e-mail et les sites miroirs pour les utilisateurs domestiques. Il a même une application mobile ! Je ne sais pas qui a construit le site, mais je suis content que nous partagions la même vision.
Conclusion
Vu les circonstances, il était évident que mon site n'était plus très utile, et je l'ai fermé quelques mois plus tard.
Malgré le résultat, je n'ai pas l'impression que le projet ait été vain. Au contraire, ce fut une expérience merveilleuse, même si elle n'a duré que quelques mois. Cela m'a aidé à apprécier profondément la réalité de mon pays.
En Chine, pour gérer une entreprise sur Internet, il faut être très prudent vis-à-vis de la censure, sous peine d'avoir des ennuis tôt ou tard. Il n'y a pratiquement aucun moyen pour les sites de médias sociaux de réussir s'ils ne se conforment pas à la censure stricte et compromettent la vie privée des utilisateurs.
Mettre à jour
Le code source de freeweibo.me est maintenant disponible sur GitHub ici. Comme indiqué ci-dessus, ce code source n'est pas lié au site Web similaire freeweibo.com .