Ignorando a censura chinesa na Internet: como criei um agregador de microblog censurado

Publicados: 2022-03-11

Como é conhecido mundialmente, o governo chinês impõe uma censura estrita na internet. O sistema de censura chinês, comumente conhecido como o Grande Firewall da China, é operado pelo Ministério da Segurança Pública e é oficialmente chamado de Projeto Escudo Dourado. O sistema está em operação desde 2003.

Sites de notícias internacionais que geralmente contêm conteúdo politicamente sensível, como o New York Times, ou sites de mídia social que não cumprem as regras de censura, como Facebook e Twitter, geralmente são bloqueados e indisponíveis para usuários chineses. Isso é feito usando uma variedade de métodos sofisticados.

Para sites de mídia social e notícias chinesas, praticamente tudo está sob vigilância do governo. Para poder operar, os ISPs e provedores de conteúdo da Internet na China geralmente têm seu próprio mecanismo de filtragem de conteúdo para bloquear ou remover o conteúdo publicado por seus usuários, ou até mesmo excluir a conta dos usuários diretamente se eles forem considerados ilegais sob o governo política. Essas empresas têm seu próprio software de censura em seus servidores, bem como equipes ou departamentos especiais para lidar manualmente com as tarefas de censura que o software de censura automatizada não consegue gerenciar. Essas equipes cooperam com as divisões locais do Ministério da Segurança Pública, recebendo novas ordens e políticas, e geralmente trabalhando em conjunto.

Para nossos desenvolvedores web domésticos, a censura da internet chinesa não apenas filtra nossa liberdade de expressão, mas também recursos profissionais valiosos de todo o mundo. No meu trabalho diário, tenho que contornar a censura da internet para me conectar via VPN para usar o Gmail, Dropbox e muitos outros sites cruciais. Ainda me lembro de como foi estranho em 2010, quando os serviços do Google ficaram instáveis ​​ou inacessíveis na China depois que o Google se recusou a continuar cumprindo as regras de censura. Isso seria inacreditável para desenvolvedores em outros países.

Censura no Sina Weibo

O Sina Weibo é a maior rede social de microblogging da China. Como o Twitter não cumpre as regras da China, o Weibo não precisa competir com ele pelos usuários. As notícias se espalham de forma mais rápida e direta no Weibo do que em qualquer outro meio de comunicação na China. Membros das gerações mais jovens, como eu, gostam de usá-lo para compartilhar notícias e discutir eventos públicos. Mas é claro que, sob a censura chinesa na internet, muitos posts quentes ou interessantes são deletados imediatamente após serem postados. As publicações de eventos políticos e públicos têm maior probabilidade de serem excluídas, enquanto as notícias de entretenimento têm menor probabilidade de serem excluídas. Um estudo de 2013 dos cientistas da computação Jed Crandall e Dan Wallach descobriu que cerca de 12% dos microblogs chineses estão sendo excluídos todos os dias.

Em dias politicamente sensíveis como 4 de junho, espera-se ver um número maior de postagens censuradas do Microblog sendo excluídas. Nesses dias, os usuários geralmente não conseguem inserir certas palavras sensíveis quando tentam escrever um microblog.

Como fica quando um post é censurado? Quando você atualiza um novo microblog no site, geralmente verá algo assim:

Este é um microblog chinês censurado onde o conteúdo foi removido pelos escritórios reguladores do governo ou pelo ISP.

Isso é o equivalente a um retuíte, em que a mensagem original geralmente aparece na caixa cinza. A caixa agora diz “Desculpe. O microblog foi excluído. Por favor, veja…” O post original era um pedido de justiça por uma mãe, pelo sequestro, estupro e prostituição forçada de sua filha de 11 anos em 2013.

2013 é um ano em que muitos escândalos políticos foram revelados através da plataforma de microblog. A popularidade do Sina Weibo disparou durante esse período. Em resposta, o governo ficou nervoso e começou a fortalecer sua censura na plataforma de mídia social.

Antes do microblog, jovens como eu, interessados ​​em política, geralmente precisavam usar servidores proxy ou serviços de encapsulamento para caçar notícias confidenciais de sites internacionais. De repente, tínhamos uma plataforma de rede social chinesa relativamente aberta. Mas o governo interveio rapidamente e acabou sendo apenas um flash na panela. Isso realmente me enfureceu. Conversei com amigos e todos ficamos revoltados com o fortalecimento da censura na plataforma. Meus amigos perguntavam: “Por que não podemos fazer nada sobre isso?” Eu decidi que tentaria. Então eu construí um site para começar a contornar a censura da internet para ver o que exatamente estava sendo bloqueado ou excluído do Sina Weibo.

Discussão Técnica

Basicamente, eu precisava configurar um servidor que verificasse constantemente microblogs chineses bloqueados ou excluídos e os mostrasse em um novo site. Eu tinha planejado usar um serviço de nuvem doméstico como o Aliyun, mas acontece que existem muitas restrições na plataforma, como redirecionamento de domínio, e seus preços não são mais baratos que outros serviços de nuvem. Claro, minha preocupação adicional era que o próprio servidor estaria sob vigilância se eu o implantasse internamente. Então acabei comprando um servidor na Linode, e localizei o servidor no Japão. Também comprei o domínio freeweibo.me para começar a contornar a censura do Sina Weibo.

O gráfico a seguir mostra a arquitetura geral do sistema: MongoDB, um servidor web e um rastreador. Escolhi o Node.js para o ambiente de desenvolvimento, pois é mais eficiente e escalável para aplicações de rede e, pessoalmente, tenho mais experiência com ele. O servidor web foi desenvolvido utilizando o framework Express.js, e utilizou a API Weibo para captura de dados. Inicialmente, o rastreador foi projetado para ser um processo separado, mas depois descobri que agrupá-lo como um módulo no processo do servidor web era suficiente para o estágio inicial.

Essa é a arquitetura do sistema que contornaria a censura na China e recuperaria os microblogs que foram excluídos.

O conteúdo de um microblog tem duas partes principais de interesse. Um são os dados de texto e seus atributos relevantes. A outra são as imagens afiliadas ao post. Para salvar um post, também queremos baixar as imagens e salvá-las como arquivos no disco. Para blogs bloqueados ou excluídos, essas imagens são muito importantes. Na China, é muito comum e popular usar imagens para postar conteúdo de texto, pois esse conteúdo é muito mais difícil de capturar com filtragem e censura automatizada baseada em texto nos servidores das empresas de internet.

A ideia básica de detectar postagens bloqueadas ou excluídas é verificar constantemente novas postagens, de uma lista conhecida de usuários, e verificar novamente a disponibilidade das postagens posteriormente. Um microblog pode ser excluído ou bloqueado em alguns minutos ou vários dias. Assim, o rastreador consiste em duas tarefas principais: a tarefa de busca, para buscar o conteúdo recém-publicado, e a tarefa de verificação, para verificar se o conteúdo publicado anteriormente foi censurado.

No início, configurei o rastreador para rastrear microblogs dos 100 principais usuários conhecidos no Weibo. Mas descobriu-se que quase não havia blogs excluídos sendo detectados a cada dia. O motivo é que a maioria dos principais usuários não tem interesse em tópicos políticos ou sensíveis ao público - eles nunca postam ou encaminham esses tipos de microblogs. Por exemplo, esta blogueira, que é uma atriz com mais de 10 milhões de seguidores, é uma das usuárias mais populares, mas nunca publica blogs sensíveis.

Depois de algumas experimentações e reflexões, criei uma técnica para encontrar usuários que são constantemente censurados. A rede de mídia social é interconectada por tópicos e os usuários tendem a se reunir em grupos por interesse. Se um usuário tiver interesse em tópicos públicos ou políticos, é mais provável que ele publique ou encaminhe blogs de outros usuários semelhantes. Essas postagens encaminhadas fornecem uma boa maneira de identificar novos usuários a serem verificados.

Por exemplo, digamos que o usuário A já esteja no banco de dados e o rastreador detecte que um blog, que foi republicado pelo usuário A, foi excluído. Se o usuário B, o autor original do blog, não estiver no banco de dados, o rastreador salvará o usuário B. Da próxima vez, quando o rastreador verificar novamente novos blogs, ele também verificará novos blogs do usuário B. Assim, a quantidade de os usuários escaneáveis ​​crescerão automaticamente aproveitando esse tipo de conexão de interesse social.

A censura chinesa na internet pode ser contornada aproveitando o comportamento do microblog.

Depois de ajustar o algoritmo do rastreador para aproveitar essa metodologia, eu só precisei propagar vários usuários-chave que tinham forte interesse em postar blogs confidenciais e o rastreador descobriu automaticamente novos usuários para verificar. O total diário de blogs censurados que foram detectados aumentou de forma constante dia a dia. Veja a seguir um instantâneo de blogs excluídos arquivados em minha caixa de correio.

Este é um exemplo de microblogs chineses censurados na rede social.

  • Um diálogo histórico de Mao Zedong repreendendo um oficial local por não derrubar a antiga muralha da cidade de Chengdu.
  • Um post sobre Xu Zhiyong, que é um advogado de direitos ativo. Ele ajudou muitas pessoas carentes e iniciou o Movimento do Novo Cidadão na China. Ele foi condenado à prisão em janeiro de 2014.
  • Críticas ao jornal do governo Diário do Povo
  • Comente sobre a prisão e julgamento de Wang Gongquan, um bilionário na China e líder do Movimento do Novo Cidadão.
  • Uma referência à prisão de ativistas que participam de movimentos sociais.

Resultados

Após duas semanas codificando e depurando meu microblog chinês ignorando o sistema, implantei o site em freeweibo.me . No entanto, após várias semanas de execução, o servidor não detectou mais novos blogs. Com alguma investigação, encontrei dois problemas. Uma foi que a plataforma Weibo mudou sua interface API original. A outra foi que as requisições da API do rastreador estavam ultrapassando o limite de taxa (1000 por minuto) devido ao aumento de blogs e usuários no banco de dados. Então eu ajustei meu código para adotar a nova interface e também para diminuir a contagem de requisições da API por minuto. O rastreador ficou estável a partir de então.

Eu enfrentei um dilema sobre se deveria ou não deixar muitas pessoas saberem sobre o site. Eu sabia que quanto mais pessoas visitassem o site, mais cedo ele seria descoberto pelo governo e bloqueado. Então eu só compartilhei o site com alguns dos meus amigos. Inicialmente, havia apenas cerca de 10 a 20 visitas por dia. Mas um mês depois, as visitas atingiram 80 ou mais em alguns dias, e eu tinha dezenas de assinantes de e-mail.

E então, como eu esperava, chegou a manhã em que descobri que meu site estava bloqueado na China. Durou cerca de três meses. Para acessar o site depois disso, os usuários tiveram que usar um serviço de encapsulamento VPN para visitar o site. Isso é impraticável para a maioria dos usuários de internet chineses.

No entanto, naquele mesmo dia fiquei aliviado e satisfeito ao descobrir que outro site, freeweibo.com, está fornecendo exatamente o mesmo serviço e é mais sofisticado do que o que eu construí. O projeto freeweibo.com é muito engenhoso. Ele é ativo nas mídias sociais e oferece diferentes meios de acesso ao conteúdo, como feeds RSS, assinatura de e-mail e sites espelho para usuários domésticos. Tem até aplicativo para celular! Não sei quem construiu o site, mas fico feliz por compartilharmos a mesma visão.

Conclusão

Com base nas circunstâncias, era óbvio que meu site não era mais muito útil e o fechei vários meses depois.

Apesar do resultado, não sinto que o projeto foi em vão. Pelo contrário, foi uma experiência maravilhosa, embora tenha sobrevivido apenas por alguns meses. Ajudou-me a apreciar profundamente a realidade do meu país.

Na China, para administrar um negócio na Internet, você precisa ser muito cauteloso com a censura, ou terá problemas mais cedo ou mais tarde. Quase não há como os sites de mídia social serem bem-sucedidos se não cumprirem a censura estrita e comprometerem a privacidade dos usuários.


Atualizar

O código-fonte freeweibo.me já está disponível no GitHub aqui. Como dito acima, este código-fonte não está relacionado ao site similar freeweibo.com .