Bypassare la censura cinese su Internet: come ho creato un aggregatore di microblog censurato
Pubblicato: 2022-03-11Come è noto in tutto il mondo, il governo cinese impone una severa censura su Internet. Il sistema di censura cinese, comunemente noto come Great Firewall of China, è gestito dal Ministero della Pubblica Sicurezza ed è ufficialmente chiamato Golden Shield Project. Il sistema è operativo dal 2003.
I siti di notizie internazionali che di solito contengono contenuti politicamente sensibili, come il New York Times, o i siti di social media che non rispettano le regole di censura, come Facebook e Twitter, sono generalmente bloccati e non disponibili per gli utenti cinesi. Ciò si ottiene utilizzando una varietà di metodi sofisticati.
Per i siti di notizie e social media cinesi, praticamente tutto è sotto la sorveglianza del governo. Per poter operare, gli ISP e i fornitori di contenuti Internet in Cina di solito dispongono di un proprio meccanismo di filtraggio dei contenuti per bloccare o rimuovere il contenuto pubblicato dai propri utenti, o addirittura eliminare direttamente l'account degli utenti se si presume che siano illegali sotto il governo politica. Queste aziende hanno il proprio software di censura sui propri server, nonché team o dipartimenti speciali per gestire manualmente le attività di censura che il software di censura automatizzato non è in grado di gestire. Queste squadre collaborano con le divisioni locali del Ministero della Pubblica Sicurezza, ricevendo nuovi ordini e politiche e di solito collaborano tra loro.
Per i nostri sviluppatori web nazionali, la censura di Internet cinese non solo filtra la nostra libertà di parola, ma anche preziose risorse professionali da tutto il mondo. Nel mio lavoro quotidiano, devo aggirare la censura di Internet per connettermi tramite VPN per utilizzare Gmail, Dropbox e molti altri siti cruciali. Ricordo ancora quanto fosse imbarazzante nel 2010, quando i servizi di Google divennero instabili o inaccessibili in Cina dopo che Google si rifiutò di continuare a rispettare le regole di censura. Questo sarebbe incredibile per gli sviluppatori di altri paesi.
Censura su Sina Weibo
Sina Weibo è il più grande social network di microblogging in Cina. Poiché Twitter non rispetta le regole cinesi, Weibo non deve competere con essa per gli utenti. Le notizie si diffondono più rapidamente e direttamente su Weibo rispetto a qualsiasi altro mezzo di comunicazione in Cina. I membri delle generazioni più giovani, come me, amano usarlo per condividere notizie e discutere di eventi pubblici. Ma ovviamente, sotto la censura cinese di Internet, molti post interessanti o interessanti vengono eliminati immediatamente dopo essere stati pubblicati. È più probabile che i post di eventi politici e pubblici vengano eliminati, mentre è meno probabile che le notizie di intrattenimento vengano eliminate. Uno studio del 2013 degli informatici Jed Crandall e Dan Wallach ha rilevato che circa il 12% dei microblog cinesi viene eliminato ogni giorno.
In giorni politicamente sensibili come il 4 giugno, si prevede che verrà eliminato un numero maggiore di post censurati di Microblog. In questi giorni, gli utenti di solito non possono nemmeno inserire determinate parole sensibili quando tentano di scrivere un microblog.
Che aspetto ha quando un post viene censurato? Quando aggiorni un nuovo microblog sul sito, vedrai spesso qualcosa del genere:
Questo è l'equivalente di un retweet, in cui il messaggio originale viene generalmente visualizzato nella casella grigia. La casella ora dice "Mi dispiace. Il microblog è stato cancellato. Per favore, guarda…” Il post originale era una richiesta di giustizia da parte di una madre, per il rapimento, lo stupro e la prostituzione forzata della figlia di 11 anni nel 2013.
Il 2013 è un anno in cui molti scandali politici sono stati rivelati attraverso la piattaforma di microblog. La popolarità di Sina Weibo è aumentata vertiginosamente durante questo periodo. In risposta, il governo si è innervosito e ha iniziato a rafforzare la sua censura sulla piattaforma dei social media.
Prima del microblog, i giovani come me interessati alla politica di solito dovevano utilizzare server proxy o servizi di tunneling per scovare notizie sensibili da siti web internazionali. Improvvisamente, abbiamo avuto una piattaforma di social network cinese relativamente aperta. Ma il governo è intervenuto rapidamente e si è rivelato essere solo un fuoco di paglia. Questo mi ha davvero fatto infuriare. Ho parlato con gli amici ed eravamo tutti arrabbiati per il rafforzamento della censura sulla piattaforma. I miei amici chiedevano: "Perché non possiamo fare nulla al riguardo?" Ho deciso che ci avrei provato. Quindi ho creato un sito Web per iniziare a bypassare la censura di Internet per vedere cosa veniva esattamente bloccato o eliminato da Sina Weibo.
Discussione tecnica
Fondamentalmente, avevo bisogno di configurare un server che scansionasse costantemente i microblog cinesi bloccati o eliminati e li mostrasse in un nuovo sito web. Avevo pianificato di utilizzare un servizio cloud domestico come Aliyun, ma si scopre che ci sono molti vincoli sulla piattaforma, come il reindirizzamento del dominio, e i loro prezzi non sono più economici di altri servizi cloud. Ovviamente, la mia ulteriore preoccupazione era che il server stesso sarebbe stato sotto sorveglianza se lo avessi distribuito a livello nazionale. Così ho finito per acquistare un server su Linode e ho localizzato il server in Giappone. Ho anche acquistato il dominio freeweibo.me per iniziare a bypassare la censura di Sina Weibo.
Il grafico seguente mostra l'architettura complessiva del sistema: MongoDB, un server Web e un crawler. Ho scelto Node.js per l'ambiente di sviluppo, in quanto è più efficiente e scalabile per le applicazioni di rete e, personalmente, ho più esperienza con esso. Il server Web è stato sviluppato utilizzando il framework Express.js e ha utilizzato l'API Weibo per acquisire i dati. Inizialmente, il crawler è stato progettato per essere un processo separato, ma in seguito ho scoperto che il raggruppamento come modulo nel processo del server Web era sufficiente per la fase iniziale.
Il contenuto di un microblog ha due parti principali di interesse. Uno sono i dati di testo e i relativi attributi. L'altro sono le immagini affiliate al post. Per salvare un post, vogliamo anche scaricare le immagini e salvarle come file sul disco. Per i blog bloccati o eliminati, queste immagini sono molto importanti. In Cina è molto comune e popolare utilizzare le immagini per pubblicare contenuti testuali, poiché questi contenuti sono molto più difficili da catturare con filtri e censure automatizzati basati su testo sui server delle società Internet.

L'idea di base per rilevare i post bloccati o eliminati è scansionare costantemente nuovi post, da un elenco noto di utenti, e quindi ricontrollare la disponibilità dei post in un secondo momento. Un microblog potrebbe essere cancellato o bloccato entro pochi minuti o diversi giorni. Pertanto, il crawler è costituito da due attività principali: l'attività di recupero, per recuperare il contenuto appena pubblicato, e l'attività di controllo, per verificare se il contenuto pubblicato in precedenza è stato censurato.
Inizialmente, ho configurato il crawler per eseguire la scansione dei microblog dei primi 100 utenti noti su Weibo. Ma si è scoperto che ogni giorno non veniva rilevato quasi nessun blog cancellato. Il motivo è che la maggior parte dei migliori utenti non ha alcun interesse per argomenti politici o sensibili pubblicamente: non pubblicano o inoltrano mai questo tipo di microblog. Ad esempio, questa blogger, che è un'attrice con più di 10 milioni di follower, è uno degli utenti più popolari, ma non pubblica mai blog sensibili.
Dopo alcune sperimentazioni e riflessioni, ho escogitato una tecnica per trovare in modo adattivo gli utenti che vengono costantemente censurati. La rete dei social media è tematicamente interconnessa e gli utenti tendono a riunirsi in gruppi in base agli interessi. Se un utente ha un interesse per argomenti pubblici o politici, è più probabile che pubblichi o inoltri i blog di altri utenti simili. Questi post inoltrati forniscono un buon modo per identificare i nuovi utenti da scansionare.
Ad esempio, supponiamo che l'utente A sia già nel database e che il crawler rilevi che un blog, che è stato ripubblicato dall'utente A, è stato eliminato. Se l'utente B, l'autore originale del blog, non è nel database, il crawler salverà l'utente B. La prossima volta, quando il crawler eseguirà nuovamente la scansione di nuovi blog, analizzerà anche i nuovi blog dell'utente B. Pertanto, la quantità di gli utenti scansionabili aumenteranno automaticamente sfruttando questo tipo di connessione di interesse sociale.
Dopo aver ottimizzato l'algoritmo del crawler per sfruttare questa metodologia, avevo solo bisogno di seminare diversi utenti chiave che avevano forti interessi nella pubblicazione di blog sensibili e il crawler ha scoperto automaticamente nuovi utenti da scansionare. Il totale giornaliero dei blog censurati che sono stati rilevati è aumentato costantemente di giorno in giorno. Quello che segue è un'istantanea dei blog eliminati archiviati nella mia casella di posta.
- Un dialogo storico di Mao Zedong che rimprovera un funzionario locale per non aver abbattuto le antiche mura della città di Chengdu.
- Un post su Xu Zhiyong, che è un avvocato per i diritti attivi. Ha aiutato molte persone svantaggiate e ha avviato il New Citizen's Movement in Cina. È stato condannato al carcere nel gennaio 2014.
- Critiche al quotidiano del governo People's Daily
- Commenta l'arresto e il processo di Wang Gongquan, miliardario cinese e leader del New Citizen's Movement.
- Un riferimento all'arresto di attivisti che partecipano a movimenti sociali.
Risultati
Dopo due settimane di codifica e debug del sistema di bypass del mio microblog cinese, ho distribuito il sito a freeweibo.me . Tuttavia, dopo diverse settimane di esecuzione, il server non ha più rilevato nuovi blog. Con alcune indagini ho riscontrato due problemi. Uno era che la piattaforma Weibo aveva cambiato la loro interfaccia API originale. L'altro era che le richieste API del crawler superavano il limite di velocità (1000 al minuto) a causa dell'aumento di blog e utenti nel database. Quindi ho ottimizzato il mio codice per adottare la nuova interfaccia e anche per ridurre il conteggio delle richieste API al minuto. Il cingolato è stato stabile da quel momento in poi.
Ho dovuto affrontare un dilemma sull'opportunità o meno di far conoscere a molte persone il sito. Sapevo che più persone avrebbero visitato il sito, prima sarebbe stato fiutato dal governo e bloccato. Quindi ho condiviso il sito solo con alcuni dei miei amici. Inizialmente, c'erano solo da 10 a 20 visite al giorno. Ma un mese dopo, le visite hanno raggiunto 80 o più in alcuni giorni e ho avuto decine di abbonati e-mail.
E poi, come mi aspettavo, è arrivata la mattina in cui ho scoperto che il mio sito era bloccato in Cina. Era durato circa tre mesi. Per raggiungere il sito in seguito, gli utenti dovevano utilizzare un servizio di tunneling VPN per visitare il sito. Questo non è pratico per la maggior parte degli utenti cinesi di Internet.
Tuttavia, quello stesso giorno sono stato sollevato e felice di scoprire che un altro sito, freeweibo.com, fornisce esattamente lo stesso servizio ed è più sofisticato di quello che ho creato. Il progetto freeweibo.com è molto pieno di risorse. È attivo sui social media e fornisce diversi mezzi per accedere al contenuto, come feed RSS, abbonamento e-mail e siti mirror per gli utenti domestici. Ha anche un'app mobile! Non so chi abbia creato il sito, ma sono felice che condividiamo la stessa visione.
Conclusione
In base alle circostanze, era ovvio che il mio sito non era più molto utile e l'ho chiuso diversi mesi dopo.
Nonostante il risultato, non credo che il progetto sia stato vano. Al contrario, è stata un'esperienza meravigliosa, anche se è sopravvissuta solo per pochi mesi. Mi ha aiutato ad apprezzare profondamente la realtà del mio paese.
In Cina, per gestire un'attività su Internet, devi essere molto cauto riguardo alla censura, o prima o poi finirai nei guai. Non c'è quasi modo per i siti di social media di avere successo se non rispettano la severa censura e il compromesso sulla privacy degli utenti.
Aggiornare
Il codice sorgente di freeweibo.me è ora disponibile su GitHub qui. Come affermato in precedenza, questo codice sorgente non è correlato al sito Web simile freeweibo.com .