Ocolind cenzura chineză pe internet: cum am construit un agregator de microblog cenzurat
Publicat: 2022-03-11După cum se știe în întreaga lume, guvernul chinez impune o cenzură strictă pe internet. Sistemul de cenzură chinez, cunoscut în mod obișnuit ca Marele Firewall al Chinei, este operat de Ministerul Securității Publice și este denumit oficial Proiectul Scutul de Aur. Sistemul este în funcțiune din 2003.
Site-urile internaționale de știri care conțin de obicei conținut sensibil din punct de vedere politic, cum ar fi New York Times, sau site-urile de rețele sociale care nu respectă regulile de cenzură, cum ar fi Facebook și Twitter, sunt de obicei blocate și indisponibile pentru utilizatorii chinezi. Acest lucru se realizează folosind o varietate de metode sofisticate.
Pentru site-urile de știri și rețelele sociale din China, practic totul se află sub supravegherea guvernului. Pentru a putea funcționa, ISP-urile și furnizorii de conținut de internet din China au, de obicei, propriul mecanism de filtrare a conținutului pentru blocarea sau eliminarea conținutului publicat de utilizatorii săi, sau chiar ștergerea directă a contului utilizatorilor, dacă se presupune că aceștia sunt ilegali în cadrul guvernului. politică. Aceste companii au propriul software de cenzură pe serverele lor, precum și echipe sau departamente speciale pentru a gestiona manual sarcinile de cenzură pe care software-ul de cenzură automată nu le poate gestiona. Aceste echipe cooperează cu diviziile locale ale Ministerului Securității Publice, primind noi ordine și politici și, de obicei, lucrează împreună între ele.
Pentru dezvoltatorii noștri web autohtoni, cenzura internetului chinez nu numai că ne filtrează libertatea de exprimare, ci și resursele profesionale valoroase din întreaga lume. În munca mea zilnică, trebuie să ocolesc cenzura internetului pentru a mă conecta prin VPN pentru a folosi Gmail, Dropbox și multe alte site-uri esențiale. Îmi amintesc încă cât de incomod a fost în 2010, când serviciile Google au devenit instabile sau inaccesibile în China, după ce Google a refuzat să continue să respecte regulile de cenzură. Acest lucru ar fi de necrezut pentru dezvoltatorii din alte țări.
Cenzură pe Sina Weibo
Sina Weibo este cea mai mare rețea socială de microblogging din China. Deoarece Twitter nu respectă regulile Chinei, Weibo nu trebuie să concureze cu acesta pentru utilizatori. Știrile se răspândesc mai rapid și mai direct pe Weibo decât orice alt mijloc media din China. Membrilor generațiilor tinere, cum ar fi mine, le place să-l folosească pentru a împărtăși știri și a discuta despre evenimente publice. Dar, desigur, sub cenzura chineză a internetului, multe postări fierbinți sau interesante sunt șterse imediat după ce sunt postate. Postările de evenimente politice și publice sunt cel mai probabil să fie șterse, în timp ce știrile despre divertisment sunt cel mai puțin probabil să fie șterse. Un studiu din 2013 al informaticienilor Jed Crandall și Dan Wallach a constatat că aproximativ 12% dintre microblogurile chinezești sunt șterse în fiecare zi.
În zilele sensibile din punct de vedere politic, cum ar fi 4 iunie, se așteaptă să vadă un număr mai mare de postări cenzurate de pe Microblog care vor fi șterse. În aceste zile, utilizatorii de obicei nu pot introduce anumite cuvinte sensibile atunci când încearcă să scrie un microblog.
Cum arată când o postare este cenzurată? Când reîmprospătați un nou microblog pe site, veți vedea adesea ceva de genul acesta:
Acesta este echivalentul unui retweet, unde mesajul original apare de obicei în caseta gri. Acum, caseta scrie „Ne pare rău. Microblogul a fost șters. Vă rugăm să vedeți...” Postarea inițială a fost o pledoarie pentru dreptate de către o mamă, pentru răpirea, violul și prostituția forțată a fiicei sale de 11 ani în 2013.
2013 este un an în care au fost dezvăluite o mulțime de scandaluri politice prin intermediul platformei de microblog. Popularitatea lui Sina Weibo a crescut în această perioadă. Ca răspuns, guvernul a devenit nervos și a început să-și întărească cenzura pe platforma de socializare.
Înainte de microblog, tinerii ca mine care erau interesați de politică trebuiau de obicei să folosească servere proxy sau servicii de tunel pentru a căuta știri sensibile de pe site-urile internaționale. Dintr-o dată, am avut o platformă de rețea socială chineză relativ deschisă. Dar guvernul a intervenit rapid și s-a dovedit a fi doar o fulgerare în tigaie. Asta chiar m-a înfuriat. Am vorbit cu prietenii și am fost cu toții supărați de întărirea cenzurii pe platformă. Prietenii mei întrebau: „De ce nu putem face nimic în privința asta?” Am decis că voi încerca. Așa că am construit un site web pentru a începe să ocolesc cenzura internetului pentru a vedea ce anume era blocat sau șters din Sina Weibo.
Discuție tehnică
Practic, trebuia să configurez un server care să scaneze în mod constant pentru microbloguri chinezești blocate sau șterse și să le arate pe un site web nou. Am plănuit să folosesc un serviciu cloud intern precum Aliyun, dar se dovedește că există multe constrângeri pe platformă, cum ar fi redirecționarea domeniului, iar prețurile lor nu sunt mai ieftine decât alte servicii cloud. Desigur, preocuparea mea suplimentară a fost că serverul în sine ar fi sub supraveghere dacă l-aș implementa pe plan intern. Așa că am ajuns să cumpăr un server pe Linode și am localizat serverul în Japonia. De asemenea, am cumpărat domeniul freeweibo.me pentru a începe să ocolesc cenzura lui Sina Weibo.
Următorul grafic arată arhitectura generală a sistemului: MongoDB, un server web și un crawler. Am ales Node.js pentru mediul de dezvoltare, deoarece este mai eficient și mai scalabil pentru aplicațiile de rețea și, personal, am mai multă experiență cu el. Serverul web a fost dezvoltat folosind cadrul Express.js și a folosit API-ul Weibo pentru a captura date. Inițial, crawler-ul a fost conceput pentru a fi un proces separat, dar mai târziu am constatat că gruparea acestuia ca modul în procesul serverului web a fost suficientă pentru stadiul incipient.
Conținutul unui microblog are două părți majore de interes. Unul este datele text și atributele sale relevante. Celălalt sunt imaginile afiliate postării. Pentru a salva o postare, vrem să descarcăm și imaginile și să le salvăm ca fișiere pe disc. Pentru blogurile blocate sau șterse, aceste imagini sunt foarte importante. În China, este foarte obișnuit și popular să folosiți imagini pentru postarea de conținut text, deoarece acest conținut este mult mai dificil de surprins cu filtrarea și cenzura automată bazată pe text pe serverele companiilor de internet.

Ideea de bază a detectării postărilor blocate sau șterse este să scanați în mod constant postările noi, dintr-o listă cunoscută de utilizatori, apoi să verificați din nou disponibilitatea postărilor mai târziu. Un microblog poate fi șters sau blocat în câteva minute sau câteva zile. Astfel, crawler-ul constă din două sarcini principale: sarcina de preluare, pentru a prelua conținutul nou postat, și sarcina de verificare, pentru a verifica dacă conținutul postat anterior a fost cenzurat.
La început, am configurat crawler-ul să acceseze cu crawlere microbloguri din primii 100 de utilizatori cunoscuți de pe Weibo. Dar s-a dovedit că aproape că nu au fost detectate bloguri șterse în fiecare zi. Motivul este că cei mai mulți dintre utilizatorii de top nu sunt interesați de subiectele politice sau sensibile din punct de vedere public - nu postează și nu transmit niciodată astfel de microbloguri. De exemplu, acest blogger, care este o actriță cu peste 10 milioane de urmăritori, este unul dintre cei mai populari utilizatori, dar nu postează niciodată bloguri sensibile.
După câteva experimente și gândire, am venit cu o tehnică pentru a găsi adaptativ utilizatorii care sunt cenzurați în mod constant. Rețeaua de socializare este interconectată cu subiecte, iar utilizatorii tind să se adune în grupuri în funcție de interese. Dacă un utilizator este interesat de subiecte publice sau politice, atunci este mai probabil să posteze sau să trimită bloguri ale altor utilizatori similari. Aceste postări redirecționate oferă o modalitate bună de a identifica noi utilizatori de scanat.
De exemplu, să presupunem că utilizatorul A este deja în baza de date, iar crawler-ul detectează că un blog, care a fost repostat de utilizatorul A, este șters. Dacă utilizatorul B, autorul inițial al blogului, nu se află în baza de date, atunci crawler-ul va salva utilizatorul B. Data viitoare, când crawler-ul rescanează noi bloguri, va scana și noi bloguri de la utilizatorul B. Astfel, cantitatea de utilizatorii scanabili vor crește automat prin valorificarea acestui tip de conexiune de interes social.
După ce am reglat algoritmul crawler-ului pentru a profita de această metodologie, am avut nevoie doar să seed câțiva utilizatori cheie care aveau interese puternice în a posta bloguri sensibile, iar crawler-ul a descoperit automat noi utilizatori de scanat. Totalul zilnic de bloguri cenzurate care au fost detectate a crescut constant pe zi ce trece. Următorul este un instantaneu al blogurilor șterse arhivate în căsuța mea poștală.
- Un dialog istoric al lui Mao Zedong mustrând un oficial local pentru că nu a doborât zidul orașului antic Chengdu.
- O postare despre Xu Zhiyong, care este un avocat activ pentru drepturile omului. El a ajutat mulți oameni defavorizați și a început Mișcarea Noului Cetățean în China. El a fost condamnat la închisoare în ianuarie 2014.
- Critici la adresa ziarului guvernamental Cotidianul Poporului
- Comentează arestarea și judecarea lui Wang Gongquan, un miliardar din China și lider al Mișcării Noilor Cetățeni.
- O referire la arestarea activiștilor care participă la mișcările sociale.
Rezultate
După două săptămâni de codificare și depanare a sistemului meu de ocolire a microblogurilor chinezești, am instalat site-ul pe freeweibo.me . Cu toate acestea, după câteva săptămâni de funcționare, serverul nu a mai detectat bloguri noi. Cu niște investigații am găsit două probleme. Una a fost că platforma Weibo și-a schimbat interfața API originală. Celălalt era că solicitările API ale crawlerului depășeau limita de rată (1000 pe minut) din cauza creșterii blogurilor și a utilizatorilor în baza de date. Așa că mi-am reglat codul pentru a adopta noua interfață și, de asemenea, pentru a reduce numărul de solicitări API pe minut. Crawlerul era stabil de atunci.
M-am confruntat cu o dilemă dacă să anunț sau nu mulți oameni despre site. Știam că cu cât mai mulți oameni au vizitat site-ul, cu atât mai devreme va fi adulmecat de guvern și blocat. Așa că am distribuit site-ul doar unora dintre prietenii mei. Inițial, au fost doar aproximativ 10 până la 20 de vizite pe zi. Dar o lună mai târziu, vizitele au ajuns la 80 sau mai mult în unele zile și am avut zeci de abonați la e-mail.
Și apoi, așa cum mă așteptam, a venit dimineața când am descoperit că site-ul meu era blocat în China. A durat vreo trei luni. Pentru a ajunge pe site după aceea, utilizatorii au trebuit să folosească un serviciu de tunel VPN pentru a vizita site-ul. Acest lucru nu este practic pentru majoritatea utilizatorilor de internet chinezi.
Cu toate acestea, în aceeași zi, am fost ușurat și încântat să constat că un alt site, freeweibo.com, oferă exact același serviciu și este mai sofisticat decât ceea ce am construit. Proiectul freeweibo.com este foarte plin de resurse. Este activ pe rețelele sociale și oferă diferite mijloace de acces la conținut, cum ar fi fluxuri RSS, abonamentul de e-mail și site-uri oglindă pentru utilizatorii interni. Are chiar și o aplicație mobilă! Nu știu cine a construit site-ul, dar mă bucur că împărtășim aceeași viziune.
Concluzie
Pe baza circumstanțelor, era evident că site-ul meu nu mai era foarte util și l-am închis câteva luni mai târziu.
În ciuda rezultatului, nu simt că proiectul a fost în zadar. Dimpotrivă, a fost o experiență minunată, deși a supraviețuit doar câteva luni. M-a ajutat să apreciez profund realitatea din țara mea.
În China, pentru a conduce o afacere pe internet, trebuie să fii foarte precaut cu privire la cenzură, altfel vei avea probleme mai devreme sau mai târziu. Aproape că există nicio modalitate ca site-urile de social media să aibă succes dacă nu respectă cenzura strictă și compromit confidențialitatea utilizatorilor.
Actualizați
Codul sursă freeweibo.me este acum disponibil pe GitHub aici. După cum sa menționat mai sus, acest cod sursă nu are legătură cu site-ul web similar freeweibo.com .