Omijanie chińskiej cenzury Internetu: jak zbudowałem ocenzurowany agregator mikroblogów

Opublikowany: 2022-03-11

Jak wiadomo na całym świecie, chiński rząd egzekwuje ścisłą cenzurę w Internecie. Chiński system cenzury, powszechnie znany jako Wielka Chińska Zapora Sieciowa, jest obsługiwany przez Ministerstwo Bezpieczeństwa Publicznego i oficjalnie nosi nazwę Projektu Złota Tarcza. System działa od 2003 roku.

Międzynarodowe serwisy informacyjne, które zazwyczaj zawierają treści o charakterze politycznym, takie jak New York Times, lub serwisy społecznościowe, które nie przestrzegają zasad cenzury, takie jak Facebook i Twitter, są zazwyczaj blokowane i niedostępne dla chińskich użytkowników. Odbywa się to za pomocą różnych wyrafinowanych metod.

W przypadku chińskich serwisów informacyjnych i serwisów społecznościowych praktycznie wszystko znajduje się pod nadzorem rządu. Aby móc działać, dostawcy usług internetowych i dostawcy treści internetowych w Chinach zwykle mają własny mechanizm filtrowania treści w celu blokowania lub usuwania opublikowanych treści przez użytkowników, a nawet bezpośredniego usuwania kont użytkowników, jeśli uważa się je za nielegalne na mocy rządu polityka. Firmy te mają na swoich serwerach własne oprogramowanie cenzurujące, a także specjalne zespoły lub działy do ​​ręcznej obsługi zadań cenzury, którymi nie może zarządzać zautomatyzowane oprogramowanie cenzurujące. Zespoły te współpracują z lokalnymi wydziałami Ministerstwa Bezpieczeństwa Publicznego, otrzymując nowe rozkazy i polityki oraz zazwyczaj współpracując ze sobą.

Dla naszych krajowych twórców stron internetowych cenzura chińskiego Internetu nie tylko odfiltrowuje naszą wolność słowa, ale także cenne zasoby zawodowe z całego świata. W mojej codziennej pracy muszę omijać cenzurę internetu, aby łączyć się przez VPN, aby korzystać z Gmaila, Dropboxa i wielu innych ważnych witryn. Wciąż pamiętam, jak niezręcznie było w 2010 roku, kiedy usługi Google stały się niestabilne lub niedostępne w Chinach po tym, jak Google odmówiło dalszego przestrzegania zasad cenzury. Byłoby to niewiarygodne dla deweloperów w innych krajach.

Cenzura na Sinie Weibo

Sina Weibo to największy portal społecznościowy zajmujący się mikroblogami w Chinach. Ponieważ Twitter nie przestrzega chińskich zasad, Weibo nie musi z nim konkurować o użytkowników. Wiadomości rozchodzą się szybciej i bezpośrednio w Weibo niż jakiekolwiek inne media w Chinach. Członkowie młodszego pokolenia, tacy jak ja, lubią go używać do dzielenia się wiadomościami i omawiania wydarzeń publicznych. Ale oczywiście pod chińską cenzurą internetową wiele gorących lub interesujących postów jest usuwanych natychmiast po ich opublikowaniu. Posty o wydarzeniach politycznych i publicznych są najczęściej usuwane, a wiadomości rozrywkowe najrzadziej. Badanie przeprowadzone w 2013 roku przez informatyków Jeda Crandalla i Dana Wallacha wykazało, że około 12% chińskich mikroblogów jest usuwanych każdego dnia.

Oczekuje się, że w politycznie wrażliwe dni, takie jak 4 czerwca, nastąpi usunięcie większej liczby ocenzurowanych postów na Microblogu. W dzisiejszych czasach użytkownicy zwykle nie mogą nawet wprowadzać pewnych wrażliwych słów, gdy próbują pisać mikroblog.

Jak to wygląda, gdy post zostaje ocenzurowany? Kiedy odświeżysz nowy mikroblog na stronie, często zobaczysz coś takiego:

Jest to cenzurowany chiński mikroblog, w którym treści zostały usunięte przez rządowe urzędy regulacyjne lub dostawcę usług internetowych.

Jest to odpowiednik retweetu, w którym oryginalna wiadomość zwykle pojawia się w szarym polu. Pudełko brzmi teraz „Przepraszam. Mikroblog został usunięty. Proszę zobaczyć…” Pierwotny post był apelem matki o sprawiedliwość, za porwanie, gwałt i przymusową prostytucję jej 11-letniej córki w 2013 roku.

2013 to rok, w którym za pośrednictwem platformy mikroblogowej ujawniono wiele skandali politycznych. Popularność Sina Weibo wzrosła w tym czasie. W odpowiedzi rząd zdenerwował się i zaczął wzmacniać cenzurę na platformie mediów społecznościowych.

Przed mikroblogiem młodzi ludzie, tacy jak ja, którzy interesowali się polityką, zwykle musieli korzystać z serwerów proxy lub usług tunelowania, aby wyłapywać poufne wiadomości z międzynarodowych stron internetowych. Nagle pojawiła się stosunkowo otwarta chińska platforma społecznościowa. Ale rząd wkroczył szybko i okazało się, że to tylko błysk na patelni. To mnie naprawdę rozwścieczyło. Rozmawiałem ze znajomymi i wszyscy byliśmy źli z powodu wzmocnienia cenzury na platformie. Moi przyjaciele pytali: „Dlaczego nie możemy nic z tym zrobić?” Postanowiłem, że spróbuję. Zbudowałem więc stronę internetową, aby zacząć omijać cenzurę internetową, aby zobaczyć, co dokładnie zostało zablokowane lub usunięte z Sina Weibo.

Dyskusja techniczna

Zasadniczo musiałem skonfigurować serwer, który stale skanował w poszukiwaniu zablokowanych lub usuwanych chińskich mikroblogów i pokazywał je na nowej stronie internetowej. Planowałem skorzystać z krajowej usługi w chmurze, takiej jak Aliyun, ale okazuje się, że platforma ma wiele ograniczeń, takich jak przekierowanie domen, a ich ceny nie są tańsze niż inne usługi w chmurze. Oczywiście moją dodatkową obawą było to, że sam serwer byłby pod obserwacją, gdybym wdrożył go w kraju. Skończyło się na tym, że kupiłem serwer na Linode i zlokalizowałem go w Japonii. Kupiłem też domenę freeweibo.me , aby zacząć omijać cenzurę Sina Weibo.

Poniższy wykres przedstawia ogólną architekturę systemu: MongoDB, serwer WWW i przeszukiwacz. Jako środowisko programistyczne wybrałem Node.js, ponieważ jest bardziej wydajny i skalowalny dla aplikacji sieciowych i osobiście mam z nim większe doświadczenie. Serwer sieciowy został opracowany przy użyciu frameworka Express.js i używał interfejsu API Weibo do przechwytywania danych. Początkowo robot indeksujący miał być osobnym procesem, ale później stwierdziłem, że dołączenie go jako modułu w procesie serwera WWW było wystarczające na wczesnym etapie.

Taka jest architektura systemu, która omija cenzurę w Chinach i odzyskuje usunięte mikroblogi.

Treść mikrobloga ma dwie główne części zainteresowania. Jednym z nich są dane tekstowe i ich odpowiednie atrybuty. Drugi to obrazy powiązane z postem. Aby zapisać post, chcemy również pobrać obrazy i zapisać je jako pliki na dysku. W przypadku zablokowanych lub usuniętych blogów te obrazy są bardzo ważne. W Chinach bardzo powszechne i popularne jest wykorzystywanie obrazów do publikowania treści tekstowych, ponieważ treści te są znacznie trudniejsze do przechwycenia za pomocą automatycznego filtrowania i cenzurowania tekstu na serwerach firm internetowych.

Podstawową ideą wykrywania zablokowanych lub usuniętych postów jest ciągłe skanowanie w poszukiwaniu nowych postów ze znanej listy użytkowników, a następnie ponowne sprawdzanie dostępności postów w późniejszym czasie. Mikroblog można usunąć lub zablokować w ciągu kilku minut lub kilku dni. W ten sposób robot składa się z dwóch głównych zadań: zadania pobierania, które pobiera nowo opublikowane treści, oraz zadania sprawdzania, które sprawdza, czy wcześniej opublikowana treść została ocenzurowana.

Na początku skonfigurowałem robota indeksującego do przeszukiwania mikroblogów od 100 najlepszych znanych użytkowników Weibo. Okazało się jednak, że każdego dnia nie wykrywano prawie żadnych usuniętych blogów. Powodem jest to, że większość czołowych użytkowników nie jest zainteresowana tematami politycznymi lub drażliwymi publicznie – nigdy nie publikują ani nie przesyłają dalej tego rodzaju mikroblogów. Na przykład ta blogerka, która jest aktorką mającą ponad 10 milionów obserwujących, jest jednym z najpopularniejszych użytkowników, ale nigdy nie publikuje poufnych blogów.

Po kilku eksperymentach i przemyśleniach wymyśliłem technikę adaptacyjnego znajdowania użytkowników, którzy konsekwentnie są cenzurowani. Sieć mediów społecznościowych jest powiązana tematycznie, a użytkownicy zwykle gromadzą się w grupy według zainteresowań. Jeśli użytkownik interesuje się tematami publicznymi lub politycznymi, jest bardziej prawdopodobne, że będzie publikować lub przekazywać blogi innych podobnych użytkowników. Te przekazane posty to dobry sposób na identyfikację nowych użytkowników do przeskanowania.

Załóżmy na przykład, że użytkownik A jest już w bazie danych, a robot indeksujący wykryje, że jeden blog, który został ponownie opublikowany przez użytkownika A, został usunięty. Jeśli użytkownika B, pierwotnego autora bloga, nie ma w bazie danych, przeszukiwacz zapisze użytkownika B. Następnym razem, gdy przeszukiwacz ponownie przeskanuje nowe blogi, przeskanuje również nowe blogi użytkownika B. W związku z tym liczba Skanowalni użytkownicy będą się automatycznie rozwijać, wykorzystując tego rodzaju połączenie zainteresowań społecznych.

Chińską cenzurę internetową można ominąć, wykorzystując zachowanie mikroblogów.

Po dostrojeniu algorytmu robota, aby wykorzystać tę metodologię, musiałem tylko umieścić kilku kluczowych użytkowników, którzy byli silnie zainteresowani publikowaniem poufnych blogów, a robot automatycznie wykrył nowych użytkowników do przeskanowania. Liczba wykrytych blogów ocenzurowanych w ciągu dnia stale rosła z dnia na dzień. Poniżej znajduje się migawka zarchiwizowanych usuniętych blogów w mojej skrzynce pocztowej.

To przykład cenzurowanych chińskich mikroblogów w sieci społecznościowej.

  • Historyczny dialog Mao Zedonga, który upominał miejscowego urzędnika za nie zburzenie starożytnego muru miasta Chengdu.
  • Post o Xu Zhiyong, który jest aktywnym prawnikiem zajmującym się prawami. Pomógł wielu upośledzonym ludziom i zapoczątkował Ruch Nowych Obywateli w Chinach. Został skazany na karę więzienia w styczniu 2014 roku.
  • Krytyka rządowej gazety People's Daily
  • Skomentuj aresztowanie i proces Wang Gongquana, miliardera w Chinach i przywódcy Ruchu Nowych Obywateli.
  • Nawiązanie do aresztowań działaczy działających w ruchach społecznych.

Wyniki

Po dwóch tygodniach kodowania i debugowania mojego chińskiego systemu omijania mikroblogów, wdrożyłem witrynę na freeweibo.me . Jednak po kilku tygodniach działania serwer nie wykrył więcej nowych blogów. Po pewnym dochodzeniu znalazłem dwa problemy. Jednym z nich było to, że platforma Weibo zmieniła swój pierwotny interfejs API. Drugim było to, że żądania API robota indeksującego przekraczały limit szybkości (1000 na minutę) ze względu na wzrost liczby blogów i użytkowników w bazie danych. Dostroiłem więc swój kod, aby zaadaptować nowy interfejs, a także zmniejszyć liczbę żądań API na minutę. Od tego czasu gąsienica była stabilna.

Stałem przed dylematem, czy powiadomić wiele osób o witrynie. Wiedziałem, że im więcej osób odwiedzi witrynę, tym szybciej zostanie ona zwęszona przez rząd i zablokowana. Udostępniłem więc witrynę tylko niektórym moim znajomym. Początkowo było tylko około 10 do 20 wizyt dziennie. Ale miesiąc później odwiedziny w niektóre dni osiągnęły 80 lub więcej, a ja miałem dziesiątki subskrybentów e-maili.

A potem, jak się spodziewałem, nadszedł poranek, kiedy odkryłem, że moja witryna jest zablokowana w Chinach. Trwało to około trzech miesięcy. Aby później dotrzeć do witryny, użytkownicy musieli skorzystać z usług tunelowania VPN, aby odwiedzić witrynę. Jest to niepraktyczne dla większości chińskich internautów.

Jednak tego samego dnia poczułem ulgę i satysfakcję, że inna strona, freeweibo.com, zapewnia dokładnie tę samą usługę i jest bardziej wyrafinowana niż ta, którą zbudowałem. Projekt freeweibo.com jest bardzo pomysłowy. Jest aktywny w mediach społecznościowych i zapewnia różne sposoby dostępu do treści, takie jak kanały RSS, subskrypcja poczty e-mail i witryny lustrzane dla użytkowników krajowych. Ma nawet aplikację mobilną! Nie wiem, kto zbudował stronę, ale cieszę się, że podzielamy tę samą wizję.

Wniosek

Biorąc pod uwagę okoliczności, było oczywiste, że moja strona nie jest już zbyt użyteczna i zamknąłem ją kilka miesięcy później.

Pomimo wyniku nie wydaje mi się, żeby projekt poszedł na marne. Wręcz przeciwnie, było to wspaniałe doświadczenie, mimo że przetrwało tylko kilka miesięcy. Pomogło mi to dogłębnie docenić rzeczywistość w moim kraju.

W Chinach, żeby prowadzić biznes internetowy, trzeba bardzo uważać na cenzurę, bo prędzej czy później wpadniecie w kłopoty. Nie ma prawie żadnego sposobu, aby serwisy społecznościowe odniosły sukces, jeśli nie przestrzegają ścisłej cenzury i naruszają prywatność użytkowników.


Aktualizacja

Kod źródłowy freeweibo.me jest teraz dostępny na GitHub tutaj. Jak wspomniano powyżej, ten kod źródłowy nie jest powiązany z podobną witryną freeweibo.com .