Melewati Sensor Internet China: Bagaimana Saya Membangun Agregator Microblog yang Disensor
Diterbitkan: 2022-03-11Seperti diketahui di seluruh dunia, pemerintah China memberlakukan sensor ketat di internet. Sistem sensor Tiongkok, umumnya dikenal sebagai Tembok Api Besar Tiongkok, dioperasikan oleh Kementerian Keamanan Publik dan secara resmi dinamai Proyek Perisai Emas. Sistem ini telah beroperasi sejak tahun 2003.
Situs berita internasional yang biasanya berisi konten sensitif politik, seperti New York Times, atau situs media sosial yang tidak mematuhi aturan sensor, seperti Facebook dan Twitter, biasanya diblokir dan tidak tersedia untuk pengguna China. Hal ini dicapai dengan menggunakan berbagai metode canggih.
Untuk situs berita dan media sosial Tiongkok, hampir semuanya berada di bawah pengawasan pemerintah. Agar diizinkan beroperasi, ISP dan penyedia konten internet di China biasanya memiliki mekanisme penyaringan konten sendiri untuk memblokir atau menghapus konten yang dipublikasikan oleh penggunanya, atau bahkan menghapus akun pengguna secara langsung jika dianggap ilegal oleh pemerintah. aturan. Perusahaan-perusahaan ini memiliki perangkat lunak sensor mereka sendiri di server mereka, serta tim atau departemen khusus untuk menangani tugas sensor secara manual yang tidak dapat dikelola oleh perangkat lunak sensor otomatis. Tim-tim ini bekerja sama dengan divisi lokal Kementerian Keamanan Publik, menerima perintah dan kebijakan baru, dan biasanya bekerja sama satu sama lain.
Untuk pengembang web domestik kami, penyensoran internet China tidak hanya menyaring kebebasan berbicara kami, tetapi juga sumber daya profesional yang berharga dari seluruh dunia. Dalam pekerjaan sehari-hari saya, saya harus melewati sensor internet untuk terhubung melalui VPN menggunakan Gmail, Dropbox, dan banyak situs penting lainnya. Saya masih ingat betapa canggungnya tahun 2010, ketika layanan Google menjadi tidak stabil atau tidak dapat diakses di China setelah Google menolak untuk terus mematuhi aturan sensor. Ini akan sulit dipercaya untuk pengembang di negara lain.
Sensor di Sina Weibo
Sina Weibo adalah situs jejaring sosial microblogging terbesar di Cina. Karena Twitter tidak mematuhi aturan China, Weibo tidak harus bersaing dengannya untuk mendapatkan pengguna. Berita menyebar lebih cepat dan langsung di Weibo daripada outlet media lainnya di Tiongkok. Anggota generasi muda, seperti saya, suka menggunakannya untuk berbagi berita dan mendiskusikan acara publik. Tapi tentu saja, di bawah sensor internet China, banyak posting panas atau menarik segera dihapus setelah diposting. Postingan acara politik dan publik kemungkinan besar akan dihapus, sementara berita hiburan kemungkinan kecil akan dihapus. Sebuah studi tahun 2013 oleh ilmuwan komputer Jed Crandall dan Dan Wallach menemukan bahwa sekitar 12% dari microblog China sedang dihapus setiap hari.
Pada hari-hari yang sensitif secara politik seperti 4 Juni, jumlah postingan Microblog yang disensor akan dihapus lebih banyak. Pada hari-hari ini, pengguna biasanya bahkan tidak dapat memasukkan kata-kata sensitif tertentu ketika mereka mencoba menulis mikroblog.
Seperti apa rasanya ketika sebuah postingan disensor? Saat Anda menyegarkan mikroblog baru di situs, Anda akan sering melihat sesuatu seperti ini:
Ini setara dengan retweet, di mana pesan asli biasanya muncul di kotak abu-abu. Kotak itu sekarang bertuliskan “Maaf. Microblog telah dihapus. Silakan lihat…” Postingan asli adalah pembelaan keadilan oleh seorang ibu, untuk penculikan, pemerkosaan, dan pelacuran paksa putrinya yang berusia 11 tahun pada tahun 2013.
Tahun 2013 adalah tahun dimana banyak skandal politik terungkap melalui platform microblog. Popularitas Sina Weibo melonjak selama ini. Menanggapi hal itu, pemerintah menjadi gugup dan mulai memperkuat sensornya di platform media sosial.
Sebelum mikroblog, anak muda seperti saya yang tertarik dengan politik biasanya harus menggunakan server proxy atau layanan tunneling untuk memburu berita sensitif dari situs web internasional. Tiba-tiba, kami memiliki platform jejaring sosial Cina yang relatif terbuka. Tetapi pemerintah segera turun tangan, dan ternyata itu hanya sekejap mata. Ini benar-benar membuat saya marah. Saya berbicara dengan teman-teman, dan kami semua marah tentang penguatan sensor di platform. Teman-teman saya akan bertanya, “Mengapa kita tidak bisa berbuat apa-apa?” Saya memutuskan saya akan mencoba. Jadi saya membuat situs web untuk mulai melewati sensor internet untuk melihat apa yang sebenarnya diblokir atau dihapus dari Sina Weibo.
Diskusi Teknis
Pada dasarnya, saya perlu menyiapkan server yang terus-menerus memindai mikroblog Cina yang diblokir atau dihapus dan menunjukkannya di situs web baru. Saya telah merencanakan untuk menggunakan layanan cloud domestik seperti Aliyun, tetapi ternyata ada banyak kendala di platform, seperti pengalihan domain, dan harganya tidak lebih murah daripada layanan cloud lainnya. Tentu saja, kekhawatiran tambahan saya adalah bahwa server itu sendiri akan berada di bawah pengawasan jika saya menyebarkannya di dalam negeri. Jadi saya akhirnya membeli server di Linode, dan menempatkan server di Jepang. Saya juga membeli domain freeweibo.me untuk mulai melewati sensor Sina Weibo.
Grafik berikut menunjukkan keseluruhan arsitektur sistem: MongoDB, server web, dan crawler. Saya memilih Node.js untuk lingkungan pengembangan, karena lebih efisien dan skalabel untuk aplikasi jaringan dan, secara pribadi, saya memiliki lebih banyak pengalaman dengannya. Server web dikembangkan menggunakan kerangka kerja Express.js, dan menggunakan API Weibo untuk menangkap data. Awalnya, crawler dirancang untuk menjadi proses yang terpisah, tetapi kemudian saya menemukan bahwa menggabungkannya sebagai modul dalam proses server web sudah cukup untuk tahap awal.
Konten mikroblog memiliki dua bagian utama yang menarik. Salah satunya adalah data teks dan atribut yang relevan. Yang lainnya adalah gambar yang berafiliasi dengan pos. Untuk menyimpan kiriman, kami juga ingin mengunduh gambar dan menyimpannya sebagai file di disk. Untuk blog yang diblokir atau dihapus, gambar ini sangat penting. Di Cina, sangat umum dan populer menggunakan gambar untuk memposting konten teks, karena konten ini jauh lebih sulit ditangkap dengan penyaringan dan sensor berbasis teks otomatis di server perusahaan internet.

Ide dasar untuk mendeteksi posting yang diblokir atau dihapus adalah dengan terus-menerus memindai posting baru, dari daftar pengguna yang diketahui, dan kemudian memeriksa kembali ketersediaan posting di lain waktu. Sebuah microblog dapat dihapus atau diblokir dalam beberapa menit atau beberapa hari. Dengan demikian, perayap terdiri dari dua tugas utama: tugas pengambilan, untuk mengambil konten yang baru diposting, dan tugas pemeriksaan, untuk memeriksa apakah konten yang diposting sebelumnya telah disensor.
Pada awalnya, saya mengonfigurasi perayap untuk merayapi mikroblog dari 100 pengguna terkenal teratas di Weibo. Namun ternyata hampir tidak ada blog terhapus yang terdeteksi setiap harinya. Alasannya adalah sebagian besar pengguna teratas tidak tertarik pada topik politik atau sensitif publik - mereka tidak pernah memposting atau meneruskan mikroblog semacam ini. Misalnya, blogger ini, yang merupakan aktris dengan lebih dari 10 juta pengikut, adalah salah satu pengguna paling populer, tetapi dia tidak pernah memposting blog sensitif.
Setelah beberapa eksperimen dan pemikiran, saya menemukan teknik untuk secara adaptif menemukan pengguna yang secara konsisten disensor. Jaringan media sosial saling terkait topik dan pengguna cenderung berkumpul dalam kelompok berdasarkan minat. Jika seorang pengguna memiliki minat pada topik publik atau politik, maka ia cenderung memposting atau meneruskan blog pengguna serupa lainnya. Postingan yang diteruskan ini memberikan cara yang baik untuk mengidentifikasi pengguna baru yang akan dipindai.
Misalnya, pengguna A sudah ada di database, dan perayap mendeteksi bahwa satu blog, yang diposting ulang oleh pengguna A, telah dihapus. Jika pengguna B, penulis asli blog, tidak ada dalam database, maka crawler akan menyimpan pengguna B. Lain kali, ketika crawler memindai ulang blog baru, ia juga akan memindai blog baru dari pengguna B. Dengan demikian, jumlah pengguna yang dapat dipindai akan tumbuh secara otomatis dengan memanfaatkan koneksi minat sosial semacam ini.
Setelah menyetel algoritme perayap untuk memanfaatkan metodologi ini, saya hanya perlu menyemai beberapa pengguna utama yang memiliki minat kuat untuk memposting blog sensitif dan perayap secara otomatis menemukan pengguna baru untuk dipindai. Total blog yang disensor setiap hari yang terdeteksi terus meningkat dari hari ke hari. Berikut ini adalah snapshot dari blog yang dihapus yang diarsipkan di kotak surat saya.
- Dialog bersejarah oleh Mao Zedong yang menegur pejabat setempat karena tidak merobohkan tembok kota kuno Chengdu.
- Postingan tentang Xu Zhiyong, yang merupakan pengacara hak aktif. Dia telah membantu banyak orang kurang mampu dan memulai Gerakan Warga Baru di Tiongkok. Ia divonis penjara pada Januari 2014.
- Kritik terhadap surat kabar pemerintah People's Daily
- Mengomentari penangkapan dan pengadilan Wang Gongquan, seorang miliarder di China dan pemimpin Gerakan Warga Baru.
- Sebuah referensi untuk penangkapan aktivis yang mengambil bagian dalam gerakan sosial.
Hasil
Setelah dua minggu mengkode dan men-debug sistem melewati mikroblog Cina saya, saya menyebarkan situs tersebut ke freeweibo.me . Namun, setelah beberapa minggu berjalan, server tidak mendeteksi lagi blog baru. Dengan beberapa penyelidikan saya menemukan dua masalah. Salah satunya adalah platform Weibo telah mengubah antarmuka API asli mereka. Yang lainnya adalah permintaan API perayap melebihi batas kecepatan (1000 per menit) karena peningkatan blog dan pengguna di database. Jadi saya menyetel kode saya untuk mengadopsi antarmuka baru dan juga untuk mengurangi jumlah permintaan API per menit. Perayap stabil sejak saat itu.
Saya menghadapi dilema apakah akan memberi tahu banyak orang tentang situs tersebut atau tidak. Saya tahu bahwa semakin banyak orang yang mengunjungi situs tersebut, semakin cepat situs tersebut diendus oleh pemerintah dan diblokir. Jadi saya hanya berbagi situs dengan beberapa teman saya. Awalnya, hanya ada sekitar 10 hingga 20 kunjungan per hari. Tetapi sebulan kemudian, kunjungan mencapai 80 atau lebih pada beberapa hari, dan saya memiliki puluhan pelanggan email.
Dan kemudian, seperti yang saya duga, pagi hari tiba ketika saya menemukan situs saya diblokir di China. Itu telah berlangsung sekitar tiga bulan. Untuk mencapai situs setelah itu, pengguna harus menggunakan layanan tunneling VPN untuk mengunjungi situs. Ini tidak praktis bagi sebagian besar pengguna internet Cina.
Namun, pada hari yang sama saya merasa lega dan senang menemukan bahwa situs lain, freeweibo.com, menyediakan layanan yang persis sama, dan lebih canggih daripada yang saya buat. Proyek freeweibo.com sangat banyak akal. Ini aktif di media sosial, dan menyediakan berbagai cara untuk mengakses konten, seperti umpan RSS, langganan email, dan situs cermin untuk pengguna domestik. Bahkan memiliki aplikasi seluler! Saya tidak tahu siapa yang membangun situs ini, tetapi saya senang kami memiliki visi yang sama.
Kesimpulan
Berdasarkan keadaan, jelas bahwa situs saya tidak terlalu berguna lagi, dan saya menutupnya beberapa bulan kemudian.
Terlepas dari hasilnya, saya tidak merasa proyek itu sia-sia. Sebaliknya, itu adalah pengalaman yang luar biasa, meskipun hanya bertahan selama beberapa bulan. Itu membantu saya untuk sangat menghargai kenyataan di negara saya.
Di China, untuk menjalankan bisnis internet, Anda harus sangat berhati-hati dengan sensor, atau Anda akan mendapat masalah cepat atau lambat. Hampir tidak ada cara bagi situs media sosial untuk menjadi sukses jika mereka tidak mematuhi sensor ketat, dan kompromi pada privasi pengguna.
Memperbarui
Kode sumber freeweibo.me sekarang tersedia di GitHub di sini. Seperti yang dinyatakan di atas, kode sumber ini tidak terkait dengan situs web serupa freeweibo.com .