Penambangan Data untuk Analisis Jaringan Sosial Prediktif
Diterbitkan: 2022-03-11Jejaring sosial, dalam satu atau lain bentuk, telah ada sejak orang pertama kali mulai berinteraksi. Memang, menyatukan dua orang atau lebih dan Anda memiliki dasar jaringan sosial. Oleh karena itu tidak mengherankan bahwa, di dunia Internet-di mana-mana saat ini, jaringan sosial online telah menjadi sepenuhnya ada di mana-mana.
Dalam dunia jejaring sosial online ini, fenomena yang sangat menarik dalam dekade terakhir adalah ledakan pertumbuhan Twitter, yang sering digambarkan sebagai "SMS Internet". Diluncurkan pada tahun 2006, Twitter dengan cepat mendapatkan popularitas global dan telah menjadi salah satu dari sepuluh situs web yang paling banyak dikunjungi di dunia. Pada Mei 2015, Twitter memiliki 302 juta pengguna aktif yang secara kolektif memproduksi 500 juta Tweet per hari. Dan angka-angka ini terus bertambah.
Mengingat volume data media sosial yang sangat besar ini, para analis mulai mengenali Twitter sebagai harta karun virtual informasi untuk penggalian data, analisis jaringan sosial, dan informasi untuk merasakan tren opini publik dan gelombang dukungan untuk (atau oposisi) berbagai politik dan inisiatif sosial. Perusahaan ilmu data menemukan topik tren Twitter semakin berguna sebagai proxy yang berharga untuk mengukur opini publik.
Artikel ini menjelaskan teknik yang saya gunakan untuk pembuktian konsep yang secara efektif menganalisis Topik Tren Twitter untuk memprediksi, sebagai contoh kasus uji, pola pemungutan suara regional dalam pemilihan presiden Brasil 2014.
Pemilihan
Pemilihan umum presiden diadakan di Brasil pada tanggal 5 Oktober 2014. Tidak ada kandidat yang memperoleh lebih dari 50% suara, sehingga pemilihan putaran kedua diadakan pada tanggal 26 Oktober.
Di babak pertama, Dilma Rousseff (Partido dos Trabalhadores) meraih 41,6% suara, mengungguli Aecio Neves (Partido da Social Democracia Brasileira) dengan 33,6%, dan Marina Silva (Partido Socialista Brasileiro) dengan 21,3%. Rousseff dan Neves memperebutkan putaran kedua pada 26 Oktober dengan Rousseff terpilih kembali dengan selisih tipis, 51,6% berbanding 48,4% Neves. Analisis dalam artikel ini secara khusus berkaitan dengan pemilihan putaran kedua 26 Oktober.
Partido dos Trabalhadores (PT) adalah salah satu partai politik terbesar di Brasil. Ini adalah partai politik untuk presiden saat ini dan mantan presiden, Dilma Roussef dan Luis Inacio Lula da Silva. Partido da Social Democracia Brasileira (PSDB) adalah partai politik dari presiden sebelumnya Fernando Henrique Cardoso.
Penambangan Data dan Ekstraksi Data Topik Tren Twitter
Saya memulai penambangan data media sosial dengan mengekstrak data Topik Tren Twitter untuk 14 kota Brasil yang datanya dipasok melalui API Twitter, yaitu: Brasilia, Belem, Belo Horizonte, Curitiba, Porto Alegre, Recife, Rio de Janeiro, Salvador, Sao Paulo, Campinas, Fortaleza, Goiania, Manaus, dan Sao Luis.
Saya menanyakan API REST Twitter untuk mendapatkan 10 Topik Tren Twitter teratas untuk 14 kota ini dalam interval 20 menit (dibatasi oleh beberapa batasan yang dimiliki Twitter pada API-nya). Membatasi kueri ke 14 kota ini dilakukan dengan menentukan Yahoo! GeoPlanet WOEIDs (Di Mana Di Earth ID).
Untuk pembuktian konsep ini, saya menggunakan Python dan perpustakaan Twitter (secara cerdik disebut “twitter”) untuk mendapatkan semua data jaringan sosial untuk hari pemilihan putaran kedua (26 Oktober), serta dua hari sebelumnya (Oktober tanggal 24 dan 25). Untuk setiap hari, saya melakukan sekitar 70 kueri berbeda untuk membantu mengidentifikasi topik tren instan.
Di bawah ini adalah contoh objek JSON yang dikembalikan sebagai respons terhadap setiap kueri (contoh ini didasarkan pada kueri untuk data pada tanggal 26 Oktober pukul 12:40:00, dan hanya menampilkan data untuk Belo Horizonte).
[{"created_at": "2014-10-26T02:32:59Z", "trends": [{"url": "http://twitter.com/search?q=%23GolpeNoJN", "name": "#GolpeNoJN", "query": "%23GolpeNoJN", "promoted_content": null}, {"url": "http://twitter.com/search?q=%23SomosTodosDilma", "name": "#SomosTodosDilma", "query": "%23SomosTodosDilma", "promoted_content": null}, {"url": "http://twitter.com/search?q=%23EAecio45Confirma", "name": "#EAecio45Confirma", "query": "%23EAecio45Confirma", "promoted_content": null}, {"url": "http://twitter.com/search?q=Uilson", "name": "Uilson", "query": "Uilson", "promoted_content": null}, {"url": "http://twitter.com/search?q=%22Lucas+Silva%22", "name": "Lucas Silva", "query": "%22Lucas+Silva%22", "promoted_content": null}, {"url": "http://twitter.com/search?q=%22Marcelo+Oliveira%22", "name": "Marcelo Oliveira", "query": "%22Marcelo+Oliveira%22", "promoted_content": null}, {"url": "http://twitter.com/search?q=Cruzeiro", "name": "Cruzeiro", "query": "Cruzeiro", "promoted_content": null}, {"url": "http://twitter.com/search?q=Tupi", "name": "Tupi", "query": "Tupi", "promoted_content": null}, {"url": "http://twitter.com/search?q=%22Real+x+Bar%C3%A7a%22", "name": "Real x Bar\u00e7a", "query": "%22Real+x+Bar%C3%A7a%22", "promoted_content": null}, {"url": "http://twitter.com/search?q=Wanessa", "name": "Wanessa", "query": "Wanessa", "promoted_content": null} ], "as_of": "2014-10-26T02:40:03Z", "locations": [{"name": "Belo Horizonte", "woeid": 455821}] }]
Pengantar Singkat Analisis Jaringan Sosial
Teori Jaringan Sosial adalah studi tentang bagaimana orang, organisasi, atau kelompok berinteraksi dengan orang lain di dalam jaringan mereka. Ada tiga jenis utama jaringan sosial:
- Jaringan egosentris terhubung dengan satu simpul atau individu (misalnya, Anda dan semua teman dan kerabat Anda).
- Jaringan sosial-sentris adalah jaringan tertutup secara default. Dua contoh yang umum digunakan dari jenis jaringan ini adalah anak-anak di ruang kelas atau pekerja di dalam organisasi.
- Jaringan sistem terbuka adalah jaringan di mana garis batas tidak didefinisikan dengan jelas, yang membuat jenis jaringan ini biasanya paling sulit untuk dipelajari. Jenis jaringan sosial politik yang kami analisis dalam artikel ini adalah contoh jaringan sistem terbuka.
Jejaring sosial dianggap jaringan yang kompleks, karena menampilkan fitur topologi non-sepele, dengan pola koneksi antara elemen-elemennya yang tidak murni reguler atau acak murni.

Analisis jaringan sosial mengkaji struktur hubungan antara entitas sosial. Entitas ini sering kali berupa orang, tetapi bisa juga berupa kelompok sosial, organisasi politik, jaringan keuangan, penghuni komunitas, warga negara, dan sebagainya. Studi empiris jaringan telah memainkan peran sentral dalam ilmu sosial, dan banyak alat matematika dan statistik yang digunakan untuk mempelajari jaringan pertama kali dikembangkan dalam sosiologi.
Membangun Jaringan
Untuk membuat jaringan menggunakan Topik Tren Twitter, saya menetapkan aturan berikut:
- Setiap kota adalah vertex (yaitu, node) dalam jaringan.
- Jika setidaknya ada satu topik tren umum antara dua kota, ada keunggulan (yaitu, tautan) antara kota-kota tersebut.
- Setiap sisi diberi bobot sesuai dengan jumlah topik tren yang sama di antara kedua kota tersebut (yaitu, semakin banyak topik tren yang dimiliki dua kota, semakin berat bobot yang dikaitkan dengan hubungan di antara keduanya).
Misalnya, pada tanggal 26 Oktober, kota Fortaleza dan Campinas memiliki 11 topik tren yang sama, sehingga jaringan untuk hari itu mencakup keunggulan antara Fortaleza dan Campinas dengan bobot 11:
Selain itu, untuk membantu proses pembobotan hubungan antar kota, saya juga mempertimbangkan topik yang tidak terkait dengan pemilu itu sendiri (premisnya adalah bahwa kota yang memiliki prioritas dan kepentingan yang sama mungkin lebih cenderung memiliki kecenderungan politik yang sama. ).
Meskipun urutan topik tren berpotensi memiliki beberapa signifikansi untuk analisis, untuk tujuan penyederhanaan bukti konsep, saya memilih untuk mengabaikan urutan topik dalam daftar topik tren.
Topologi Jaringan
Topologi jaringan pada dasarnya adalah pengaturan berbagai elemen (link, node, dll) dari jaringan. Untuk jaringan sosial yang kami analisis, topologi jaringan tidak berubah secara dramatis selama 3 hari, karena node jaringan (yaitu, 14 kota) tetap. Namun, perbedaan dapat dideteksi dalam bobot tautan antar node, karena jumlah topik tren umum antar kota bervariasi selama 3 hari, seperti yang ditunjukkan pada perbandingan topologi jaringan di bawah pada Hari ke-24 vs. Hari ke-25.
Memprediksi Hasil Pemilu Menggunakan Data Trend Topic Twitter
Untuk membantu kami dalam memprediksi hasil pemilu, kami mempertimbangkan tidak hanya topik tren yang sama di antara kota-kota, tetapi juga bagaimana isi topik tersebut terkait dengan kemungkinan dukungan untuk masing-masing dari dua partai politik utama; yaitu, Partido dos Trabalhadores (PT) dan Partido da Social Democracia Brasileira (PSDB).
Pertama, saya membuat daftar kata dan frasa yang dianggap menunjukkan kecenderungan positif, atau dukungan untuk, salah satu pihak. (Mengisi daftar ini memang tugas yang sangat kompleks. Dalam konteks pembuktian konsep ini, saya sengaja mengambil pendekatan yang disederhanakan. Jika ada, ini membuat kaliber hasil menjadi lebih menarik, karena daftar istilah yang lebih disetel dan frase mungkin akan lebih meningkatkan akurasi hasil.)
Kemudian, untuk setiap node, saya menghitung:
- jumlah tautannya yang menyertakan istilah yang menunjukkan dukungan untuk PT
- jumlah tautannya yang menyertakan istilah yang menunjukkan dukungan untuk PSDB
Menggunakan kota Fortazela lagi sebagai contoh, saya berakhir dengan hitungan:
Fortaleza['PT'] = 56 Fortaleza['PDSB'] = 37
Dengan demikian kami menarik kesimpulan bahwa penduduk Fortaleza memiliki preferensi keseluruhan untuk Partido dos Trabalhadores (PT).
Hasil dan Kesimpulan
Berdasarkan algoritme ini, analisis menghasilkan hasil yang sangat mirip dengan hasil pemilihan yang sebenarnya, terutama jika kita mempertimbangkan kesederhanaan umum dari pendekatan kami. Berikut perbandingan hasil prediksi berdasarkan data Twitter Trend Topic dibandingkan dengan hasil pemilu yang sebenarnya (merah digunakan untuk mewakili Partido dos Trabalhadores dan biru digunakan untuk mewakili Partido da Social Democracia Brasileira):
Peningkatan ketelitian ilmiah, serta algoritma dan metrik yang lebih canggih, tidak diragukan lagi akan meningkatkan hasil lebih jauh.
Berikut adalah beberapa metrik, misalnya, yang dapat digunakan untuk menyimpulkan kepentingan atau pengaruh node, yang pada gilirannya dapat menginformasikan jenis analisis prediktif yang dijelaskan dalam artikel ini:
Sentralitas simpul. Ada banyak ukuran sentralitas node yang dapat digunakan untuk membantu mengidentifikasi node yang paling penting atau berpengaruh dalam jaringan. Sentralitas antara, misalnya, menganggap sebuah simpul sangat penting jika ia membentuk jembatan antara banyak simpul lainnya. Sentralitas nilai eigen, di sisi lain, mendasarkan pentingnya sebuah node pada jumlah node lain yang sangat penting yang terhubung dengannya.
Koefisien pengelompokan. Koefisien pengelompokan sebuah node mengukur sejauh mana "tetangga" sebuah node terhubung satu sama lain. Ini adalah ukuran lain yang dapat relevan untuk mengevaluasi tingkat pengaruh simpul yang diduga pada simpul tetangganya.
Sentralitas derajat. Derajat sentralitas didasarkan pada jumlah link (yaitu, koneksi) ke sebuah node. Ini adalah salah satu ukuran paling sederhana dari "signifikansi" sebuah node dalam jaringan.
Tetapi bahkan tanpa tingkat kecanggihan itu, hasil yang dicapai dengan bukti konsep sederhana ini memberikan demonstrasi menarik dari analisis prediktif yang efektif menggunakan data Twitter Trend Topic. Jelas ada potensi untuk mengambil analisis data media sosial lebih jauh di masa depan.
Bacaan Lebih Lanjut di Blog Teknik Toptal:
- Ilmu Data Grafik Dengan Python/NetworkX