Tahmine Dayalı Sosyal Ağ Analizi için Veri Madenciliği

Yayınlanan: 2022-03-11

Sosyal ağlar, şu veya bu şekilde, insanlar etkileşime girmeye başladığından beri var olmuştur. Gerçekten de, iki veya daha fazla kişiyi bir araya getirdiğinizde bir sosyal ağın temeline sahip olursunuz. Bu nedenle, günümüzün İnternet dünyasında, her yerde çevrimiçi sosyal ağların tamamen her yerde olması şaşırtıcı değildir.

Bu çevrimiçi sosyal ağlar dünyasında, geçtiğimiz on yılın özellikle büyüleyici bir fenomeni, genellikle “İnternet'in SMS'si” olarak tanımlanan Twitter'ın patlayıcı büyümesi olmuştur. 2006 yılında piyasaya sürülen Twitter, hızla küresel popülerlik kazandı ve dünyanın en çok ziyaret edilen on web sitesinden biri haline geldi. Mayıs 2015 itibariyle Twitter, toplu olarak günde 500 milyon Tweet üreten 302 milyon aktif kullanıcıya sahiptir. Ve bu sayılar sürekli artıyor.

Bu muazzam sosyal medya verisi hacmi göz önüne alındığında, analistler Twitter'ı veri madenciliği, sosyal ağ analizi ve kamuoyu eğilimlerini algılamak için bilgi için sanal bir bilgi hazinesi ve çeşitli siyasi ve sosyal girişimler. Veri bilimi şirketleri, kamuoyunu ölçmek için değerli bir vekil olarak giderek daha yararlı olan Twitter trend konularını buluyor.

sosyal ağ analizi ve veri madenciliği

Bu makale, 2014 Brezilya cumhurbaşkanlığı seçimlerinde örnek bir test vakası olarak bölgesel oylama modellerini tahmin etmek için Twitter Trend Konularını etkili bir şekilde analiz eden bir kavram kanıtı için kullandığım teknikleri açıklamaktadır.

Seçim

Brezilya'da 5 Ekim 2014'te genel cumhurbaşkanlığı seçimleri yapıldı. Hiçbir aday oyların %50'sinden fazlasını alamadı, bu nedenle 26 Ekim'de ikinci bir ikinci tur seçimleri yapıldı.

İlk turda Dilma Rousseff (Partido dos Trabalhadores) oyların %41,6'sını alırken, Aecio Neves (Partido da Social Democracia Brasileira) %33,6 ve Marina Silva (Partido Socialista Brasileiro) %21,3 oy aldı. Rousseff ve Neves, 26 Ekim'deki ikinci turda Rousseff'in dar bir farkla, %51,6'sını Neves'in %48,4'üne karşı yeniden seçilmesiyle itiraz ettiler. Bu makaledeki analiz özellikle 26 Ekim ikinci tur seçimleriyle ilgilidir.

Partido dos Trabalhadores (PT), Brezilya'daki en büyük siyasi partilerden biridir. Mevcut ve eski cumhurbaşkanları Dilma Roussef ve Luis Inacio Lula da Silva'nın siyasi partisidir. Partido da Social Democracia Brasileira (PSDB), önceki cumhurbaşkanı Fernando Henrique Cardoso'nun siyasi partisidir.

Veri Madenciliği ve Twitter Trend Konu Verilerini Çıkarma

Sosyal medya veri madenciliğine, verileri Twitter API aracılığıyla sağlanan 14 Brezilya şehri için Twitter Trend Konusu verilerini çıkararak başladım, yani: Brasilia, Belem, Belo Horizonte, Curitiba, Porto Alegre, Recife, Rio de Janeiro, Salvador, Sao Paulo, Campinas, Fortaleza, Goiania, Manaus ve Sao Luis.

Bu 14 şehir için 20 dakikalık aralıklarla en iyi 10 Twitter Trend Konusunu almak için Twitter REST API'sini sorguladım (Twitter'ın API'sinde sahip olduğu bazı kısıtlamalarla sınırlıdır). Sorguyu bu 14 şehirle sınırlamak, onların Yahoo! GeoPlanet WOEID'leri (Nerede Dünya Kimlikleri).

Bu kavram kanıtı için, ikinci tur seçim günü (26 Ekim) ve iki gün öncesi (Ekim) için tüm sosyal ağ verilerini almak için Python ve bir Twitter kütüphanesini (akıllıca "twitter" olarak adlandırılır) kullandım. 24 ve 25). Anlık trend konularını belirlemeye yardımcı olmak için her gün için yaklaşık 70 farklı sorgu gerçekleştirdim.

Aşağıda, her sorguya yanıt olarak döndürülen JSON nesnesinin bir örneği bulunmaktadır (bu örnek, 26 Ekim saat 12:40:00'da veri sorgusuna dayanmaktadır ve yalnızca Belo Horizonte verilerini göstermektedir).

 [{"created_at": "2014-10-26T02:32:59Z", "trends": [{"url": "http://twitter.com/search?q=%23GolpeNoJN", "name": "#GolpeNoJN", "query": "%23GolpeNoJN", "promoted_content": null}, {"url": "http://twitter.com/search?q=%23SomosTodosDilma", "name": "#SomosTodosDilma", "query": "%23SomosTodosDilma", "promoted_content": null}, {"url": "http://twitter.com/search?q=%23EAecio45Confirma", "name": "#EAecio45Confirma", "query": "%23EAecio45Confirma", "promoted_content": null}, {"url": "http://twitter.com/search?q=Uilson", "name": "Uilson", "query": "Uilson", "promoted_content": null}, {"url": "http://twitter.com/search?q=%22Lucas+Silva%22", "name": "Lucas Silva", "query": "%22Lucas+Silva%22", "promoted_content": null}, {"url": "http://twitter.com/search?q=%22Marcelo+Oliveira%22", "name": "Marcelo Oliveira", "query": "%22Marcelo+Oliveira%22", "promoted_content": null}, {"url": "http://twitter.com/search?q=Cruzeiro", "name": "Cruzeiro", "query": "Cruzeiro", "promoted_content": null}, {"url": "http://twitter.com/search?q=Tupi", "name": "Tupi", "query": "Tupi", "promoted_content": null}, {"url": "http://twitter.com/search?q=%22Real+x+Bar%C3%A7a%22", "name": "Real x Bar\u00e7a", "query": "%22Real+x+Bar%C3%A7a%22", "promoted_content": null}, {"url": "http://twitter.com/search?q=Wanessa", "name": "Wanessa", "query": "Wanessa", "promoted_content": null} ], "as_of": "2014-10-26T02:40:03Z", "locations": [{"name": "Belo Horizonte", "woeid": 455821}] }]

Sosyal Ağ Analizine Kısa Giriş

Sosyal Ağ Teorisi, insanların, kuruluşların veya grupların ağları içindeki diğer kişilerle nasıl etkileşime girdiğinin incelenmesidir. Üç temel sosyal ağ türü vardır:

  • Benmerkezci ağlar , tek bir düğüm veya kişi ile bağlantılıdır (örneğin, siz ve tüm arkadaşlarınız ve akrabalarınız).
  • Sosyo-merkezli ağlar , varsayılan olarak kapalı ağlardır. Bu tür ağların yaygın olarak kullanılan iki örneği, sınıftaki çocuklar veya bir kuruluştaki çalışanlardır.
  • Açık sistem ağları , sınır çizgilerinin net bir şekilde tanımlanmadığı ağlardır, bu da bu ağ türünü tipik olarak çalışılması en zor hale getirir. Bu makalede incelediğimiz sosyo-politik ağ türü, açık sistem ağının bir örneğidir.

Sosyal ağlar, öğeleri arasında ne tamamen düzenli ne de tamamen rastgele olmayan bağlantı kalıpları ile önemsiz olmayan topolojik özellikler sergiledikleri için karmaşık ağlar olarak kabul edilir.

Sosyal ağ analizi, sosyal varlıklar arasındaki ilişkilerin yapısını inceler. Bu varlıklar genellikle insanlardır, ancak aynı zamanda sosyal gruplar, siyasi kuruluşlar, finansal ağlar, bir topluluğun sakinleri, bir ülkenin vatandaşları vb. Ağların deneysel olarak incelenmesi sosyal bilimlerde merkezi bir rol oynamıştır ve ağları incelemek için kullanılan matematiksel ve istatistiksel araçların çoğu ilk olarak sosyolojide geliştirilmiştir.

Ağın Kurulması

Twitter Trend Konularını kullanarak bir ağ oluşturmak için aşağıdaki kuralları tanımladım:

  • Her şehir ağda bir tepe noktasıdır (yani düğüm).
  • İki şehir arasında en az bir ortak trend konusu varsa, bu şehirler arasında bir kenar (yani bağlantı) vardır.
  • Her kenar, bu iki şehir arasındaki ortak trend konularının sayısına göre ağırlıklandırılır (yani, iki şehrin ortak yönü ne kadar fazlaysa, aralarındaki bağlantıya verilen ağırlık o kadar ağır olur).

Örneğin, 26 Ekim'de Fortaleza ve Campinas şehirlerinin ortak 11 trend konusu vardı, bu nedenle o güne ait ağ, Fortaleza ve Campinas arasında 11 ağırlıkla bir avantaj içeriyor:

Sosyal ağ oluşturma süreci resimli

Ek olarak, şehirler arasındaki ilişkilerin ağırlıklandırılması sürecine yardımcı olmak için, seçimin kendisiyle ilgili olmayan konuları da dikkate aldım (öncelik, diğer ortak öncelikleri ve çıkarları paylaşan şehirlerin aynı siyasi eğilimleri paylaşmaya daha meyilli olabileceğidir). ).

Trend konularının sırası potansiyel olarak analiz için bir miktar öneme sahip olsa da, kavram kanıtını basitleştirmek amacıyla, trend konu listesindeki konuların sırasını göz ardı etmeyi seçtim.

Ağ topolojisi

Ağ topolojisi, esasen bir ağın çeşitli öğelerinin (bağlantılar, düğümler, vb.) düzenlenmesidir. Analiz ettiğimiz sosyal ağ için, ağ düğümleri (yani 14 şehir) sabit kaldığından, ağ topolojisi 3 gün boyunca önemli ölçüde değişmez. Bununla birlikte, ağ topolojisinin aşağıdaki 24. Gün ve 25. Gün karşılaştırmasında gösterildiği gibi, şehirler arasındaki ortak trend konularının sayısı 3 gün boyunca değiştiğinden düğümler arasındaki bağlantıların ağırlıklarında farklılıklar tespit edilebilir.

Sosyal ağ topolojisi resimli

Twitter Trend Konu Verilerini Kullanarak Seçim Sonuçlarını Tahmin Etme

Seçim sonuçlarını tahmin etmemize yardımcı olmak için, yalnızca şehirler arasındaki ortak trend konularını değil, aynı zamanda bu konuların içeriğinin iki ana siyasi partinin her biri için olası destekle nasıl ilişkili olduğunu da dikkate alıyoruz; yani, Partido dos Trabalhadores (PT) ve Partido da Social Democracia Brasileira (PSDB).

İlk olarak, taraflardan birine yönelik olumlu bir eğilimi veya desteği gösterdiği algılanan bir kelime ve deyim listesi oluşturdum. (Bu listeyi doldurmak kuşkusuz oldukça karmaşık bir iştir. Bu kavram kanıtı bağlamında, kasıtlı olarak basitleştirilmiş bir yaklaşım benimsedim. Bir şey varsa, bu, daha yüksek ayarlanmış bir terim listesi nedeniyle sonuçların kalibresini daha da ilgi çekici kılıyor. ve ifadeler muhtemelen sonuçların doğruluğunu daha da artıracaktır.)

Ardından, her düğüm için şunları sayıyorum:

  • PT için destek belirten terimleri içeren bağlantılarının sayısı
  • PSDB desteğini belirten terimleri içeren bağlantılarının sayısı

Örnek olarak yine Fortazela şehrini kullanarak, aşağıdaki sayıları elde ettim:

 Fortaleza['PT'] = 56 Fortaleza['PDSB'] = 37

Böylece, Fortaleza sakinlerinin genel olarak Partido dos Trabalhadores'i (PT) tercih ettikleri sonucuna varıyoruz.

Sonuçlar ve Sonuçlar

Bu algoritmaya dayanarak, analiz, özellikle yaklaşımımızın genel basitliği göz önüne alındığında, gerçek seçim sonuçlarına şaşırtıcı derecede benzer sonuçlar verir. Gerçek seçim sonuçlarıyla karşılaştırıldığında Twitter Trend Topic verilerine dayalı tahmine dayalı sonuçların karşılaştırmasını burada bulabilirsiniz (kırmızı, Partido dos Trabalhadores'i temsil etmek için kullanılır ve mavi, Partido da Social Democracia Brasileira'yı temsil etmek için kullanılır):

sosyal ağ analizi ve veri madenciliği

Gelişmiş bilimsel titizliğin yanı sıra daha karmaşık algoritmalar ve ölçümler, kuşkusuz sonuçları daha da iyileştirecektir.

Örneğin, bir düğümün önemini veya etkisini anlamak için kullanılabilecek ve bu makalede açıklanan tahmine dayalı analiz türünü bilgilendirebilecek birkaç ölçüm aşağıda verilmiştir:

  • Düğüm merkeziliği. Bir ağdaki en önemli veya etkili düğümleri belirlemeye yardımcı olmak için kullanılabilecek çok sayıda düğüm merkezilik önlemi mevcuttur. Örneğin, arasındalık merkeziliği, diğer birçok düğüm arasında köprüler oluşturuyorsa, bir düğümü oldukça önemli kabul eder. Öte yandan özdeğer merkeziliği, bir düğümün önemini, ona bağlanan diğer oldukça önemli düğümlerin sayısına dayandırır.

  • Kümelenme katsayısı. Bir düğümün kümelenme katsayısı, bir düğümün “komşularının” birbirine ne ölçüde bağlı olduğunu ölçer. Bu, bir düğümün komşu düğümleri üzerindeki varsayılan etki derecesini değerlendirmekle ilgili olabilecek başka bir ölçüdür.

  • Derece merkeziliği. Derece merkeziliği, bir düğüme olan bağlantıların (yani bağlantıların) sayısına dayanır. Bu, bir ağ içindeki bir düğümün “öneminin” en basit ölçülerinden biridir.

Ancak bu düzeyde gelişmişlik olmasa bile, bu basit kavram kanıtıyla elde edilen sonuçlar, Twitter Trend Topic verilerini kullanarak etkili tahmine dayalı analizin ikna edici bir gösterimini sağladı. Açıkça, sosyal medya veri analizini gelecekte daha da ileri götürme potansiyeli var.


Toptal Mühendislik Blogunda Daha Fazla Okuma:

  • Python/NetworkX ile Grafik Veri Bilimi