Penambangan Data Twitter: Panduan untuk Analisis Data Besar Menggunakan Python
Diterbitkan: 2022-03-11Data besar ada di mana-mana. Periode. Dalam proses menjalankan bisnis yang sukses di zaman sekarang ini, kemungkinan besar Anda akan mengalaminya, suka atau tidak suka.
Apakah Anda seorang pengusaha yang mencoba mengejar ketinggalan zaman atau ahli coding yang mencari proyek berikutnya, tutorial ini akan memberi Anda gambaran singkat tentang apa itu data besar. Anda akan mempelajari bagaimana itu berlaku untuk Anda, dan bagaimana Anda bisa memulai dengan cepat melalui Twitter API dan Python.
Apa Itu BigData?
Data besar persis seperti yang terdengar—banyak data. Sendirian, satu titik data tidak dapat memberi Anda banyak wawasan. Tapi terabyte data, dikombinasikan bersama dengan model matematika yang kompleks dan kekuatan komputasi yang ramai, dapat menciptakan wawasan yang tidak mampu dihasilkan oleh manusia. Nilai yang diberikan oleh Big data Analytics untuk bisnis tidak berwujud dan melebihi kemampuan manusia setiap hari.
Langkah pertama untuk analitik data besar adalah mengumpulkan data itu sendiri. Ini dikenal sebagai "penambangan data." Data bisa datang dari mana saja. Sebagian besar bisnis berurusan dengan gigabyte data pengguna, produk, dan lokasi. Dalam tutorial ini, kita akan mengeksplorasi bagaimana kita bisa menggunakan teknik data mining untuk mengumpulkan data Twitter, yang bisa lebih berguna dari yang Anda kira.
Misalnya, katakanlah Anda menjalankan Facebook, dan ingin menggunakan data Messenger untuk memberikan wawasan tentang bagaimana Anda dapat beriklan dengan lebih baik kepada audiens Anda. Messenger memiliki 1,2 miliar pengguna aktif bulanan. Dalam hal ini, big data adalah percakapan antar pengguna. Jika Anda membaca percakapan setiap pengguna satu per satu, Anda akan dapat memahami dengan baik apa yang mereka sukai, dan dapat merekomendasikan produk yang sesuai kepada mereka. Menggunakan teknik pembelajaran mesin yang dikenal sebagai Natural Language Processing (NLP), Anda dapat melakukan ini dalam skala besar dengan seluruh proses otomatis dan diserahkan kepada mesin.
Ini hanyalah salah satu dari banyak contoh tentang bagaimana pembelajaran mesin dan analitik data besar dapat menambah nilai bagi perusahaan Anda.
Mengapa data Twitter?
Twitter adalah tambang emas data. Tidak seperti platform sosial lainnya, hampir setiap tweet pengguna sepenuhnya bersifat publik dan dapat ditarik. Ini adalah nilai tambah yang besar jika Anda mencoba mendapatkan data dalam jumlah besar untuk menjalankan analitik. Data Twitter juga cukup spesifik. API Twitter memungkinkan Anda melakukan kueri kompleks seperti menarik setiap tweet tentang topik tertentu dalam dua puluh menit terakhir, atau menarik tweet pengguna tertentu yang tidak di-retweet.
Aplikasi sederhana ini dapat menganalisis bagaimana perusahaan Anda diterima di masyarakat umum. Anda dapat mengumpulkan 2.000 tweet terakhir yang menyebutkan perusahaan Anda (atau istilah apa pun yang Anda suka), dan menjalankan algoritme analisis sentimen di atasnya.
Kami juga dapat menargetkan pengguna yang secara khusus tinggal di lokasi tertentu, yang dikenal sebagai data spasial. Aplikasi lain dari ini adalah untuk memetakan area di dunia di mana perusahaan Anda paling banyak disebutkan.
Seperti yang Anda lihat, data Twitter dapat menjadi pintu besar ke dalam wawasan masyarakat umum, dan bagaimana mereka menerima suatu topik. Itu, dikombinasikan dengan keterbukaan dan pembatasan tingkat yang murah hati dari API Twitter, dapat menghasilkan hasil yang kuat.
Ikhtisar Alat
Kami akan menggunakan Python 2.7 untuk contoh ini. Idealnya, Anda harus memiliki IDE untuk menulis kode ini. Saya akan menggunakan PyCharm - Edisi Komunitas.
Untuk terhubung ke API Twitter, kita akan menggunakan pustaka Python bernama Tweepy, yang akan kita instal sebentar lagi.
Mulai
Akun Pengembang Twitter
Untuk menggunakan API Twitter, kita harus membuat akun pengembang di situs aplikasi Twitter.
- Masuk atau buat akun Twitter di https://apps.twitter.com/.
- Buat aplikasi baru (tombol di kanan atas)
- Isi halaman pembuatan aplikasi dengan nama unik , nama situs web (gunakan situs web placeholder jika Anda tidak memilikinya), dan deskripsi proyek. Terima syarat dan ketentuan dan lanjutkan ke halaman berikutnya.
- Setelah proyek Anda dibuat, klik tab "Kunci dan Token Akses". Anda sekarang seharusnya dapat melihat rahasia konsumen dan kunci konsumen Anda.
- Anda juga memerlukan sepasang token akses. Gulir ke bawah dan minta token itu. Halaman harus disegarkan, dan Anda sekarang harus memiliki token akses dan rahasia token akses.
Kami akan membutuhkan semua ini nanti, jadi pastikan Anda tetap membuka tab ini.
Menginstal Tweepy
Tweepy adalah alat yang sangat didukung untuk mengakses API Twitter. Ini mendukung Python 2.6, 2.7, 3.3, 3.4, 3.5, dan 3.6. Ada beberapa cara berbeda untuk menginstal Tweepy. Cara termudah adalah menggunakan pip .
Menggunakan Pip
Cukup ketik pip install tweepy ke terminal Anda.
Menggunakan GitHub
Anda dapat mengikuti instruksi di repositori GitHub Tweepy. Langkah-langkah dasarnya adalah sebagai berikut:
git clone https://github.com/tweepy/tweepy.git cd tweepy python setup.py installAnda juga dapat memecahkan masalah instalasi di sana.
Otentikasi
Sekarang setelah kita memiliki alat yang diperlukan, kita dapat mulai membuat kode! Dasar dari setiap aplikasi yang akan kita bangun hari ini memerlukan penggunaan Tweepy untuk membuat objek API yang dapat kita panggil fungsi dengannya. Namun, untuk membuat objek API, pertama-tama kita harus mengotentikasi diri kita sendiri dengan informasi pengembang kita.
Pertama, mari impor Tweepy dan tambahkan informasi otentikasi kita sendiri.
import tweepy consumer_key = "wXXXXXXXXXXXXXXXXXXXXXXX1" consumer_secret = "qXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXh" access_token = "9XXXXXXXX-XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXi" access_token_secret = "kXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXT"Sekarang saatnya membuat objek API kita.
# Creating the authentication object auth = tweepy.OAuthHandler(consumer_key, consumer_secret) # Setting your access token and secret auth.set_access_token(access_token, access_token_secret) # Creating the API object while passing in auth information api = tweepy.API(auth)Ini akan menjadi dasar dari setiap aplikasi yang kami buat, jadi pastikan Anda tidak menghapusnya.
Contoh 1: Linimasa Anda
Dalam contoh ini, kami akan menarik sepuluh tweet terbaru dari umpan Twitter Anda. Kita akan melakukannya dengan menggunakan fungsi home_timeline() objek API. Kami kemudian dapat menyimpan hasilnya dalam sebuah variabel, dan mengulanginya untuk mencetak hasilnya.
# Using the API object to get tweets from your timeline, and storing it in a variable called public_tweets public_tweets = api.home_timeline() # foreach through all tweets pulled for tweet in public_tweets: # printing the text stored inside the tweet object print tweet.textHasilnya akan terlihat seperti sekumpulan tweet acak, diikuti oleh URL dari tweet itu sendiri.

Mengikuti tautan ke tweet akan sering membawa Anda ke tweet itu sendiri. Mengikuti tautan dari tweet pertama akan memberi kita hasil sebagai berikut:
Perhatikan bahwa jika Anda menjalankan ini melalui terminal dan bukan IDE seperti PyCharm, Anda mungkin mengalami beberapa masalah pemformatan saat mencoba mencetak teks tweet.
JSON di balik Hasil
Pada contoh di atas, kami mencetak teks dari setiap tweet menggunakan tweet.text . Untuk merujuk ke atribut spesifik dari setiap objek tweet, kita harus melihat JSON yang dikembalikan oleh API Twitter.
Hasil yang Anda terima dari Twitter API adalah dalam format JSON, dan memiliki cukup banyak informasi terlampir. Untuk mempermudah, tutorial ini terutama berfokus pada atribut “teks” dari setiap tweet, dan informasi tentang tweeter (pengguna yang membuat tweet). Untuk contoh di atas, Anda dapat melihat seluruh objek JSON yang dikembalikan di sini.
Berikut sekilas beberapa atribut yang ditawarkan tweet.
Jika Anda ingin menemukan tanggal tweet dibuat, Anda dapat menanyakannya dengan print tweet.created_at .
Anda juga dapat melihat bahwa setiap objek tweet dilengkapi dengan informasi tentang tweeter.
Untuk mendapatkan atribut “name” dan “location” dari tweeter, Anda dapat menjalankan print tweet.user.screen_name dan print tweet.user.location .
Perhatikan bahwa atribut ini bisa sangat berguna jika aplikasi Anda bergantung pada data spasial.
Contoh 2: Tweet dari Pengguna Tertentu
Dalam contoh ini, kami hanya akan menarik dua puluh tweet terbaru dari pengguna pilihan kami.
Pertama, kita akan memeriksa dokumentasi Tweepy untuk melihat apakah ada fungsi seperti itu. Dengan sedikit riset, kami menemukan bahwa fungsi user_timeline() adalah yang kami cari.
Kita dapat melihat bahwa fungsi user_timeline() memiliki beberapa parameter berguna yang dapat kita gunakan, khususnya id (ID pengguna) dan count (jumlah tweet yang ingin kita tarik). Perhatikan bahwa kami hanya dapat menarik tweet dalam jumlah terbatas per kueri karena batasan tarif Twitter.
Mari coba tarik dua puluh tweet terbaru dari akun twitter @NyTimes.
Kita dapat membuat variabel untuk menyimpan jumlah tweet yang ingin kita tarik (count), dan pengguna yang ingin kita tarik (name). Kami kemudian dapat memanggil fungsi user_timeline dengan dua parameter tersebut. Di bawah ini adalah kode yang diperbarui (perhatikan bahwa Anda harus menyimpan otentikasi dan pembuatan objek API di bagian atas kode Anda).
# Creating the API object while passing in auth information api = tweepy.API(auth) # The Twitter user who we want to get tweets from name = "nytimes" # Number of tweets to pull tweetCount = 20 # Calling the user_timeline function with our parameters results = api.user_timeline(id=name, count=tweetCount) # foreach through all tweets pulled for tweet in results: # printing the text stored inside the tweet object print tweet.textHasil kami akan terlihat seperti ini:
Aplikasi populer dari jenis data ini dapat mencakup:
- Menjalankan analisis pada pengguna tertentu, dan bagaimana mereka berinteraksi dengan dunia
- Menemukan influencer Twitter dan menganalisis tren dan interaksi pengikut mereka
- Memantau perubahan pengikut pengguna
Contoh 3: Menemukan Tweet Menggunakan Kata Kunci
Mari kita lakukan satu contoh terakhir: Mendapatkan tweet terbaru yang mengandung kata kunci. Ini bisa sangat berguna jika Anda ingin memantau topik yang disebutkan secara khusus di dunia Twitter, atau bahkan untuk melihat bagaimana bisnis Anda disebutkan. Katakanlah kita ingin melihat bagaimana Twitter menyebut Toptal.
Setelah melihat melalui dokumentasi Tweepy, fungsi search() tampaknya menjadi alat terbaik untuk mencapai tujuan kita.
Parameter terpenting di sini adalah q —parameter kueri, yang merupakan kata kunci yang kita cari.
Kami juga dapat mengatur parameter bahasa sehingga kami tidak mendapatkan tweet dari bahasa yang tidak diinginkan. Mari kita kembalikan tweet bahasa Inggris (“en”) saja.
Kita sekarang dapat memodifikasi kode kita untuk mencerminkan perubahan yang ingin kita buat. Kami pertama-tama membuat variabel untuk menyimpan parameter kami (kueri dan bahasa), dan kemudian memanggil fungsi melalui objek API. Mari kita juga mencetak nama layar, dari pengguna yang membuat tweet, di loop kita.
# Creating the API object while passing in auth information api = tweepy.API(auth) # The search term you want to find query = "Toptal" # Language code (follows ISO 639-1 standards) language = "en" # Calling the user_timeline function with our parameters results = api.search(q=query, lang=language) # foreach through all tweets pulled for tweet in results: # printing the text stored inside the tweet object print tweet.user.screen_name,"Tweeted:",tweet.textHasil kami akan terlihat seperti ini:
Berikut adalah beberapa cara praktis Anda dapat menggunakan informasi ini:
- Buat grafik spasial di mana perusahaan Anda paling banyak disebutkan di seluruh dunia
- Jalankan analisis sentimen pada tweet untuk melihat apakah opini keseluruhan perusahaan Anda positif atau negatif
- Buat grafik sosial dari pengguna paling populer yang menge-tweet tentang perusahaan atau produk Anda
Kami dapat membahas beberapa topik ini di artikel mendatang.
Kesimpulan
API Twitter sangat berguna dalam aplikasi penambangan data, dan dapat memberikan wawasan luas tentang opini publik. Jika API Twitter dan analitik data besar adalah sesuatu yang Anda minati lebih lanjut, saya mendorong Anda untuk membaca lebih lanjut tentang API Twitter, Tweepy, dan pedoman Pembatasan Tarif Twitter.
Kami hanya membahas dasar-dasar mengakses dan menarik. API Twitter dapat dimanfaatkan dalam masalah data besar yang sangat kompleks, yang melibatkan orang, tren, dan grafik sosial yang terlalu rumit untuk dipahami oleh pikiran manusia sendiri.
