Empat Perangkap Akurasi Analisis Sentimen

Diterbitkan: 2022-03-11

Orang-orang menggunakan forum, jejaring sosial, blog, dan platform lain untuk membagikan pendapat mereka, sehingga menghasilkan sejumlah besar data. Sementara itu, pengguna atau konsumen ingin mengetahui produk mana yang akan dibeli atau film yang akan ditonton, sehingga mereka juga membaca ulasan dan mencoba mengambil keputusan yang sesuai.

Mengumpulkan informasi tentang data yang dibuat pengguna secara manual memakan waktu. Itulah mengapa semakin banyak perusahaan dan organisasi yang tertarik dengan metode analisis sentimen otomatis untuk membantu mereka memahaminya.

Apa itu Analisis Sentimen?

Analisis sentimen adalah proses mempelajari opini dan emosi orang, umumnya menggunakan petunjuk bahasa. Sepintas, ini hanya masalah klasifikasi teks, tetapi jika kita menyelam lebih dalam, kita akan menemukan bahwa ada banyak masalah yang menantang yang secara serius mempengaruhi akurasi analisis sentimen. Di bawah ini, saya akan menjelajahi beberapa jebakan yang Anda hadapi saat mengerjakan masalah analisis sentimen umum:

  1. Ironi dan sarkasme
  2. Jenis-jenis negasi
  3. Ambiguitas kata
  4. Multipolaritas

Kami akan membahas setiap topik dan mencoba memahami bagaimana masalah yang dijelaskan memengaruhi kualitas pengklasifikasi sentimen dan teknologi mana yang dapat digunakan untuk menyelesaikannya.

Tantangan Analisis Sentimen No. 1: Deteksi Sarkasme

Dalam teks sarkastik, orang mengekspresikan sentimen negatif mereka menggunakan kata-kata positif. Fakta ini memungkinkan sarkasme untuk dengan mudah menipu model analisis sentimen kecuali jika mereka secara khusus dirancang untuk memperhitungkan kemungkinannya.

Sarkasme paling sering terjadi pada konten yang dibuat pengguna seperti komentar Facebook, tweet, dll. Deteksi sarkasme dalam analisis sentimen sangat sulit dilakukan tanpa pemahaman yang baik tentang konteks situasi, topik spesifik, dan lingkungan.

Mungkin sulit untuk memahami tidak hanya untuk mesin tetapi juga untuk manusia. Variasi terus menerus dalam kata-kata yang digunakan dalam kalimat sarkastik membuat sulit untuk berhasil melatih model analisis sentimen. Topik umum, minat, dan informasi sejarah harus dibagi antara dua orang untuk membuat sarkasme tersedia.

Pertama, mari kita lihat sarkasme dari perspektif linguistik , di mana sarkasme dipelajari secara luas. Dalam salah satu penelitian yang paling banyak dikutip di bidang ini, penulis Elisabeth Camp mengusulkan empat jenis sarkasme berikut:

  • Proposisional: Sarkasme tampaknya merupakan proposisi non-sentimen tetapi memiliki sentimen implisit yang terlibat.
  • Tertanam: Sarkasme memiliki ketidaksesuaian sentimen yang tertanam dalam bentuk kata dan frasa itu sendiri.
  • Awalan suka: Frasa serupa memberikan penolakan tersirat dari argumen yang dibuat.
  • Ilokusi: Tindakan non-ucapan (bahasa tubuh, gerak tubuh) berkontribusi pada sarkasme.

Empat jenis sarkasme Elisabeth Camp: Proposisional ("Ini tampak seperti rencana yang sempurna!"), Tertanam ("Saya suka diabaikan."), Awalan suka ("Seperti orang-orang itu percaya kata yang mereka katakan."), dan Ilokusi "(mengangkat bahu) Sangat membantu!".

Penelitian Camp diterbitkan pada tahun 2012. Pada tahun 2017, para peneliti dari Universitas Stanford mengumumkan penelitian mereka yang cukup menarik "Memiliki 2 jam untuk menulis makalah itu menyenangkan!": Mendeteksi Sarkasme dalam Porsi Numerik Teks di mana mereka berbicara tentang jenis sarkasme lain yang disebut numerik sarkasme . Sarkasme numerik sangat sering terjadi di jejaring sosial. Gagasan di baliknya terkait dengan perubahan nilai numerik yang kemudian memengaruhi polaritas teks. Sebagai contoh:

  1. "Ponsel ini memiliki cadangan baterai yang luar biasa selama 38 jam." (Tidak sarkastik)
  2. "Ponsel ini memiliki cadangan baterai yang luar biasa selama 2 jam." (Sarkastik)
  1. "Di luar +25 dan aku sangat kepanasan." (Tidak sarkastik)
  2. "Ini -25 di luar dan aku sangat panas." (Sarkastik)
  1. "Kami melaju sangat lambat --- hanya 20 km/jam." (Tidak sarkastik)
  2. "Kami melaju sangat lambat --- hanya 160 km/jam." (Sarkastik)

Seperti yang bisa kita lihat, kalimat-kalimat ini hanya berbeda dalam jumlah yang digunakan—oleh karena itu, sarkasme numerik.

Ada berbagai pendekatan untuk deteksi sarkasme otomatis, termasuk:

  1. Berbasis aturan
  2. Statistik
  3. Algoritma pembelajaran mesin
  4. Pembelajaran mendalam

Pendekatan berdasarkan pembelajaran mendalam semakin populer. Kumar, Somani, dan Bhattacharyya menyimpulkan pada tahun 2017 bahwa model pembelajaran mendalam tertentu (arsitektur CNN-LSTM-FF) mengungguli pendekatan sebelumnya, mencapai tingkat akurasi tertinggi untuk deteksi sarkasme numerik.

Tetapi jaringan saraf dalam (DNN) tidak hanya yang terbaik untuk sarkasme numerik — mereka juga mengungguli pendekatan detektor sarkasme lainnya secara umum. Ghosh dan Veale dalam makalah 2016 mereka menggunakan kombinasi jaringan saraf convolutional, jaringan memori jangka pendek (LSTM), dan DNN. Mereka membandingkan pendekatan mereka dengan mesin vektor dukungan rekursif (SVM) dan menyimpulkan bahwa arsitektur pembelajaran mendalam mereka merupakan peningkatan dari pendekatan semacam itu.

Tantangan Analisis Sentimen No. 2: Deteksi Negasi

Dalam linguistik, negasi adalah cara membalikkan polaritas kata, frasa, dan bahkan kalimat. Peneliti menggunakan aturan linguistik yang berbeda untuk mengidentifikasi apakah negasi terjadi, tetapi juga penting untuk menentukan rentang kata yang dipengaruhi oleh kata negasi.

Tidak ada ukuran tetap untuk cakupan kata yang terpengaruh. Misalnya, dalam kalimat “Pertunjukan itu tidak menarik”, cakupannya hanya kata berikutnya setelah kata negasi. Namun untuk kalimat seperti “Saya tidak menyebut film ini sebagai film komedi”, efek negasi dari kata “tidak” adalah sampai akhir kalimat. Arti asli dari kata tersebut berubah jika kata positif atau negatif termasuk dalam lingkup negasi—dalam hal ini, polaritas yang berlawanan akan dikembalikan.

Pendekatan paling sederhana untuk menangani negasi dalam sebuah kalimat, yang digunakan di sebagian besar teknik analisis sentimen mutakhir, adalah menandai sebagai negasi semua kata dari isyarat negasi ke tanda baca berikutnya. Efektivitas model negasi dapat diubah karena konstruksi bahasa yang spesifik dalam konteks yang berbeda.

Ada beberapa bentuk untuk menyatakan opini negatif dalam kalimat:

  • Negasi dapat bersifat morfologis di mana ia dilambangkan dengan awalan (“dis-”, “non-”) atau akhiran (“-kurang”).
  • Negasi bisa tersirat, seperti dalam "dengan tindakan ini, ini akan menjadi film pertama dan terakhirnya"—ini membawa sentimen negatif, tetapi tidak ada kata negatif yang digunakan.
  • Negasi bisa eksplisit, seperti dalam "ini tidak baik."

Memiliki sampel dengan berbagai jenis negasi yang dijelaskan akan meningkatkan kualitas kumpulan data untuk melatih dan menguji model klasifikasi sentimen dalam negasi. Menurut penelitian terbaru tentang jaringan saraf berulang (RNNs), berbagai arsitektur model LSTM mengungguli semua pendekatan lain dalam mendeteksi jenis negasi dalam kalimat.

Dalam makalah Effect of Negation in Sentiment Analysis, model analisis sentimen mengevaluasi 500 ulasan yang dikumpulkan dari Amazon dan Trustedreviews.com. Penulis menunjukkan perbandingan model dengan dan tanpa deteksi negasi. Evaluasi mereka menunjukkan bagaimana mempertimbangkan negasi dapat secara signifikan meningkatkan akurasi model.

Tantangan Analisis Sentimen No. 3: Ambiguitas Kata

Ambiguitas kata adalah perangkap lain yang akan Anda hadapi saat mengerjakan masalah analisis sentimen. Masalah ambiguitas kata adalah ketidakmungkinan untuk mendefinisikan polaritas terlebih dahulu karena polaritas untuk beberapa kata sangat tergantung pada konteks kalimat.

Pendekatan analisis sentimen berbasis leksikon populer di antara metode yang ada. Sebuah leksikon opini berisi kata-kata opini dengan nilai polaritasnya. Ada beberapa leksikon opini publik yang tersedia di internet: SentiWordNet, General Inquirer, dan SenticNet, antara lain. Karena polaritas kata bervariasi dalam domain yang berbeda, tidak mungkin untuk mengembangkan leksikon opini universal yang memiliki polaritas untuk setiap kata. Sebagai contoh:

  1. "Ceritanya tidak bisa diprediksi."
  2. "Roda kemudi tidak dapat diprediksi."

Kedua contoh ini menunjukkan bagaimana konteks mempengaruhi sentimen kata opini. Pada contoh pertama, kata polaritas "tidak dapat diprediksi" diprediksi sebagai positif. Dalam yang kedua, polaritas kata yang sama adalah negatif.

Tantangan Analisis Sentimen No. 4: Multipolaritas

Terkadang, kalimat atau dokumen tertentu—atau unit teks apa pun yang ingin kita analisis—akan menunjukkan multipolaritas. Dalam kasus ini, hanya memiliki total hasil analisis dapat menyesatkan, sangat mirip dengan bagaimana rata-rata terkadang dapat menyembunyikan informasi berharga tentang semua angka yang masuk ke dalamnya.

Bayangkan ketika penulis berbicara tentang orang, produk, atau perusahaan yang berbeda (atau aspeknya) dalam sebuah artikel atau ulasan. Sudah umum bahwa dalam sebuah teks, beberapa subjek akan dikritik dan beberapa dipuji.

Di sini, polaritas sentimen total akan kehilangan informasi penting. Inilah sebabnya mengapa perlu untuk mengekstrak semua entitas atau aspek dalam kalimat dengan label sentimen yang ditetapkan dan hanya menghitung polaritas total jika diperlukan.

Mari kita pertimbangkan contoh yang terdiri dari beberapa polaritas: “Kualitas audio laptop baru saya sangat keren tetapi warna tampilannya tidak terlalu bagus.”

Beberapa model analisis sentimen akan menetapkan polaritas negatif atau netral pada kalimat ini. Untuk menghadapi situasi seperti itu, model analisis sentimen harus menetapkan polaritas untuk setiap aspek dalam kalimat; di sini, "audio" adalah aspek yang diberi polaritas positif dan "tampilan" adalah aspek terpisah dengan polaritas negatif.

Untuk deskripsi yang lebih mendalam tentang pendekatan ini, saya merekomendasikan makalah yang menarik dan bermanfaat Deep Learning for Aspect-based Sentiment Analysis oleh Bo Wanf dan Min Liu dari Stanford University.

Meningkatkan Akurasi Analisis Sentimen: Ini Bukan Kasus Tepian

Dalam artikel ini, kita berbicara tentang masalah populer klasifikasi analisis sentimen: sarkasme, negasi, ambiguitas kata, dan multipolaritas. Mengetahui tentang masing-masing akan membantu Anda menghindari kemungkinan masalah: Mempertimbangkan situasi yang telah kita diskusikan akan secara signifikan meningkatkan akurasi analisis sentimen dalam model klasifikasi. Saya harap Anda menemukan artikel ini sebagai pengantar topik yang bermanfaat.

Terkait: Mendapatkan Hasil Maksimal dari Model Pra-terlatih