Quatre pièges de la précision de l'analyse des sentiments

Publié: 2022-03-11

Les gens utilisent des forums, des réseaux sociaux, des blogs et d'autres plateformes pour partager leur opinion, générant ainsi une énorme quantité de données. Pendant ce temps, les utilisateurs ou les consommateurs veulent savoir quel produit acheter ou quel film regarder, alors ils lisent également les critiques et essaient de prendre leurs décisions en conséquence.

La collecte manuelle d'informations sur les données générées par l'utilisateur prend du temps. C'est pourquoi de plus en plus d'entreprises et d'organisations s'intéressent aux méthodes d'analyse automatique des sentiments pour les aider à le comprendre.

Qu'est-ce que l'analyse des sentiments ?

L'analyse des sentiments est le processus d'étude des opinions et des émotions des gens, généralement à l'aide d'indices linguistiques. À première vue, il ne s'agit que d'un problème de classification de texte, mais si nous approfondissons, nous découvrirons qu'il existe de nombreux problèmes difficiles qui affectent sérieusement la précision de l'analyse des sentiments. Ci-dessous, j'explorerai quelques pièges auxquels vous êtes confrontés en travaillant sur le problème général de l'analyse des sentiments :

Ironie et sarcasme
Types de négations
Ambiguïté des mots
Multipolarité

Nous passerons en revue chaque sujet et essaierons de comprendre comment les problèmes décrits affectent la qualité du classificateur de sentiment et quelles technologies peuvent être utilisées pour les résoudre.

Défi n° 1 de l'analyse des sentiments : détection du sarcasme

Dans un texte sarcastique, les gens expriment leurs sentiments négatifs en utilisant des mots positifs. Ce fait permet au sarcasme de tromper facilement les modèles d'analyse des sentiments à moins qu'ils ne soient spécifiquement conçus pour prendre en compte sa possibilité.

Le sarcasme se produit le plus souvent dans le contenu généré par les utilisateurs tels que les commentaires Facebook, les tweets, etc. La détection du sarcasme dans l'analyse des sentiments est très difficile à réaliser sans avoir une bonne compréhension du contexte de la situation, du sujet spécifique et de l'environnement.

Cela peut être difficile à comprendre non seulement pour une machine mais aussi pour un humain. La variation continue des mots utilisés dans les phrases sarcastiques rend difficile la formation réussie de modèles d'analyse des sentiments. Les sujets communs, les intérêts et les informations historiques doivent être partagés entre deux personnes pour rendre le sarcasme disponible.

Examinons d'abord le sarcasme du point de vue de la linguistique , où le sarcasme est largement étudié. Dans l'une des recherches les plus citées dans ce domaine, l'auteur Elisabeth Camp propose les quatre types de sarcasme suivants :

Propositionnel : le sarcasme semble être une proposition non sentimentale, mais implique un sentiment implicite.
Intégré : le sarcasme a une incongruité de sentiment intégrée sous la forme de mots et de phrases eux-mêmes.
Préfixe similaire : une phrase similaire fournit un démenti implicite de l'argument avancé.
Illocutionnaire : Actes non verbaux (langage corporel, gestes) contribuant au sarcasme.

Les quatre types de sarcasme d'Elisabeth Camp : Propositionnel ("Cela ressemble à un plan parfait !"), Intégré ("J'adore être ignorée"), Préfixé comme ("Comme ces gars croient un mot qu'ils disent") et Illocutionnaire "(hausse les épaules) Très utile en effet!".

La recherche de Camp a été publiée en 2012. En 2017, des chercheurs de l'Université de Stanford ont annoncé leur propre recherche assez intéressante "Avoir 2 heures pour écrire un article, c'est amusant!": Détecter le sarcasme dans les portions numériques du texte où ils ont parlé d'un autre type de sarcasme appelé numérique sarcasme . Le sarcasme numérique est très fréquent dans les réseaux sociaux. L'idée sous-jacente est liée aux changements de valeurs numériques qui affectent ensuite la polarité du texte. Par exemple:

"Ce téléphone dispose d'une batterie de secours impressionnante de 38 heures." (Non sarcastique)
"Ce téléphone dispose d'une batterie de secours impressionnante de 2 heures." (Sarcastique)

"Il fait +25 dehors et j'ai tellement chaud." (Non sarcastique)
"Il fait -25 dehors et j'ai tellement chaud." (Sarcastique)

"Nous avons roulé si lentement---seulement 20 km/h." (Non sarcastique)
"Nous avons roulé si lentement---seulement 160 km/h." (Sarcastique)

Comme nous pouvons le voir, ces phrases ne diffèrent que par le nombre utilisé - d'où le sarcasme numérique.

Il existe différentes approches pour la détection automatique du sarcasme, notamment :

Basé sur des règles
Statistique
Algorithmes d'apprentissage automatique
L'apprentissage en profondeur

Les approches basées sur le deep learning gagnent en popularité. Kumar, Somani et Bhattacharyya ont conclu en 2017 qu'un modèle particulier d'apprentissage en profondeur (l'architecture CNN-LSTM-FF) surpasse les approches précédentes, atteignant le plus haut niveau de précision pour la détection numérique du sarcasme.

Mais les réseaux de neurones profonds (DNN) n'étaient pas seulement les meilleurs pour le sarcasme numérique, ils surpassaient également les autres approches de détection de sarcasme en général. Ghosh et Veale dans leur article de 2016 utilisent une combinaison d'un réseau neuronal convolutif, d'un réseau de mémoire longue à court terme (LSTM) et d'un DNN. Ils comparent leur approche aux machines à vecteurs de support récursifs (SVM) et concluent que leur architecture d'apprentissage en profondeur est une amélioration par rapport à de telles approches.

Défi n°2 de l'analyse des sentiments : détection de la négation

En linguistique, la négation est un moyen d'inverser la polarité des mots, des phrases et même des phrases. Les chercheurs utilisent différentes règles linguistiques pour identifier si la négation se produit, mais il est également important de déterminer la gamme de mots qui sont affectés par les mots de négation.

Il n'y a pas de taille fixe pour la portée des mots affectés. Par exemple, dans la phrase "Le spectacle n'était pas intéressant", la portée n'est que le mot suivant après le mot de négation. Mais pour des phrases comme "Je n'appelle pas ce film une comédie", l'effet du mot de négation "non" est jusqu'à la fin de la phrase. Le sens original des mots change si un mot positif ou négatif tombe dans le champ de la négation - dans ce cas, la polarité opposée sera renvoyée.

L'approche la plus simple pour traiter la négation dans une phrase, qui est utilisée dans la plupart des techniques d'analyse des sentiments de pointe, consiste à marquer comme étant niés tous les mots d'un signal de négation au jeton de ponctuation suivant. L'efficacité du modèle de négation peut être modifiée en raison de la construction spécifique du langage dans différents contextes.

Il existe plusieurs formes pour exprimer une opinion négative dans des phrases :

La négation peut être morphologique où elle est soit désignée par un préfixe (« dis- », « non- ») ou un suffixe (« -moins »).
La négation peut être implicite, comme dans "avec cet acte, ce sera son premier et son dernier film" - elle porte un sentiment négatif, mais aucun mot négatif n'est utilisé.
La négation peut être explicite, comme dans "ce n'est pas bon".

Avoir des échantillons avec différents types de négations décrites augmentera la qualité d'un ensemble de données pour la formation et le test de modèles de classification des sentiments au sein de la négation. Selon les dernières recherches sur les réseaux de neurones récurrents (RNN), diverses architectures de modèles LSTM surpassent toutes les autres approches dans la détection des types de négations dans les phrases.

Dans l'article Effect of Negation in Sentiment Analysis, un modèle d'analyse des sentiments a évalué 500 avis recueillis auprès d'Amazon et de Trustedreviews.com. Les auteurs montrent une comparaison des modèles avec et sans détection de négation. Leur évaluation démontre comment la négation peut augmenter de manière significative la précision d'un modèle.

Défi n° 3 de l'analyse des sentiments : l'ambiguïté des mots

L'ambiguïté des mots est un autre écueil auquel vous serez confronté en travaillant sur un problème d'analyse des sentiments. Le problème de l'ambiguïté des mots est l'impossibilité de définir la polarité à l'avance car la polarité de certains mots dépend fortement du contexte de la phrase.

Les approches d'analyse des sentiments basées sur le lexique sont populaires parmi les méthodes existantes. Un lexique d'opinion contient des mots d'opinion avec leur valeur de polarité. Certains lexiques d'opinion publique sont disponibles sur Internet : SentiWordNet, General Inquirer et SenticNet, entre autres. Parce que la polarité des mots varie dans différents domaines, il est impossible de développer un lexique d'opinion universel qui ait une polarité pour chaque mot. Par exemple:

"L'histoire est imprévisible."
"Le volant est imprévisible."

Ces deux exemples montrent comment le contexte affecte le sentiment du mot d'opinion. Dans le premier exemple, la polarité du mot "imprévisible" est prédite comme positive. Dans le second, la polarité du même mot est négative.

Défi n°4 de l'analyse des sentiments : la multipolarité

Parfois, une phrase ou un document donné - ou n'importe quelle unité de texte que nous aimerions analyser - présentera une multipolarité. Dans ces cas, n'avoir que le résultat total de l'analyse peut être trompeur, tout comme la façon dont une moyenne peut parfois cacher des informations précieuses sur tous les chiffres qui y sont entrés.

Imaginez quand les auteurs parlent de différentes personnes, produits ou entreprises (ou de leurs aspects) dans un article ou une revue. Il est courant que dans un texte, certains sujets soient critiqués et d'autres loués.

Ici, la polarité totale du sentiment manquera d'informations clés. C'est pourquoi il est nécessaire d'extraire toutes les entités ou aspects de la phrase avec des étiquettes de sentiment attribuées et de ne calculer la polarité totale que si nécessaire.

Prenons un exemple composé de plusieurs polarités : "La qualité audio de mon nouvel ordinateur portable est tellement cool, mais les couleurs de l'écran ne sont pas trop bonnes."

Certains modèles d'analyse des sentiments attribueront une polarité négative ou neutre à cette phrase. Pour faire face à de telles situations, un modèle d'analyse des sentiments doit attribuer une polarité à chaque aspect de la phrase ; ici, "audio" est un aspect assigné à une polarité positive et "affichage" est un aspect séparé avec une polarité négative.

Pour une description plus approfondie de cette approche, je recommande l'article intéressant et utile Deep Learning for Aspect-based Sentiment Analysis par Bo Wanf et Min Liu de l'Université de Stanford.

Améliorer la précision de l'analyse des sentiments : ce ne sont pas des cas extrêmes

Dans cet article, nous avons parlé des problèmes populaires de classification de l'analyse des sentiments : sarcasme, négations, ambiguïté des mots et multipolarité. Connaître chacun de ces éléments vous aidera à éviter d'éventuels problèmes : la prise en compte des situations dont nous avons discuté augmentera considérablement la précision de l'analyse des sentiments dans un modèle de classification. J'espère que vous avez trouvé cet article une introduction utile au sujet.

En relation : Tirer le meilleur parti des modèles pré-formés