Quattro insidie ​​dell'accuratezza dell'analisi del sentimento

Pubblicato: 2022-03-11

Le persone utilizzano forum, social network, blog e altre piattaforme per condividere le proprie opinioni, generando così un'enorme quantità di dati. Nel frattempo, gli utenti o i consumatori vogliono sapere quale prodotto acquistare o quale film guardare, quindi leggono anche le recensioni e cercano di prendere le decisioni di conseguenza.

La raccolta manuale di informazioni sui dati generati dagli utenti richiede molto tempo. Ecco perché sempre più aziende e organizzazioni sono interessate a metodi di analisi automatica del sentimento per aiutarli a capirlo.

Che cos'è l'analisi del sentimento?

L'analisi del sentimento è il processo di studio delle opinioni e delle emozioni delle persone, generalmente utilizzando indizi linguistici. A prima vista, è solo un problema di classificazione del testo, ma se ci addentriamo più a fondo, scopriremo che ci sono molti problemi impegnativi che influiscono seriamente sull'accuratezza dell'analisi del sentimento. Di seguito, esplorerò alcune insidie ​​che devi affrontare lavorando sul problema generale dell'analisi del sentimento:

  1. Ironia e sarcasmo
  2. Tipi di negazioni
  3. Ambiguità di parole
  4. Multipolarità

Analizzeremo ogni argomento e cercheremo di capire in che modo i problemi descritti influiscono sulla qualità del classificatore di sentimenti e quali tecnologie possono essere utilizzate per risolverli.

Sfida di analisi del sentimento n. 1: rilevamento del sarcasmo

Nel testo sarcastico, le persone esprimono i loro sentimenti negativi usando parole positive. Questo fatto consente al sarcasmo di ingannare facilmente i modelli di analisi del sentimento a meno che non siano specificamente progettati per tener conto delle sue possibilità.

Il sarcasmo si verifica più spesso nei contenuti generati dagli utenti come commenti di Facebook, tweet, ecc. Il rilevamento del sarcasmo nell'analisi del sentimento è molto difficile da realizzare senza una buona comprensione del contesto della situazione, dell'argomento specifico e dell'ambiente.

Può essere difficile da capire non solo per una macchina ma anche per un essere umano. La continua variazione delle parole usate nelle frasi sarcastiche rende difficile addestrare con successo modelli di analisi del sentimento. Argomenti, interessi e informazioni storiche comuni devono essere condivisi tra due persone per rendere disponibile il sarcasmo.

Per prima cosa, diamo un'occhiata al sarcasmo dal punto di vista della linguistica , dove il sarcasmo è ampiamente studiato. In una delle ricerche più citate in questo campo, l'autrice Elisabeth Camp propone i seguenti quattro tipi di sarcasmo:

  • Proposizionale: il sarcasmo sembra essere una proposta non sentimentale, ma implica un sentimento implicito.
  • Incorporato: il sarcasmo ha un'incongruenza di sentimenti incorporata nella forma delle parole e delle frasi stesse.
  • Prefisso simile: una frase simile fornisce una negazione implicita dell'argomento addotto.
  • Illocutorio: atti non linguistici (linguaggio del corpo, gesti) che contribuiscono al sarcasmo.

I quattro tipi di sarcasmo di Elisabeth Camp: Proposizionale ("Sembra un piano perfetto!"), Incorporato ("Adoro essere ignorato."), Con prefisso ("Come quei ragazzi credono a una parola che dicono.") e Illocutivo "(alza le spalle) Davvero molto utile!".

La ricerca di Camp è stata pubblicata nel 2012. Nel 2017, i ricercatori della Stanford University hanno annunciato la loro ricerca piuttosto interessante "Avere 2 ore per scrivere un articolo è divertente!": Detecting Sarcasm in Numerical Portions of Text dove hanno parlato di un altro tipo di sarcasmo chiamato numerico sarcasmo . Il sarcasmo numerico è molto frequente nei social network. L'idea alla base è legata ai cambiamenti nei valori numerici che poi influiscono sulla polarità del testo. Per esempio:

  1. "Questo telefono ha un'incredibile batteria di backup di 38 ore." (Non sarcastico)
  2. "Questo telefono ha un'incredibile batteria di backup di 2 ore." (Sarcastico)
  1. "C'è +25 fuori e io sono così caldo." (Non sarcastico)
  2. "Ci sono -25 fuori e sono così caldo." (Sarcastico)
  1. "Abbiamo guidato così lentamente, solo 20 km/h." (Non sarcastico)
  2. "Abbiamo guidato così lentamente, solo 160 km/h." (Sarcastico)

Come possiamo vedere, queste frasi differiscono solo per il numero utilizzato, da qui il sarcasmo numerico.

Esistono diversi approcci per il rilevamento automatico del sarcasmo, tra cui:

  1. Basato su regole
  2. Statistico
  3. Algoritmi di apprendimento automatico
  4. Apprendimento approfondito

Gli approcci basati sul deep learning stanno guadagnando popolarità. Kumar, Somani e Bhattacharyya hanno concluso nel 2017 che un particolare modello di apprendimento profondo (l'architettura CNN-LSTM-FF) supera gli approcci precedenti, raggiungendo il più alto livello di accuratezza per il rilevamento del sarcasmo numerico.

Ma le reti neurali profonde (DNN) non erano solo le migliori per il sarcasmo numerico, ma hanno anche superato gli altri approcci di rilevamento del sarcasmo in generale. Ghosh e Veale nel loro articolo del 2016 utilizzano una combinazione di una rete neurale convoluzionale, una rete di memoria a lungo termine (LSTM) e un DNN. Confrontano il loro approccio con le macchine vettoriali di supporto ricorsive (SVM) e concludono che la loro architettura di deep learning è un miglioramento rispetto a tali approcci.

Sfida di analisi del sentimento n. 2: rilevamento della negazione

In linguistica, la negazione è un modo per invertire la polarità di parole, frasi e persino frasi. I ricercatori utilizzano regole linguistiche diverse per identificare se si sta verificando una negazione, ma è anche importante determinare l'intervallo delle parole che sono interessate dalle parole di negazione.

Non esiste una dimensione fissa per l'ambito delle parole interessate. Ad esempio, nella frase "Lo spettacolo non era interessante", lo scopo è solo la parola successiva dopo la parola di negazione. Ma per frasi come "Non chiamo questo film una commedia", l'effetto della parola di negazione "non" è fino alla fine della frase. Il significato originale delle parole cambia se una parola positiva o negativa rientra nell'ambito della negazione, in tal caso verrà restituita la polarità opposta.

L'approccio più semplice per affrontare la negazione in una frase, utilizzato nella maggior parte delle tecniche di analisi del sentimento all'avanguardia, è contrassegnare come negate tutte le parole da un segnale di negazione al successivo segno di punteggiatura. L'efficacia del modello di negazione può essere modificata a causa della specifica costruzione del linguaggio in diversi contesti.

Esistono diverse forme per esprimere un'opinione negativa nelle frasi:

  • La negazione può essere morfologica quando è denotata da un prefisso ("dis-", "non-") o da un suffisso ("-less").
  • La negazione può essere implicita, come in "con questo atto, sarà il suo primo e ultimo film": porta un sentimento negativo, ma non vengono usate parole negative.
  • La negazione può essere esplicita, come in "questo non va bene".

Avere campioni con diversi tipi di negazioni descritte aumenterà la qualità di un set di dati per l'addestramento e il test dei modelli di classificazione del sentimento all'interno della negazione. Secondo l'ultima ricerca sulle reti neurali ricorrenti (RNN), varie architetture di modelli LSTM superano tutti gli altri approcci nel rilevare i tipi di negazioni nelle frasi.

Nel documento Effect of Negation in Sentiment Analysis, un modello di analisi del sentiment ha valutato 500 recensioni raccolte da Amazon e Trustedreviews.com. Gli autori mostrano un confronto dei modelli con e senza rilevamento della negazione. La loro valutazione dimostra come considerare la negazione può aumentare significativamente l'accuratezza di un modello.

Sfida di analisi del sentimento n. 3: ambiguità delle parole

L'ambiguità delle parole è un'altra trappola che dovrai affrontare lavorando su un problema di analisi del sentimento. Il problema dell'ambiguità delle parole è l'impossibilità di definire in anticipo la polarità perché la polarità di alcune parole dipende fortemente dal contesto della frase.

Gli approcci di analisi del sentimento basati sul lessico sono popolari tra i metodi esistenti. Un lessico di opinione contiene parole di opinione con il loro valore di polarità. Ci sono alcuni lessici dell'opinione pubblica disponibili su Internet: SentiWordNet, General Inquirer e SenticNet, tra gli altri. Poiché la polarità delle parole varia in diversi domini, è impossibile sviluppare un lessico di opinione universale che abbia una polarità per ogni parola. Per esempio:

  1. “La storia è imprevedibile”.
  2. “Il volante è imprevedibile.”

Questi due esempi mostrano come il contesto influenzi il sentimento delle parole di opinione. Nel primo esempio, la parola polarità di “imprevedibile” è prevista come positiva. Nella seconda, la polarità della stessa parola è negativa.

Sfida di analisi del sentimento n. 4: multipolarità

A volte, una determinata frase o documento, o qualsiasi unità di testo che vorremmo analizzare, mostrerà multipolarità. In questi casi, avere solo il risultato totale dell'analisi può essere fuorviante, proprio come una media a volte può nascondere informazioni preziose su tutti i numeri che sono entrati in essa.

Immagine quando gli autori parlano di persone, prodotti o aziende (o aspetti di essi) diversi in un articolo o in una recensione. È comune che all'interno di un pezzo di testo alcuni argomenti vengano criticati e altri lodati.

Qui, la polarità totale del sentimento mancherà di informazioni chiave. Questo è il motivo per cui è necessario estrarre tutte le entità o aspetti nella frase con le etichette dei sentimenti assegnate e calcolare la polarità totale solo se necessario.

Consideriamo un esempio che consiste in più polarità: "La qualità audio del mio nuovo laptop è fantastica ma i colori del display non sono troppo buoni".

Alcuni modelli di analisi del sentimento assegneranno una polarità negativa o neutra a questa frase. Per affrontare tali situazioni, un modello di sentiment analysis deve assegnare una polarità a ciascun aspetto della frase; qui, "audio" è un aspetto assegnato a una polarità positiva e "visualizzazione" è un aspetto separato con una polarità negativa.

Per una descrizione più approfondita di questo approccio, consiglio l'interessante e utile documento Deep Learning for Aspect-based Sentiment Analysis di Bo Wanf e Min Liu della Stanford University.

Migliorare la precisione dell'analisi del sentimento: questi non sono casi limite

In questo articolo abbiamo parlato dei problemi più diffusi della classificazione dell'analisi del sentimento: sarcasmo, negazioni, ambiguità delle parole e multipolarità. Conoscere ciascuno di questi ti aiuterà a evitare possibili problemi: prendere in considerazione le situazioni che abbiamo discusso aumenterà significativamente la precisione dell'analisi del sentiment in un modello di classificazione. Spero che tu abbia trovato questo articolo un'utile introduzione all'argomento.

Correlati: ottenere il massimo dai modelli pre-addestrati