Quatro Armadilhas da Precisão da Análise de Sentimentos

Publicados: 2022-03-11

As pessoas estão usando fóruns, redes sociais, blogs e outras plataformas para compartilhar sua opinião, gerando assim uma enorme quantidade de dados. Enquanto isso, usuários ou consumidores querem saber qual produto comprar ou qual filme assistir, então eles também leem críticas e tentam tomar suas decisões de acordo.

A coleta manual de informações sobre dados gerados pelo usuário é demorada. É por isso que cada vez mais empresas e organizações estão interessadas em métodos automáticos de análise de sentimentos para ajudá-los a entendê-los.

O que é análise de sentimento?

A análise de sentimentos é o processo de estudar as opiniões e emoções das pessoas, geralmente usando pistas de linguagem. À primeira vista, é apenas um problema de classificação de texto, mas se mergulharmos mais fundo, descobriremos que existem muitos problemas desafiadores que afetam seriamente a precisão da análise de sentimentos. Abaixo, explorarei algumas armadilhas que você enfrenta ao trabalhar no problema geral de análise de sentimentos:

Ironia e sarcasmo
Tipos de negações
Ambiguidade da palavra
Multipolaridade

Passaremos por cada tópico e tentaremos entender como os problemas descritos afetam a qualidade do classificador de sentimentos e quais tecnologias podem ser usadas para resolvê-los.

Desafio de análise de sentimentos nº 1: detecção de sarcasmo

No texto sarcástico, as pessoas expressam seus sentimentos negativos usando palavras positivas. Esse fato permite que o sarcasmo engane facilmente os modelos de análise de sentimentos, a menos que sejam projetados especificamente para levar em consideração sua possibilidade.

O sarcasmo ocorre com mais frequência em conteúdo gerado pelo usuário, como comentários no Facebook, tweets, etc. A detecção de sarcasmo na análise de sentimentos é muito difícil de ser realizada sem uma boa compreensão do contexto da situação, do tópico específico e do ambiente.

Pode ser difícil de entender não apenas para uma máquina, mas também para um ser humano. A variação contínua nas palavras usadas em frases sarcásticas dificulta o treinamento bem-sucedido de modelos de análise de sentimentos. Tópicos comuns, interesses e informações históricas devem ser compartilhados entre duas pessoas para tornar o sarcasmo disponível.

Primeiro, vamos olhar para o sarcasmo da perspectiva da linguística , onde o sarcasmo é amplamente estudado. Em uma das pesquisas mais citadas neste campo, a autora Elisabeth Camp propõe os seguintes quatro tipos de sarcasmo:

Proposicional: O sarcasmo parece ser uma proposição não sentimental, mas tem um sentimento implícito envolvido.
Embutido: O sarcasmo tem uma incongruência de sentimento embutido na forma de palavras e frases em si.
Com prefixo semelhante: Uma frase semelhante fornece uma negação implícita do argumento que está sendo feito.
Ilocucionário: Atos não verbais (linguagem corporal, gestos) que contribuem para o sarcasmo.

Os quatro tipos de sarcasmo de Elisabeth Camp: Proposicional ("Isso parece um plano perfeito!"), Incorporado ("Adoro ser ignorado."), Prefixado como ("Como esses caras acreditam em uma palavra que dizem") e Ilocucionário "(encolhe os ombros) Muito útil mesmo!".

A pesquisa de Camp foi publicada em 2012. Em 2017, pesquisadores da Universidade de Stanford anunciaram sua própria pesquisa bastante interessante “Ter 2 horas para escrever um artigo é divertido!”: Detecting Sarcasm in Numerical Portions of Text, onde falaram sobre outro tipo de sarcasmo chamado numérico sarcasmo . O sarcasmo numérico é muito frequente nas redes sociais. A ideia por trás disso está relacionada a mudanças nos valores numéricos que afetam a polaridade do texto. Por exemplo:

"Este telefone tem uma incrível autonomia de bateria de 38 horas." (Não sarcástico)
"Este telefone tem um incrível backup de bateria de 2 horas." (Sarcástico)

"Está +25 lá fora e eu estou tão quente." (Não sarcástico)
"Está -25 lá fora e eu estou tão quente." (Sarcástico)

"Nós dirigimos tão devagar --- apenas 20 km/h." (Não sarcástico)
"Nós dirigimos tão devagar --- apenas 160 km/h." (Sarcástico)

Como podemos ver, essas frases diferem apenas no número usado – portanto, sarcasmo numérico.

Existem diferentes abordagens para detecção automática de sarcasmo, incluindo:

Baseado em regras
Estatística
Algoritmos de aprendizado de máquina
Aprendizado profundo

Abordagens baseadas em aprendizado profundo estão ganhando popularidade. Kumar, Somani e Bhattacharyya concluíram em 2017 que um modelo de aprendizado profundo específico (a arquitetura CNN-LSTM-FF) supera as abordagens anteriores, atingindo o mais alto nível de precisão para detecção numérica de sarcasmo.

Mas as redes neurais profundas (DNNs) não foram apenas as melhores para o sarcasmo numérico – elas também superaram outras abordagens de detectores de sarcasmo em geral. Ghosh e Veale em seu artigo de 2016 usam uma combinação de uma rede neural convolucional, uma rede de memória de longo prazo (LSTM) e um DNN. Eles comparam sua abordagem com máquinas de vetor de suporte recursivas (SVMs) e concluem que sua arquitetura de aprendizado profundo é uma melhoria em relação a essas abordagens.

Desafio de análise de sentimentos nº 2: detecção de negação

Na linguística, a negação é uma maneira de inverter a polaridade das palavras, frases e até frases. Os pesquisadores usam diferentes regras linguísticas para identificar se a negação está ocorrendo, mas também é importante determinar o alcance das palavras que são afetadas por palavras de negação.

Não há tamanho fixo para o escopo das palavras afetadas. Por exemplo, na frase “O show não foi interessante”, o escopo é apenas a próxima palavra após a palavra de negação. Mas para frases como “Eu não chamo este filme de filme de comédia”, o efeito da palavra de negação “não” é até o final da frase. O significado original das palavras muda se uma palavra positiva ou negativa estiver dentro do escopo da negação - nesse caso, a polaridade oposta será retornada.

A abordagem mais simples para lidar com a negação em uma frase, que é usada na maioria das técnicas de análise de sentimentos de última geração, é marcar como negadas todas as palavras de uma sugestão de negação até o próximo token de pontuação. A eficácia do modelo de negação pode ser alterada devido à construção específica da linguagem em diferentes contextos.

Existem várias formas de expressar uma opinião negativa em frases:

A negação pode ser morfológica onde é denotada por um prefixo (“dis-”, “non-”) ou um sufixo (“-less”).
A negação pode estar implícita, como em “com este ato, será seu primeiro e último filme” – carrega um sentimento negativo, mas nenhuma palavra negativa é usada.
A negação pode ser explícita, como em “isso não é bom”.

Ter amostras com diferentes tipos de negações descritas aumentará a qualidade de um conjunto de dados para treinar e testar modelos de classificação de sentimentos dentro da negação. De acordo com as pesquisas mais recentes sobre redes neurais recorrentes (RNNs), várias arquiteturas de modelos LSTM superam todas as outras abordagens na detecção de tipos de negações em sentenças.

No artigo Effect of Negation in Sentiment Analysis, um modelo de análise de sentimento avaliou 500 avaliações coletadas da Amazon e Trustedreviews.com. Os autores mostram uma comparação dos modelos com e sem detecção de negação. Sua avaliação demonstra como considerar a negação pode aumentar significativamente a precisão de um modelo.

Desafio de análise de sentimentos nº 3: ambiguidade de palavras

A ambiguidade de palavras é outra armadilha que você enfrentará ao trabalhar em um problema de análise de sentimentos. O problema da ambiguidade das palavras é a impossibilidade de definir antecipadamente a polaridade porque a polaridade de algumas palavras é fortemente dependente do contexto da frase.

As abordagens de análise de sentimentos baseadas em léxico são populares entre os métodos existentes. Um léxico de opinião contém palavras de opinião com seu valor de polaridade. Existem alguns léxicos de opinião pública disponíveis na internet: SentiWordNet, General Inquirer e SenticNet, entre outros. Como a polaridade das palavras varia em diferentes domínios, é impossível desenvolver um léxico de opinião universal que tenha uma polaridade para cada palavra. Por exemplo:

“A história é imprevisível.”
“O volante é imprevisível.”

Esses dois exemplos mostram como o contexto afeta o sentimento da palavra de opinião. No primeiro exemplo, a polaridade da palavra “imprevisível” é prevista como positiva. Na segunda, a polaridade da mesma palavra é negativa.

Desafio de Análise de Sentimentos Nº 4: Multipolaridade

Às vezes, uma determinada frase ou documento – ou qualquer unidade de texto que gostaríamos de analisar – exibirá multipolaridade. Nesses casos, ter apenas o resultado total da análise pode ser enganoso, assim como uma média às vezes pode ocultar informações valiosas sobre todos os números que entraram nela.

Imagine quando os autores falam sobre diferentes pessoas, produtos ou empresas (ou aspectos deles) em um artigo ou revisão. É comum que dentro de um texto alguns assuntos sejam criticados e outros elogiados.

Aqui, a polaridade total do sentimento estará faltando informações importantes. É por isso que é necessário extrair todas as entidades ou aspectos na frase com rótulos de sentimento atribuídos e apenas calcular a polaridade total se necessário.

Vamos considerar um exemplo que consiste em várias polaridades: “A qualidade do áudio do meu novo laptop é tão legal, mas as cores da tela não são muito boas”.

Alguns modelos de análise de sentimento atribuirão uma polaridade negativa ou neutra a essa frase. Para lidar com tais situações, um modelo de análise de sentimentos deve atribuir uma polaridade a cada aspecto da frase; aqui, “áudio” é um aspecto atribuído a uma polaridade positiva e “display” é um aspecto separado com uma polaridade negativa.

Para uma descrição mais detalhada dessa abordagem, recomendo o interessante e útil artigo Deep Learning for Aspect-based Sentiment Analysis de Bo Wanf e Min Liu da Stanford University.

Melhorando a precisão da análise de sentimentos: estes não são casos extremos

Neste artigo, falamos sobre problemas populares de classificação de análise de sentimentos: sarcasmo, negações, ambiguidade de palavras e multipolaridade. Conhecer cada um deles ajudará a evitar possíveis problemas: Levar em consideração as situações que discutimos aumentará significativamente a precisão da análise de sentimentos em um modelo de classificação. Espero que você tenha achado este artigo uma introdução útil ao tópico.

Relacionado: Obtendo o máximo de modelos pré-treinados