감정 분석 정확도의 4가지 함정

게시 됨: 2022-03-11

사람들은 포럼, 소셜 네트워크, 블로그 및 기타 플랫폼을 사용하여 의견을 공유함으로써 엄청난 양의 데이터를 생성합니다. 한편 사용자나 소비자는 어떤 제품을 살지, 어떤 영화를 볼지 알고 싶어하기 때문에 리뷰를 읽고 그에 따라 결정을 내리려고 합니다.

사용자 생성 데이터에 대한 정보를 수동으로 수집하는 것은 시간이 많이 걸립니다. 그렇기 때문에 점점 더 많은 회사와 조직에서 자동 감정 분석 방법을 이해하는 데 도움이 됩니다.

감정 분석이란 무엇입니까?

감정 분석은 일반적으로 언어 단서를 사용하여 사람들의 의견과 감정을 연구하는 과정입니다. 언뜻 보면 텍스트 분류 문제일 뿐이지만 더 깊이 파고들면 감정 분석 정확도에 심각한 영향을 미치는 도전적인 문제가 많다는 것을 알게 될 것입니다. 아래에서는 일반적인 감정 분석 문제를 해결할 때 직면하는 몇 가지 함정을 살펴보겠습니다.

아이러니와 풍자
부정의 유형
단어 모호성
다극성

우리는 각 주제를 살펴보고 설명된 문제가 감정 분류기 품질에 어떤 영향을 미치고 어떤 기술을 사용하여 문제를 해결할 수 있는지 이해하려고 노력할 것입니다.

감정 분석 과제 1: 풍자 감지

풍자적인 텍스트에서 사람들은 긍정적인 단어를 사용하여 부정적인 감정을 표현합니다. 이 사실은 풍자가 그 가능성을 고려하도록 특별히 설계되지 않은 한 감정 분석 모델을 쉽게 속이는 것을 허용합니다.

풍자는 Facebook 댓글, 트윗 등과 같은 사용자 생성 콘텐츠에서 가장 자주 발생합니다. 감정 분석에서 풍자 탐지는 상황, 특정 주제 및 환경의 맥락을 잘 이해하지 않고는 달성하기 매우 어렵습니다.

기계뿐만 아니라 사람에게도 이해하기 어려울 수 있습니다. 비꼬는 문장에 사용되는 단어의 지속적인 변화는 감정 분석 모델을 성공적으로 훈련하기 어렵게 만듭니다. 풍자를 사용하려면 두 사람이 공통 주제, 관심사 및 역사적 정보를 공유해야 합니다.

먼저 풍자가 널리 연구되고 있는 언어학 의 관점에서 풍자를 살펴보자. 이 분야에서 가장 많이 인용된 연구 중 하나에서 저자 Elisabeth Camp는 다음 네 가지 유형의 풍자를 제안합니다.

명제: 풍자는 감정이 없는 명제처럼 보이지만 내포된 감정이 관련되어 있습니다.
내재된: 풍자는 단어와 구 자체의 형태로 감정 불일치가 내재되어 있습니다.
Like-prefixed: 유사 문구는 주장의 묵시적 거부를 제공합니다.
비유적: 풍자에 기여하는 비언어적 행위(신체 언어, 몸짓).

Elisabeth Camp의 4가지 유형의 풍자: 명제("완벽한 계획처럼 보입니다!"), 포함("나는 무시당하는 것을 좋아합니다."), 접두사 유사("저 사람들이 한 말을 믿는 것처럼.") 및 Illocutionary "(어깨를 으쓱하며) 정말 도움이 많이 되었습니다!"

Camp의 연구는 2012년에 출판되었습니다. 2017년에 Stanford University의 연구원들은 "논문을 작성하는 데 2시간이 걸린다는 것은 재미있습니다!"라는 꽤 흥미로운 연구를 발표했습니다. 텍스트의 숫자 부분에서 풍자 감지하기에서 숫자 라고 하는 또 다른 유형의 풍자에 대해 이야기했습니다. 풍자 . 수치적 풍자는 소셜 네트워크에서 매우 자주 사용됩니다. 그 뒤에 숨겨진 아이디어는 텍스트 극성에 영향을 미치는 숫자 값의 변경과 관련이 있습니다. 예를 들어:

"이 전화기는 38시간 동안 백업되는 놀라운 배터리를 가지고 있습니다." (비꼬는 말 아님)
"이 전화기는 2시간 동안 백업되는 놀라운 배터리를 가지고 있습니다." (비꼬는)

"밖은 +25인데 너무 더워요." (비꼬는 말 아님)
"밖은 영하 25도인데 너무 더워요." (비꼬는)

"우리는 너무 천천히 운전했습니다. 단지 20km/h에 불과했습니다." (비꼬는 말 아님)
"우리는 너무 천천히 운전했습니다. 단지 160km/h에 불과했습니다." (비꼬는)

우리가 볼 수 있듯이, 이 문장은 사용된 숫자만 다릅니다. 따라서 수치적 풍자입니다.

자동 풍자 감지에는 다음과 같은 다양한 접근 방식이 있습니다.

규칙 기반
통계
기계 학습 알고리즘
딥러닝

딥 러닝을 기반으로 하는 접근 방식이 인기를 얻고 있습니다. Kumar, Somani 및 Bhattacharyya는 2017년에 특정 딥 러닝 모델(CNN-LSTM-FF 아키텍처)이 이전 접근 방식보다 성능이 뛰어나 수치적 풍자 탐지에 대한 최고 수준의 정확도에 도달했다고 결론지었습니다.

그러나 심층 신경망(DNN)은 수치적 풍자에 가장 적합할 뿐만 아니라 일반적으로 다른 풍자 감지기 접근 방식보다 성능이 뛰어났습니다. Ghosh와 Veale은 2016년 논문에서 합성곱 신경망, LSTM(장단기 기억 네트워크) 및 DNN의 조합을 사용합니다. 그들은 그들의 접근 방식을 재귀적 지원 벡터 머신(SVM)과 비교하고 딥 러닝 아키텍처가 이러한 접근 방식보다 개선된 것이라고 결론지었습니다.

감정 분석 과제 2: 부정 탐지

언어학에서 부정은 단어, 구 및 문장의 극성을 뒤집는 방법입니다. 연구원은 부정이 발생하는지 여부를 식별하기 위해 다양한 언어 규칙을 사용하지만 부정 단어의 영향을 받는 단어의 범위를 결정하는 것도 중요합니다.

영향을 받는 단어의 범위에는 고정된 크기가 없습니다. 예를 들어, “show was not interest”라는 문장에서 범위는 부정어 다음 단어일 뿐입니다. 그러나 "나는 이 영화를 코미디 영화라고 부르지 않는다"와 같은 문장의 경우, 부정어 "not"의 효과는 문장이 끝날 때까지입니다. 긍정 또는 부정의 단어가 부정의 범위에 포함되면 단어의 원래 의미가 변경되며, 이 경우 반대 극성이 반환됩니다.

대부분의 최첨단 감정 분석 기술에서 사용되는 문장의 부정을 처리하는 가장 간단한 방법은 부정 신호에서 다음 구두점 토큰까지 모든 단어를 부정으로 표시하는 것입니다. 부정 모델의 효과는 다른 맥락에서 언어의 특정 구성 때문에 변경될 수 있습니다.

문장에서 부정적인 의견을 표현하는 몇 가지 형식이 있습니다.

부정은 접두사("dis-", "non-") 또는 접미사("-less")로 표시되는 형태학적일 수 있습니다.
부정은 "이 행위로 그의 처음이자 마지막 영화가 될 것"과 같이 암시적일 수 있습니다. 부정적인 감정을 담고 있지만 부정적인 단어는 사용되지 않습니다.
부정은 "좋지 않다"에서와 같이 명시적일 수 있습니다.

설명된 부정의 유형이 다른 샘플을 사용하면 부정 내에서 감정 분류 모델을 훈련하고 테스트하기 위한 데이터 세트의 품질이 향상됩니다. 순환 신경망(RNN)에 대한 최신 연구에 따르면 LSTM 모델의 다양한 아키텍처는 문장에서 부정 유형을 감지하는 다른 모든 접근 방식을 능가합니다.

감정 분석에서 부정의 효과 페이퍼에서 감정 분석 모델은 Amazon 및 Trustedreviews.com에서 수집된 500개의 리뷰를 평가했습니다. 저자는 부정 탐지가 있는 모델과 없는 모델의 비교를 보여줍니다. 그들의 평가는 부정을 고려하는 것이 어떻게 모델의 정확도를 크게 높일 수 있는지 보여줍니다.

감정 분석 과제 3: 단어 모호성

단어 모호성은 감정 분석 문제를 해결하는 데 직면하게 될 또 다른 함정입니다. 단어 모호성의 문제는 일부 단어의 극성이 문장 맥락에 크게 의존하기 때문에 사전에 극성을 정의할 수 없다는 것입니다.

기존의 방법들 중에서 Lexicon 기반의 감성 분석 접근 방식이 인기를 얻고 있습니다. 의견 사전에는 극성 값이 있는 의견 단어가 포함됩니다. 인터넷에는 SentiWordNet, General Inquirer 및 SenticNet과 같은 여론 사전이 있습니다. 단어의 극성은 영역마다 다르기 때문에 모든 단어에 대한 극성을 갖는 보편적인 의견 어휘집을 개발하는 것은 불가능합니다. 예를 들어:

"스토리는 예측할 수 없습니다."
"스티어링 휠은 예측할 수 없습니다."

이 두 가지 예는 컨텍스트가 의견 단어 감정에 어떻게 영향을 미치는지 보여줍니다. 첫 번째 예에서 "unpredictable"이라는 단어의 극성은 긍정적으로 예측됩니다. 두 번째에서는 같은 단어의 극성이 음수입니다.

감정 분석 과제 4: 다극성

때로는 주어진 문장이나 문서, 또는 우리가 분석하고자 하는 텍스트 단위가 다극성을 보일 것입니다. 이러한 경우 분석의 전체 결과만 있으면 오도될 수 있습니다. 마치 평균이 데이터에 포함된 모든 숫자에 대한 귀중한 정보를 숨길 수 있는 것과 매우 흡사합니다.

작성자가 기사나 리뷰에서 다른 사람, 제품 또는 회사(또는 이들의 측면)에 대해 이야기할 때를 상상해 보세요. 텍스트 한 부분에서 어떤 주제는 비판을 받고 어떤 주제는 칭찬을 받는 것이 일반적입니다.

여기서 전체 감정 극성에는 주요 정보가 누락됩니다. 이것이 할당된 감정 레이블이 있는 문장의 모든 엔터티 또는 측면을 추출하고 필요한 경우에만 전체 극성을 계산해야 하는 이유입니다.

여러 극성으로 구성된 예를 살펴보겠습니다. "내 새 노트북의 오디오 품질은 매우 훌륭하지만 디스플레이 색상은 너무 좋지 않습니다."

일부 감정 분석 모델은 이 문장에 부정적 또는 중립적 극성을 할당합니다. 이러한 상황을 처리하기 위해 감정 분석 모델은 문장의 각 측면에 극성을 할당해야 합니다. 여기에서 "오디오"는 양극이 할당된 측면이고 "디스플레이"는 음극이 있는 별도의 측면입니다.

이 접근 방식에 대한 더 자세한 설명을 보려면 스탠포드 대학의 Bo Wanf와 Min Liu가 쓴 흥미롭고 유용한 Deep Learning for Aspect-based Sentiment Analysis 논문을 추천합니다.

감정 분석 정확도 향상: 이것은 엣지 케이스가 아닙니다.

이 기사에서 우리는 풍자, 부정, 단어 모호성 및 다중 극성과 같은 감정 분석 분류의 인기 있는 문제에 대해 이야기했습니다. 이들 각각에 대해 알면 가능한 문제를 피하는 데 도움이 됩니다. 우리가 논의한 상황을 고려하면 분류 모델에서 감정 분석 정확도가 크게 향상됩니다. 이 기사가 주제에 대한 유용한 소개였기를 바랍니다.

관련 항목: 사전 훈련된 모델 최대한 활용하기