머신러닝 & 딥러닝/논문 리뷰

[ML 논문 공부 - 006] BERT 기반의 속성기반 감성분석을 활용한 다기준 영화 추천 모형

by seokii 2022. 4. 11.
728x90
반응형

이번에 읽고 공부하게 된 논문은

"BERT 기반의 속성기반 감성분석을 활용한 다기준 영화 추천 모형"

"Multicriteria Movie Recommendation Model Combining Aspect-based Sentiment Classification Using BERT" 입니다.

논문은 KCI를 통해 원문을 내려받을 수 있었습니다. (KCI링크 바로가기)

본 논문은 국민대학교의 이유린 연구원과 안현철 교수님이 한국컴퓨터정보학회에 등재하여 발간된 논문입니다.

 

해당 논문은 기존의 정량 데이터(평점 혹은 구매 여부)를 활용해 제공하던 추천 시스템의 한계를 벗어나 정성 데이터 또한 활용해 더욱 개인화된 추천을 제공하는 방법을 제안합니다.

방법론으로는 BERT 모델의 사용, 협업 필터링(Collaborative Filtering)의 한계와 극복하기 위한 속성 기반 감성분석(Aspect-Based Sentiment Analysis)을 제시합니다. 특히 명시적 속성뿐만 아니라 암시적 속성 분석 또한 집중해 다차원 정보를 선별적으로 선택하는 추천 시스템을 구축했다고 밝혔습니다.

Abstract

논문의 요약 부분입니다. 본 논문의 내용을 간단하게 잘 설명해주는 부분입니다.

본 논문에서는 영화 추천 분야에서 정량적 데이터인 평점뿐만 아니라 정성적 데이터인 사용자의 리뷰 또한 사용하는 영화 추천 모형을 제안합니다.

이를 위해 암시적 속성을 파악하고, BERT를 통한 감성 분석을 사용합니다.

구축한 모델을 검증하기 위해 실제 영화 추천 사례에 적용 또한 진행했다고 합니다.

 

Introduction

논문의 서론 부분입니다.

코로나19 사태로 비대면 거래에 대한 선호가 높아지고 온라인을 통한 거래 규모가 증가함에 따른 추천 서비스의 중요성을 강조합니다.

기존의 추천시스템 구현 기술에는 협업필터링이 있고 대부분의 경우 정량적인 데이터를 사용해서 시스템을 구축하지만, 그럴 경우 제대로 된 추천이 이루어지는 지에 대한 의문을 제기합니다.

이를 극복하기 위해서 정성 데이터를 이용하고 구현 가능한 ASBA(속성 기반 감성 분석), ACSC(속성 카테고리 감성분석)에 대한 기술 설명을 합니다.

마지막으로, 본 논문에서의 시스템 제안 방법과 논문 진행 구조에 대해서 설명합니다.

 

Related Work

1. BERT (Bidirectional Encoder Representations for Transformers)

자연어 처리 공부를 하면서 BERT 모델에 대한 내용은 반드시 공부해야 한다 생각하기 때문에,

BERT에 대한 내용에 대해 생소하다면, 논문 리뷰와 구글링을 통해 따로 공부하시는 것을 추천드립니다.

 

2. Collaborative Filtering

추천시스템에 사용되는 협업필터링에 대한 설명입니다.

협업필터링이란 이용자의 선호도 데이터에 기반해 목표 고객과 유사한 고객이 선호한 아이템을 해당 고객에게 추천하는 시스템입니다. 데이터를 기반으로 선호도와 유사도를 계산하는 방식을 취합니다.

협업필터링은 크게 두 가지(메모리 기반과 모델 기반)로 구분하며 이에 대한 설명은 논문에 잘 기재되어 있습니다. 

 

3. ASBA(Aspect-Based Sentiment Analysis)

일반적인 감성분석은 글의 전반적인 내용이 '긍정'인지 '부정'인지에 대한 평가를 진행합니다.

하지만 속성 기반 감성분석(ASBA)을 통해, 영화를 예로 들면 '스토리', '연출', '배우' 등을 키워드로 지정해 속성에 대한 감성을 정교하게 분석할 수 있다고 주장합니다.

또한 ASBA에 속성어 추출, 속성어 카테고리 감지, 속성어 감성 분류(ATSC), 속성 카테고리 감성분류(ACSC)의 네 가지 주요 영역이 존재하는데 이를 잘 설명해주고 있습니다.

 

4. Recommender Systems using Sentiment Analysis

인터넷 사용량, 소셜 네트워크 서비스의 사용량이 증가함에 따라 소비자들의 리뷰 데이터가 급증하게 되었으며, 리뷰 데이터에는 해당 상품에 대한 사용자가 가지고 있는 선호도에 대한 상세하고 신뢰할 수 있는 정보가 담겨 있다고 주장합니다. 그러나, 대부분의 감성분석 추천시스템의 연구를 보면 리뷰의 전반적인 감성분석 결과를 사용하기 때문에 리뷰에 담겨있는 암시적 속성에 대한 활용이 부족하다고 주장하며 위의 표를 제시합니다.

 

Proposed

1. Basic Models

본 논문의 연구에서는 영화 리뷰에 대한 감성 속성을 배우(Actor), 연출(Directing), 스토리(Story)의 3가지 속성으로 설정했습니다.

이에 더해 평점과 전반적인 리뷰의 감성분석, 속성별 감성분석을 사용해 사용자 간의 유사도를 측정했습니다. 활용한 기본적인 요소에 대한 모델은 아래의 표2와 같습니다.

사용자간의 유사도를 측정하는 식은 아래와 같습니다.

식에서 볼 수 있는 피어슨 상관계수로 측정을 진행했으며,

\(r_{u,i}\)는 사용자 \(u\)의 아이템 \(i\)에 대한 평가를 나타내고,

\(\overline{r_{i}}\)는 \(i\)번째 아이템의 평가 점수 평균입니다.

 

2. Proposed Models : Composite Models

본 논문에서는 영화 추천 시스템을 위해 두 가지의 연구 모형을 제안합니다.

 

첫 번째는 위의 사진 1과 같은 모습입니다.

전통적 협업필터링 모델인 ConvCF와 리뷰 전체에 대한 감성 분석 결과를 협업필터링 모델인 SentCF를 결합한 모형으로, 이는 두 모델의 예측 정확도를 비교하여 어느 쪽이 더 유리한지 판별합니다. 그 후, 이 정보에 기반하여 검증용 셋에 대한 추천 결과를 생성합니다.

 

두 번째는 위의 사진 2와 같은 모습입니다.

ConvCF + ActorCF + DirectingCF + StoryCF를 결합한 모형입니다.

이는 위와 달리 전체적인 리뷰에 대한 감성분석 결과 대신 차원별로 추출한 결과를 결합해 사용자 간의 유사도를 측정하는 방식입니다.

마찬가지로, 각 모델의 예측 정확도를 비교해 어느 쪽이 유리한지 판별하고 추천 결과를 생성합니다.

 

Experiments

1. Experimental Environment

실험을 진행한 환경에 대한 내용입니다.

 

2. Data Collection & 3. Evaluation Criteria

해당 논문에서는 사전 학습한 BERT 모델을 사용했으며,

데이터는 네이버 영화리뷰 데이터 15만 개를 사용했다고 합니다.

데이터의 선별 기준은 논문에 잘 기재되어있습니다.

표 3을 통해 데이터 수집 결과를 알 수 있습니다.

평가는 오차행렬(Confusion matrix)을 통해 정확도, 재현율, 정밀도, F1-Score를 측정했습니다.

위의 식을 제시하며 평균 절대 오차(MAE)를 추천시스템의 성능 평가의 지표로 사용함을 알 수 있습니다.

 

4. Experimental Results

위의 표 4를 통해 협업필터링을 통한 성능 측정 전에 앞서 BERT 감성 분석을 수행하고 이에 대한 결과를 제시합니다. 정확도와 F1-Score가 모두 0.8을 상회하여 해당 연구에서 구축한 BERT 기반의 감성분석 모형이 신뢰할 수 있으며 사용할 만한 수준이라고 주장합니다.

 

그 이후의 성능 측정 결과를 표 5와 표 6으로 제시합니다.

내용은 다음과 같습니다.

 

끝으로, 표 6에서 제시한 내용이 통계적으로 유의한지 검증하기 위해 대응 표본 t-검정을 적용한 결과를 표 7로 제시합니다. 제안 모형 1과 2 모두 전통적인 협업필터링과 99.9% 신뢰 수준 하에서 그 차이가 통계적으로 유의하게 나타났음을 밝힙니다.

 

Conclusion

해당 논문에 대한 결론 부분입니다.

제안한 모델과 방법에 대한 요약을 설명합니다.

-> 기존이 협업필터링의 한계를 극복하기 위해 속성 기반의 감성분석을 통해 다차원 정보를 선별적으로 선택하는 추천시스템을 제안하였다.

-> 제안 모델이 기존 모델 대비 예측 정확도가 높은 것을 확인할 수 있다.

 

해당 논문에 대한 의의를 설명합니다.

-> 논문에서 제안한 방법(여태껏 위에서 설명한 내용들)은 기존 연구와 본 연구와 차별화되는 부분이다.

-> 특히 협업필터링에 잘 사용되지 않은 BERT를 활용한 속성 기반 감성분석을 사용했다는 점에서 학술적 의의가 있다.

-> 해당 연구에서의 검증은 영화 데이터에 한정했지만, 제안 모델은 도서, 식당 등 모든 분야에서 적용이 가능하다는 점 역시 실무적 의의 중 하나이다.

 

한계점에 대한 내용입니다.

-> 충분한 양의 데이터를 확보되지 모한 상태에서 검증이 이루어졌다는 한계가 있다.

-> 이로 인해 통계적 유의성을 확인하였지만 MAE의 차이가 다소 미미하게 확인되었다는 점은 본 연구의 또 다른 한계점으로 생각된다.

-> BERT 사전 학습 과정에 많은 시간이 소요된다는 점도 주요한 한계점이다.

 

향후 연구에 대한 내용입니다.

-> 한국 데이터에 맞게 적용하였지만 외국어 데이터로 다양한 도메인에서 속성 기반 감성분석을 적용할 수 있도록 향후 연구가 필요할 것으로 보인다.

 

공부하며 느낀 점

BERT를 활용한 감성분석에 대해서는 많이 들어봤던 것 같습니다.

그런데, 해당 논문에서 단순히 BERT를 활용한 감성분석을 진행한 것이 아니라,

문장에서의 각 속성을 지정하고 그에 따른 속성별 감성 분석을 실험했다는 점이 인상 깊었습니다.

논문에서 언급한 것처럼 요즘 많은 사람들이 단순히 TV 시청보다는 OTT 서비스를 많이 이용하는 추세입니다. 이에 따라 각 OTT 서비스에서는 개인별 추천 서비스를 제공하고 있는데, 본 논문과 같이 해당 분야의 연구가 활발히 이루어진다면 소비자들에게 더 질 높은 추천 시스템을 제공할 수 있겠다는 생각이 들었습니다.

 

 

728x90
반응형

댓글