https://msnews.github.io/assets/doc/ACL2020_MIND.pdf

개요

일반 유통이나, 영화 추천 시스템과 달리, 뉴스의 경우 높은 퀄리티의 벤치마크 데이터셋의 부족으로 많이 제한적이었음.

그래서 뉴스 추천 시스템을 위해 등장한 large-scale 데이터셋이 바로 MIND임.

이들의 실험 결과에 따르면, 추천시스템의 성능은 뉴스컨텐츠 이해의 수준과, user interest modeling에 크게 좌우됨.

1 소개

온라인 뉴스 서비스들의 특징은, 무수히 많은 수의 온라인 뉴스들이 생성된다는 것이고, 이것은 소비자로 하여금 관심있는 뉴스를 빨리 찾기 어렵게 만듬. 그래서 Personalized news recommendation은 이런 소비자의 부담을 줄이고, 뉴스를 읽는 경험을 상승시켜줌.

뉴스 추천시스템은 이 분야만의 특별한 어려운 문제점들이 있음. 첫째로, 너무 많이 뉴스가 생성되고, 기존의 뉴스들은 조금만 시간이 지나면 쓸모없게 되어버림. 그래서 cold-start problem이 매우 심각함.

둘째로 뉴스는 많은 텍스트 정보를 포함하고 있어서(제목, 본문에), 그 자체의 ID만을 가지고 나타내기에 한계가 있음. 그래서 텍스트를 통해 그 내용을 이해하는 것이 중요함.

셋째, 뉴스에는 영화처럼 평점을 메기지 않기 때문에, 클릭 정보등을 통해 유저들의 관심을 간접적으로 추론해야함.

Large-scale & high-quality 데이터셋은 연구에 매우 중요함. 그런데 다른 분야는 있는데, 뉴스만 없었음. 있다고 하더라도 소량이거나, 영어가 아니었음. 뉴스 추천시스템의 이러한 문제점을 해결하려고 내놓은 large-scale 데이터셋이 MIcrosoft News Dataset(MIND)임.

100만개의 유저정보와, 16만개의 영어 뉴스 기사와 그에 대한 클릭 히스토리들을 담고있음.

이들은 이 MIND 데이터셋을 가지고, 최신 뉴스 추천 알고리즘들의 성능을 비교하여, 벤치마크를 만들어 제공함. 실험 결과, 뉴스 추천을 위해서는 NLP 기술을 통해 뉴스 기사를 깊이 이해하는 것이 중요하다는 것을 보여줌.

그리고 실험 결과, 효과적인 텍스트 자료 표현 방법(text representation methods)과 pre-trained된 언어 모델이 뉴스 추천 시스템의 성능을 높이는데에 도움을 줌. 그리고 유저의 관심을 적절하게 모델링하는 것도 성능에 도움을 줌.

2 관련 연구