Toward a Better Understanding of Loss Functions for Collaborative Filtering
11 Aug 2023
본 문서에서는 CIKM 2023에 게재될 논문 “Toward a Better Understanding of Loss Functions for Collaborative Filtering”을 소개합니다. 논문의 상세 정보는 아래와 같습니다.
Title: Toward a Better Understanding of Loss Functions for Collaborative Filtering
Authors: Seongmin Park, Mincheol Yoon, Jae-woong Lee, Hogun Park, Jongwuk Lee
Conference: The 32nd ACM International Conference on Information and Knowledge Management (CIKM)
Motivation
추천 시스템의 중요한 한 축을 담당하고 있는 협업 필터링 (Collaborative Filtering, CF)은 다음과 같이 크게 세 가지로 구성됩니다 ([1] 참고). i) 상호작용 인코더 (interaction encoder), ii) 손실함수 (loss function), iii) 네거티브 샘플링 (negative sampling). 이 중에서 상호작용 인코더는 사용자/항목 표현을 잘 학습하는 부분으로써 CF 모델의 구조 자체를 개선하는 것이 목적입니다. 상호작용 인코더에 대한 연구는 활발히 진행되었지만, 손실함수와 네거티브 샘플링에 관한 연구는 상대적으로 덜 주목받고 있었습니다. 최근 연구[1, 2, 3, 4]에서는 손실함수의 변경만으로도 모델 성능을 크게 높일 수 있다는 것을 보여주고 있습니다. 다양한 손실함수가 제안되어 왔지만, 각자의 방법론의 우수성을 입증할 뿐 손실함수 간의 관계를 보여주는 연구는 없었습니다. 그래서 본 연구에서는 CF에서 사용하고 있는 다양한 손실함수들의 수식적인 관계를 분석하고, 이 관계를 기반으로 새로운 손실함수를 제안합니다.
<표 1> 네 가지 유형으로 분류된 CF 손실 함수 구조 비교. 각 손실 함수에 들어간 모든 표기는 각 논문을 따릅니다. 표 크기 제약으로 인해 DirectAU는 DAU로 표기합니다.
Theoretical Analysis
관계를 분석하기 앞서 CF에서 사용하고 있는 다양한 손실함수들을 [표 1]에 정리해보았습니다. 한 명의 사용자에 대해 손실을 계산하는 형태에 따라 손실함수를 네 가지로 분류해볼 수 있습니다. i) Pointwise, ii) pairwise, iii) setwise, 그리고 iv) alignment & uniformity (AU) 손실함수입니다. Pointwise 손실함수를 제외한 세 가지 손실함수 간의 수식적인 관계를 분석해보고 다음과 같은 흥미로운 발견을 관찰했습니다 (자세한 증명과정은 논문 참조). 1) BC [4]는 pairwise와 setwise 손실함수의 일반화된 형태이다. BC [4]는 SSM [2]에 margin을 추가함으로써 positive pair*별 가중치를 주는 손실함수입니다. 2) Setwise 손실함수 중 하나인 SSM [2]은 AU 손실함수로 (즉, DirectAU [3]) 표현이 가능하다. 최근 제안된 DirectAU [3]는 높은 성능을 보여주며, 복잡한 네거티브 샘플링 과정이 필요하지 않다는 장점이 있습니다.
*클릭한 사용자-항목 쌍
<그림 1> CF 손실 함수 간의 관계도.
Proposed Method: MAWU
우리는 BC [4]와 DirectAU [3]의 장점을 모두 활용할 수 있는 새로운 손실함수 Margin-aware Alignment and Weighted Uniformity (MAWU)를 제안합니다. 손실함수의 첫 번째 부분인 Margin-aware Alignment (MA)는 사용자/항목 인기도 (popularity)에 따라, positive pair의 가중치를 다르게 주는 부분입니다. BC [4]는 추가적인 모듈을 활용하여 가중치를 부여해줬지만, 우리는 단순히 사용자와 항목의 margin을 분리하여 학습합니다. 단순한 방식을 사용했음에도 불구하고, 인기도가 낮은 사용자/항목이 높은 margin 값을 갖는 것을 실험적으로 확인할 수 있었습니다. [그림 2]를 활용해 구체적으로 설명 드리면, 인기도가 낮은 positive pair (d)의 경우, 높은 margin을 부여하여 인기도가 높은 pair에 비해 더 가중하여 학습하도록 합니다. 이는 학습 기회가 적은 인기도가 낮은 사용자/항목에게 추가적인 학습 기회를 부여하는 효과를 줍니다. 손실함수 MAWU의 두 번째 부분인 Weighted Uniformity (WU)는 단순한 동기에서 출발했습니다. 추천 도메인 특성상 사용자와 항목의 분포가 다르기 때문에, 사용자와 항목의 균일 (uniformity)는 다른 가중치로 학습시켜줘야 한다는 점입니다. 데이터셋 별로 사용자와 항목의 균일 가중치를 다르게 부여함으로써 추천 도메인에 적합하게 학습시켜줄 수 있습니다.
<그림 2> 사용자-항목 쌍의 네 가지 경우에 따른 MA의 margin.
Experiments
우리는 DirectAU [3]에서 사용한 세 가지 데이터셋 (Beauty, Gowalla, Yelp2018)에서 MF [5]와 LightGCN [6] 두 가지 백본모델을 가지고 실험을 진행했습니다.
<표 2> 전처리된 데이터셋 통계.
실험 결과, Beauty-MF Recall@50를 제외한 모든 지표에서 MAWU는 DirectAU보다 우수한 성능을 보여주었습니다. 또한, 데이터셋이 점점 희소해질수록 MAWU의 성능 향상 폭은 점점 커지는 것을 관찰할 수 있었습니다. 이는 MA가 인기도가 낮은 사용자 및 항목에게 가중치를 부여해 학습했기 때문으로 볼 수 있습니다.
<표 3> 열 개의 손실함수와의 성능 비교.
Conclusion
본 연구를 통해 기존에 제안된 다양한 손실함수 간의 수식적/실험적인 관계를 살펴볼 수 있었습니다. 수식적인 관계에 기반하여 새로운 손실함수 MAWU를 제안하고, MAWU가 데이터셋의 특성 (사용자/항목 인기도와 분포)을 고려하여 학습할 수 있도록 해줍니다. 그 결과, MAWU가 DirectAU 대비 높은 성능을 달성하는 것을 확인할 수 있었습니다.
수식적으로 일반화됐다고 하여 BC가 무조건 옳은 방식은 아니고, 다른 방식이 더 좋을 수 있습니다. 하지만, 앞으로 CF 손실함수를 설계함에 있어 본 논문에서 진행한 분석을 참고하면 유용할 것입니다. 생각해보면 좋을 고민 한 가지를 남기고 마무리하겠습니다. DirectAU가 네거티브 샘플링을 사용하지 않아도 되는 것은 장점이지만, 반대로 유용한 네거티브 샘플링을 사용할 수 없다는 것은 단점으로 볼 수 있습니다. 이러한 점을 고려하여 본인의 상황과 환경에 맞게 손실함수를 설계하는 것이 필요합니다.
Reference
[1] Kelong Mao, Jieming Zhu, Jinpeng Wang, Quanyu Dai, Zhenhua Dong, Xi Xiao, and Xiuqiang He. 2021. SimpleX: A Simple and Strong Baseline for Collaborative Filtering. In CIKM. 1243–1252.
[2] Jiancan Wu, Xiang Wang, Xingyu Gao, Jiawei Chen, Hongcheng Fu, Tianyu Qiu, and Xiangnan He. 2022. On the Effectiveness of Sampled Softmax Loss for Item Recommendation. CoRR abs/2201.02327 (2022).
[3] Chenyang Wang, Yuanqing Yu, Weizhi Ma, Min Zhang, Chong Chen, Yiqun Liu, and Shaoping Ma. 2022. Towards Representation Alignment and Uniformity in Collaborative Filtering. In KDD. 1816–1825.
[4] An Zhang, Wenchang Ma, Xiang Wang, and Tat seng Chua. 2022. Incorporating Bias-aware Margins into Contrastive Loss for Collaborative Filtering. In NeurIPS.
[5] Yifan Hu, Yehuda Koren, and Chris Volinsky. 2008. Collaborative Filtering for Implicit Feedback Datasets. In ICDM. 263–272.
[6] Xiangnan He, Kuan Deng, Xiang Wang, Yan Li, Yong-Dong Zhang, and Meng Wang. 2020. LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation. In SIGIR. 639–648.