Why is Normalization Necessary for Linear Recommenders?
10 Apr 2025
10 Apr 2025
Introduction
추천 시스템에서 linear autoencoder (LAE) 기반 모델은 단순함에도 불구하고 신경망 기반 추천 모델과 비교할 만한 성능과 더 빠른 추론 속도를 보여주고 있습니다 [1]. 하지만 LAE는 두 가지 중요한 문제에 직면해 있습니다:
Popularity bias: 인기 있는 아이템이 과도하게 추천되는 문제 [2, 3]
Neighborhood bias: 지역적인 아이템 상관관계에 과도하게 초점을 맞추는 문제 [4]
Figure 1에서 보듯이 정규화가 없는 LAE (W/O Norm.)는 주로 인기 아이템을 추천하여 Head 아이템에서는 높은 성능을 보이지만 Tail 아이템에서는 낮은 성능을 보입니다. 반면 정규화를 적용한 LAE (W/ Norm.)는 Tail 성능을 크게 향상시키면서도 Head 성능을 경쟁력 있게 유지합니다. ML-20M과 Yelp2018에서 각각 12,700%와 349%의 Tail 성능 향상을 보여줍니다.
Figure 2는 정규화가 데이터셋의 homophily 특성에 따라 성능에 미치는 영향을 보여줍니다. 정규화는 모든 데이터셋에서 일관되게 성능을 향상시키며, 특히 global item correlations이 풍부한 high-homophilic 데이터셋 (ML-20M, Netflix, MSD)에서 더 큰 성능 향상을 보입니다.
본 논문에서는 LAE를 위한 두 가지 기존 정규화 방법 (random-walk [5]와 symmetric normalization [6])의 효과를 분석하고, 데이터의 특성에 맞게 popularity bias와 neighborhood bias를 유연하게 제어할 수 있는 새로운 정규화 솔루션인 Data-Adaptive Normalization (DAN)을 제안합니다.
Figure 1: ML-20M과 Yelp2018 데이터셋에서 인기 있는 아이템 (Head)과 인기 없는 아이템 (Tail)의 성능 비교
Figure 2: 높은 동질성 (High-homophilic)과 낮은 동질성 (Low-homophilic) 데이터셋 그룹에 대한 성능 비교
Linear Autoencoders (LAEs)
LAE는 사용자-아이템 상호작용 행렬 X ∈ {0, 1}^(m×n) (m명의 사용자, n개의 아이템)을 기반으로 아이템-아이템 가중치 행렬 B ∈ R^(n×n)을 학습하여 원래 행렬 X를 행렬 곱셈 X·B로 재구성합니다. 구체적으로, LAE의 목적 함수 (objective function)와 닫힌 해 (closed-form solution)는 다음과 같습니다:
Proposed Normalization
위 두 가지 challenge를 해결하기 위해 DAN (Data-Adaptive Normalization)을 제안합니다. DAN은 두 가지 핵심 컴포넌트로 구성됩니다.
Item-adaptive normalization: 파라미터 α를 통해 popularity bias를 조절하고, LAE에 denoising effect를 부여합니다.
Figure 3은 ML-20M 데이터셋에서 다양한 α 값에 따른 head와 tail 아이템의 가중치 분포를 보여줍니다. 정규화가 없을 때 (Figure-3a), head 아이템은 빈번한 발생으로 인해 큰 가중치로 지배적입니다. α = 0 (Figure-3b)일 때, 정규화는 소스 아이템 인기도만 고려하여 head 아이템 지배를 부분적으로 완화합니다. α = 0.5 (Figure-3c)에서는 소스와 타겟 아이템 모두 정규화하여 head-tail 분포 격차를 더 줄이지만 여전히 큰 차이가 있습니다. 반면 item-adaptive normalization (α = 0.2, Figure-3d)은 동적 조정을 통해 가장 균형 잡힌 분포를 달성합니다.
User-adaptive normalization: 파라미터 β를 통해 neighborhood bias를 제어합니다.
Figure 4는 두 데이터셋에서 β에 따른 고유값 분포를 보여줍니다. 고유값 인덱스는 왼쪽에서 오른쪽으로 갈수록 high-frequency 성분이 증가합니다. β가 0에서 1로 증가함에 따라 대부분의 고유값이 점차 감소하여 0에 가까워지지만, 몇 개의 low-frequency 고유값은 여전히 중요하게 유지됩니다. 이는 user-adaptive normalization이 local neighborhood information을 표현하는 high-frequency 성분을 억제하면서도 global patterns을 나타내는 essential low-frequency 성분은 보존함을 보여줍니다.
Figure 3: ML-20M 데이터셋에서 다양한 α 값에 따른 가중치 분포
Figure 4: ML-20M과 Yelp2018 데이터셋에서 β에 따른 가중치 행렬의 고유값 분포
DAN을 적용한 LAE의 목적 함수 (objective function)와 닫힌 해 (closed-form solution)는 다음과 같습니다:
Experiments
Overall Performance Comparison
제안 모델 DAN의 효과를 검증하기 위해 여섯 가지 데이터셋 (ML-20M, Netflix, MSD, Gowalla, Yelp2018, Amazon-book)에서 평가하였습니다.
DAN을 장착한 LAE 모델들 (LAE_DAN, EASE_DAN, RLAE_DAN)은 모든 데이터셋에서 기존 LAE 기반 모델들보다 일관되게 성능이 향상되었으며, tail 아이템과 unbiased 평가에서 최대 128.57%와 12.36%의 성능 향상을 보였습니다. 또한, 최신 CF 모델 (BSPM, TurboCF, SVD-AE)을 앞서는 성능을 보여주었습니다.
Table 1: Strong generalization 설정에서 ML-20M, Netflix, MSD 데이터셋에 대한 성능 비교
Table 2: Strong generalization 설정에서 Gowalla, Yelp2018, Amazon-book 데이터셋에 대한 성능 비교
Hyperparameter Sensitivity
Item-adaptive normalization: Figure 5는 하이퍼파라미터 α가 각 데이터셋의 성능에 미치는 영향을 보여줍니다. 모든 데이터셋에서 α가 증가할수록 Tail 성능은 향상되지만 Head 성능은 감소합니다. 이는 높은 α 값이 타겟 아이템의 인기도에 더 강한 정규화를 적용하기 때문입니다. 또한, 데이터셋의 Gini index에 따라 α의 영향이 다르게 나타납니다. Gini index가 높은 데이터셋 (ML-20M, Netflix)은 상대적으로 AOA 성능 변화가 작은 반면 (약 2.5%), Gini index가 낮은 데이터셋 (Yelp2018, Amazon-book)은 AOA 성능 변화가 더 큽니다 (약 7-9%). 따라서 Gini index가 높은 데이터셋은 α를 낮게, 낮은 데이터셋은 α를 높게 설정하는 것이 효과적입니다.
User-adaptive normalization: Figure 6은 하이퍼파라미터 β가 active 사용자 (상위 20% 활동 사용자)와 inactive 사용자 (나머지)의 성능에 미치는 영향을 보여줍니다. high-homophilic 데이터셋 (ML-20M, Netflix)에서는 β가 증가함에 따라 active와 inactive 사용자 모두의 성능이 먼저 향상되었다가 감소합니다. 이는 이러한 데이터셋에서 global interaction patterns이 인기 아이템을 선호하기 때문입니다. 반면, low-homophilic 데이터셋 (Yelp2018, Amazon-book)에서는 β가 증가할수록 두 그룹의 성능이 일관되게 감소합니다. 이는 이러한 데이터셋이 다양한 local patterns을 가지고 있어 active 사용자에 대한 과도한 정규화가 이러한 patterns을 학습하기 어렵게 만들기 때문입니다. 따라서 weighted homophily ratio가 높은 데이터셋은 β를 높게, 낮은 데이터셋은 β를 낮게 설정하는 것이 효과적입니다.
Figure 5: 네 개의 데이터셋에서 item normalization 파라미터 α에 따른 NDCG@20
Figure 6: 네 개의 데이터셋에서 user normalization 파라미터 β에 따른 NDCG@20
Performance Comparison for Various Normalization
Table 3는 다양한 정규화 방법의 성능을 보여줍니다. DAN은 두 데이터셋 모두에서 가장 높은 AOA (Average-over-all) 성능을 보이면서 Tail 성능도 크게 향상시켰습니다. 특히, ML-20M에서는 정규화 없는 경우에 비해 Tail 성능이 12,700% 향상되었습니다. 또한, item-adaptive normalization (Item norm)은 두 데이터셋에서 일관되게 Tail 성능을 향상시키는 반면, user-adaptive normalization (User norm)은 데이터셋에 따라 다른 경향을 보입니다.
Table 3: ML-20M과 Yelp2018 데이터셋에서 다양한 정규화 방법의 성능 비교
Case Study
Figure 7은 정규화 방법에 따른 특정 사용자의 추천 결과를 보여주며, 다음과 같은 관찰을 했습니다.
정규화 없는 LAE (W/O)는 사용자가 로맨틱 영화 3편을 시청했음에도 5개 모두 높은 인기도의 액션 영화만 추천합니다. 반면, 세 가지 정규화 방법 (RW, Sym, DAN)은 사용자가 본 "Step Up 1"과 관련된 "Step Up 2"를 최상위로 추천하여 사용자 선호도를 효과적으로 반영합니다.
DAN은 인기도 편향을 적절히 완화하면서도 사용자 선호도를 유지하는 가장 균형 잡힌 추천을 제공합니다. RW 정규화는 5개 중 4개가 인기 아이템으로, 여전히 인기도 편향이 강합니다. Sym 정규화는 5개 중 4개가 인기 없는 아이템으로, 인기도 편향을 과도하게 완화합니다. DAN은 인기 및 비인기 아이템의 균형을 맞추면서 사용자 선호도에 가장 관련성 높은 아이템을 추천합니다.
Figure 7: ML-20M 데이터셋에서 사용자 #91935의 상호작용 이력과 네 가지 정규화 방법의 Top-5 추천 목록. 빨간 테두리는 head (상위 20%) 항목이고, 파란 테두리는 tail (하위 80%) 항목
Conclusion
본 논문에서는 LAE를 위한 간단하면서도 효과적인 정규화 방법인 DAN을 제안했습니다. DAN은 데이터셋 특성에 따라 popularity bias와 neighborhood bias를 적응적으로 조정할 수 있으며, 모델에 구애받지 않고 다양한 LAE 기반 모델에 쉽게 적용할 수 있습니다. 실험 결과, DAN을 장착한 LAE는 6개의 벤치마크 데이터셋에서 기존 LAE 기반 모델들보다 일관되게 성능이 향상되었으며, 특히 인기 없는 아이템과 unbiased 평가에서 큰 성능 향상을 보였습니다.
Reference
[1] S. Rendle, L. Zhang, and Y. Koren, "On the Difficulty of Evaluating Baselines: A Study on Recommender Systems," arXiv preprint arXiv:1905.01395, 2019.
[2] J. Chen et al., "Bias and Debias in Recommender System: A Survey and Future Directions," ACM Trans. Inf. Syst., vol. 41, no. 3, pp. 67:1–67:39, 2023.
[3] Z. Zhu, Y. He, X. Zhao, Y. Zhang, J. Wang, and J. Caverlee, "Popularity-Opportunity Bias in Collaborative Filtering," in WSDM, 2021, pp. 85–93.
[4] Z. Mu, J. Lin, X. Zhu, W. Zhang, and Y. Yu, "Invariant Graph Contrastive Learning for Mitigating Neighborhood Bias in Graph Neural Network Based Recommender Systems," in ICANN, vol. 15020, 2024, pp. 143–158.
[5] C. Cooper, S.-H. Lee, T. Radzik, and Y. Siantos, "Random walks in recommender systems: exact computation and simulations," in WWW, 2014, pp. 811–816.
[6] X. Wang, X. He, M. Wang, F. Feng, and T.-S. Chua, "Neural Graph Collaborative Filtering," in SIGIR, 2019, pp. 165–174.
[7] J.Y. Chin, Y. Chen, and G. Cong, "The Datasets Dilemma: How Much Do We Really Know About Recommendation Datasets?," in WSDM, 2022, pp. 141–149.
[8] Y. Yan et al., "From Trainable Negative Depth to Edge Heterophily in Graphs," in NeurIPS, 2023.