문재완 박사과정, 김혜영 석사과정 SIGIR 2023 국제 학술대회 논문 채택

05 Apr 2023

DIAL 연구실 소속 인공지능학과 문재완(박사과정, 제1저자) 학생, 김혜영(석사과정, 제2저자) 학생, 이종욱(교신저자) 교수가 참여한 It’s Enough: Relaxing Diagonal Constraints in Linear Autoencoders for Recommendation” 논문이 데이터마이닝 분야 최우수 국제 학술대회인 ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2023)에 최종 게재가 승인되었으며 오는 7월에 발표될 예정입니다.


본 연구는 선형 오토인코더 (linear autoencoder) 기반 추천 시스템에서의 대각 제약조건 (diagonal  constraint)에 대한 이론적 분석을 수행하고, 대각 제약조건을 완화한 relaxed linear autoencoders (RLAE)를 제안합니다. 선형 오토인코더 모델은 L2 정규화 (L2 regularization) 및 대각 성분 제거 제약조건 (zero-diagonal constraint)을 사용한 볼록 최적화 (convex optimization)를 통해 항목 간 가중치 행렬을 학습합니다. 본 논문은 선형 오토인코더 모델에서 두 가지 제약 조건의 특성을 이론적으로 이해하는 것을 목표로 합니다. 특이값 분해(singular value decomposition, SVD)와 주성분 분석(principal component analysis, PCA)을 활용한 가중치 행렬에 대한 분석을 통해 L2 정규화가 높은 순위의 주성분의 효과를 촉진한다는 사실을 밝힙니다. 반면, 대각선 성분 제거 제약조건은 순위가 낮은 주성분의 영향을 감소시켜 인기 없는 항목의 성능 저하로 이어질 수 있음을 보였습니다. 이러한 분석 결과로부터 영감을 얻어 대각선 부등식 제약 조건을 사용하는 간단하면서도 효과적인 선형 오토인코더 모델인 Relaxed Linear AutoEncoder (RLAE)와 Relaxed Denoising Linear AutoEncoder (RDLAE)를 제안합니다. 또한 대각 제약조건의 정도를 조정하는 제안 방법은 기존 선형 모델을 일반화한 형태임에 대한 증명을 제공합니다. 실험 결과는 6개의 벤치마크 데이터 세트에서 우리의 모델이 최첨단 선형 및 비선형 모델과 비슷하거나 더 우수하다는 것을 보여줍니다. 이는 대각 제약조건에 대한 이론적 통찰력을 뒷받침하며, 특히 인기도가 낮은 항목과 인기도 편향을 제거한 평가 (unbiased evaluation)에서 상당한 성능 향상이 발생됨을 확인하였습니다.


Linear autoencoder models learn an item-to-item weight matrix via convex optimization with L2 regularization and zero-diagonal constraints. Despite their simplicity, they have shown remarkable performance compared to sophisticated non-linear models. This paper aims to theoretically understand the properties of two constraints in linear autoencoder models. Through the lens of singular value decomposition (SVD) and principal component analysis (PCA), it is revealed that L2 regularization promotes the effect of high-ranked PCs. Meanwhile, zero-diagonal constraints reduce the impact of low-ranked PCs, leading to performance drops on unpopular items. Inspired by this analysis, we propose simple-yet-effective linear autoencoder models using diagonal inequality constraints, called Relaxed Linear AutoEncoder (RLAE) and Relaxed Denoising Linear AutoEncoder (RDLAE). We also prove that they generalize existing linear models by adjusting the degree of diagonal constraints. Experimental results demonstrate that our models are comparable or superior to state-of-the-art linear and non-linear models on six benchmark datasets. The results support our theoretical insights for diagonal constraints, leading to significant performance gains in long-tail items and unbiased evaluation.