LLM-Enhanced Linear Autoencoders for Recommendation
7 Aug 2025
7 Aug 2025
본 문서에서는 CIKM 2025에 게재될 논문 “LLM-Enhanced Linear Autoencoders for Recommendation”을 소개합니다. 논문의 상세 정보는 아래와 같습니다.
Title: LLM-Enhanced Linear Autoencoders for Recommendation
Authors: Jaewan Moon*, Seongmin Park*, Jongwuk Lee (* : equal contribution)
The 34th ACM International Conference on Information and Knowledge Management (CIKM 2025, short paper)
Introduction
추천 시스템은 사용자의 과거 행동을 바탕으로 선호도를 예측하여 정보 과부하 문제를 해결하는 핵심 기술입니다. 특히, 협업 필터링(Collaborative Filtering, CF)은 사용자-아이템 상호작용 데이터를 분석하여 개인화된 추천을 제공하는 대표적인 접근법입니다.
최근 대규모 언어 모델 (Large Language Models, LLMs)이 아이템의 텍스트 속성(제목, 카테고리, 브랜드, 설명 등)으로부터 풍부한 의미론적 표현을 추출하는 강력한 도구로 주목받고 있습니다. 기존의 선형 오토인코더 (Linear Autoencoders, LAEs)는 계산 효율성과 우수한 성능을 보여주지만, 희소한 상호작용 데이터에만 의존하여 롱테일 아이템에 대한 성능이 제한적입니다.
기존 연구들은 다중 핫 인코딩을 통해 텍스트 정보를 활용했지만, 이는 어휘적 동시발생만을 포착할 뿐 의미론적 유사성을 간과합니다. 예를 들어, '러닝화'와 '운동화'는 개념적으로 유사하지만 기존 방법으로는 이러한 관계를 파악하기 어렵습니다.
본 논문에서는 LLM을 LAE 프레임워크에 최초로 통합한 L³AE (LLM-Enhanced Linear Autoencoder)를 제안합니다. L³AE는 2단계 최적화를 통해 텍스트 의미론과 상호작용 데이터의 이질적인 지식을 효과적으로 융합합니다: (1) LLM 기반 의미론적 아이템 상관관계 행렬 구성, (2) 의미론 유도 정규화를 통한 협업 신호 학습. 두 단계 모두 닫힌 형태 해를 제공하여 전역 최적해와 계산 효율성을 보장합니다.
그림 1. Performance of head (top-20% popular) and tail (the remaining 80%) items on the Games dataset. LLM-EASE replaces the user-item interaction matrix with the semantic- item matrix from LLMs. Existing LAEs [10 ] are CEASE and Add-EASE, which utilize textual tag information.
Linear Autoencoders (LAEs)
LAE는 사용자-아이템 상호작용 행렬 X ∈ {0, 1}^(m×n) (m명의 사용자, n개의 아이템)을 기반으로 아이템-아이템 가중치 행렬 B ∈ R^(n×n)을 학습하여 원래 행렬 X를 행렬 곱셈 X·B로 재구성합니다. 구체적으로, LAE의 목적 함수 (objective function)와 닫힌 해 (closed-form solution)는 다음과 같습니다:
Proposed Method: L³AE
우리는 LLM-Enhanced Linear Autoencoder (L³AE)를 제안하며, 이는 두 단계로 구성됩니다: (i) LLM에서 도출된 의미론을 활용하여 의미론적 수준의 아이템 간 행렬을 구성하고 (ii) 의미론 유도 정규화를 통해 이질적인 지식을 통합합니다.
다중 핫 인코딩 전략이 태그 간의 어휘적 동시 발생을 효과적으로 포착하는 반면, 태그들 간의 근본적인 의미적 유사성을 본질적으로 간과합니다. 이러한 어휘-의미 격차는 풍부한 텍스트 정보를 활용하는 모델의 능력을 제한합니다. 이 격차를 해소하기 위해, LLM을 사용하여 아이템을 밀집한 의미론적 표현으로 인코딩합니다. 아이템을 의미론적 벡터 공간으로 투영함으로써, 개념적으로 유사한 아이템들이 더 가깝게 위치하게 되어 의미론적 상관관계의 더 효과적인 모델링을 가능하게 합니다. 의미론적 아이템 표현을 인코딩하기 위해, 우리는 표준 프롬프팅 방법을 사용합니다. 텍스트 속성들은 명시적인 지시사항 없이 프롬프트로 연결됩니다: "Title: <title>; Category: <category>; Brand: <brand>; Description: <description>". 이 프롬프트는 LLM에 입력되고, 최종 층 토큰 임베딩들을 평균화하여 표현 벡터 𝑓𝑖 ∈ R^(𝑑 ×1)을 얻습니다. 모든 아이템에 대해 이러한 벡터들을 쌓아서, 의미론적 아이템 행렬 F ∈ R^(𝑑 ×𝑛)을 구성합니다.
Phase 1: Construction of semantic item correlation
의미론적 공간에서 아이템 유사성을 직접 계산하는 대신, 우리는 EASE 프레임워크을 활용합니다. 구체적으로, 우리는 아이템 간 의미론적 상관관계를 포착하는 가중치 행렬 S를 학습합니다.
Key Observation
사용자-아이템 상호작용과 텍스트 아이템 의미론의 이질적인 지식을 어떻게 효과적으로 융합할 수 있을까?
기존 다중 핫 인코딩 방식이 태그 행렬 T 대신 의미론적 행렬 F를 활용할 수 있지만, 이러한 단순한 대체가 적절한지는 여전히 불분명합니다. 우리는 주성분 분석 (PCA)을 통해 상호작용 행렬 X와 의미론적 행렬 F 간의 서로 다른 특성을 비교하는 Pilot study (그림 2)를 수행합니다. F의 정보는 상위 주성분에 크게 집중되어 있으며, 나머지 차원은 거의 0에 가까워 낮은 effective rank를 나타내는 것을 알 수 있습니다. 반면, X는 꼬리 아이템에서 희소성으로 인한 노이즈와 함께 더 점진적인 감소를 보입니다.
이러한 관찰을 기반으로, 우리는 원시 데이터를 직접 융합하는 대신 아이템 간 상관관계에서 작동하는 2단계 통합 전략을 제안합니다. 이 전략은 전역 최적 해를 도출하면서도 각 이질적인 데이터 소스의 고유한 특성에 따라 각 행렬을 정규화할 수 있게 해줍니다. 먼저, 우리는 F를 활용하여 집중된 의미론적 구조를 포착하는 의미론적 상관관계 행렬 S를 구축합니다. 그런 다음, 상호작용 데이터로부터 최종 가중치 행렬 B를 추정하되, B가 S와 정렬되도록 장려하는 의미론 유도 정규화 항으로 목적 함수를 보강합니다. 이는 B가 협업 신호와 풍부한 의미론적 구조를 균형 있게 반영하도록 보장합니다.
그림 2. Normalized singular values of interaction matrix X and semantic matrix F on Games, where the number of items is 2,676. We also observe similar trends on other datasets.
Phase 2: Semantic-guided regularization
지식 증류 (KD)에서 영감을 받아, 우리는 사전 계산된 의미론적 행렬 S를 사용하여 의미론 유도 정규화를 통해 아이템 간 가중치 행렬 B를 학습합니다. L³AE는 각 소스가 최적의 L2 정규화 가중치를 받을 수 있도록 하여 정규화 정도를 조정합니다. 우리는 위 식을 B와 S 간의 불일치를 최소화하는 증류 항 ||B − S||²_𝐹로 확장하여 B를 학습하기 위한 목적 함수를 공식화합니다:
여기서 𝜆_𝑋는 B에 대한 L2 정규화의 강도를 제어하고 𝜆_𝐾𝐷는 증류의 강도를 조절합니다. 이 목적 함수는 B가 X로부터의 협업 신호와 S로부터 증류된 아이템 간 의미론적 관계를 동시에 포착하도록 보장합니다.
Experiments
표 1은 세 개의 실제 데이터셋에서의 성능을 보여주며, 우리는 세 가지 주요 관찰을 했습니다: (i) LLM-enhanced 방법들(예: AlphaRec과 L³AE)이 상호작용 전용 방법들 (예: SimGCL과 SGFCF)을 능가합니다. 비선형 방법들 중에서는 AlphaRec이 우수한 성능을 보여줍니다. (ii) L3AE는 모든 데이터셋에서 일관되게 최고 성능을 달성합니다. 구체적으로, L³AE는 AlphaRec 을 능가하여 R@20과 N@20에서 각각 평균 29.1%와 39.8%의 향상을 달성했으며, 동일한 지표에서 EASE를 14.7%와 15.3% 능가했습니다다. 더욱이, L³AE는 다중 핫 인코딩 대비 상당한 향상을 보여주어, LLM 표현이 CF에 유익한 의미론적으로 풍부한 신호를 포함하고 있음을 입증합니다. (iii) 선형 모델들이 비선형 모델들을 일관되게 능가하며, 데이터 희소성이 증가할수록 (Games → Toys → Books) 이러한 격차가 확대됩니다. 이는 선형 모델이 구조적 단순성과 과적합에 대한 저항성으로 인해 희소한 환경에서 더 잘 일반화된다는 것을 뒷받침합니다.
표 1. Performance comparison across three datasets. Bold indicates the best performance within each model category. * denotes statistically significant gains of L3AE over the best non-linear model (𝑝 < 0.0001 for two-tailed t-test).
표 2는 세 가지 융합 방법에 대한 성능 비교를 보여줍니다. L³AE는 다른 융합 방식들 (CEASE, Add-EASE)을 일관되게 능가하며, 모든 데이터셋에서 N@20과 R@20 모두에서 평균 1.6%의 향상을 보이고, Toys 데이터셋에서 Add-EASE 대비 최대 4.5%와 3.4%의 향상을 달성합니다. 이는 우리의 융합 방식이 이질적인 지식을 LAE에 효과적으로 주입한다는 것을 입증합니다.
표 2. Performance over fusion methods on three datasets. LLM-CEASE and LLM-Add-EASE replace the tag-item matrix in CEASE and Add-EASE with L3AE’s semantic-item matrix.
Conclusion
본 논문은 선형 오토인코더 (LAE)에 대규모 언어 모델 (LLM)을 최초로 통합하는 방법을 탐구했습니다. 우리는 LLM이 생성한 의미론적 임베딩이 기존의 다중 핫 인코딩 방식을 완전히 대체할 수 있음을 보여주었습니다. 텍스트 의미론과 상호작용 데이터로부터의 이질적인 지식을 효과적으로 통합하기 위해, 우리는 전역 최적의 닫힌 형태 해를 보장하는 2단계 최적화를 갖춘 L³AE를 제안했습니다. L³AE는 세 개의 데이터셋에서 최신 LLM 강화 방법들을 능가하는 성능을 보였으며, LLM-enhanced 선형 아키텍처가 복잡한 신경망 CF 모델들에 대한 효과적인 대안이 될 수 있음을 입증했습니다.