DIFF: Dual Side-Information Filtering and Fusion for Sequential Recommendation
15 Apr 2025
15 Apr 2025
SIGIR 2025에 게재된 논문 “DIFF: Dual Side-Information Filtering and Fusion for Sequential Recommendation”을 소개합니다. 논문의 상세 정보는 아래와 같습니다.
Authors: Hye-young Kim, Minjin Choi, Sunkyung Lee, Ilwoong Baek, Jongwuk Lee
The 48th International ACM SIGIR Conference on Research and Development in Information Retrieval
The paper and source code will be available soon.
Introduction
순차적 추천 시스템(Sequential recommendation)은 사용자의 과거 소비 이력을 바탕으로 다음에 선호할만한 항목을 예측하는 것을 목표로 합니다. 특히 최근에는 풍부한 아이템 부가 정보(e.g. 브랜드, 카테고리 등)를 활용하여 더욱 정교한 추천을 제공하는 Side-information Integrated Sequential Recommendation(SISR) 연구가 많이 수행되고 있습니다. 이렇게 아이템 속성을 잘 활용하면 사용자의 취향을 더 깊이 파악할 수 있고, 새로운 아이템이나 데이터 희소 문제를 완화할 수 있다는 장점이 있습니다.
이 때, 아이템 속성을 어떻게 결합하느냐에 따라 여러 기법들이 제안되어 왔습니다.
초기 융합 (Early Fusion): 아이템 ID와 속성 정보를 처음부터 합쳐서 하나의 입력으로 처리합니다. 하지만 서로 다른 표현 공간에 위치한 정보가 섞이면서 왜곡될 위험이 있습니다.
늦은 융합(Late Fusion): 아이템 ID와 속성을 따로 따로 처리한 뒤, 마지막에 결과를 섞습니다. 각 정보를 잘 살릴 수 있지만, 서로 간의 연관관계를 놓칠 수 있습니다.
중간 융합( Intermediate Fusion) : 각 속성별 아이템 중요도 가중치를 얻은 뒤, ID로 최종 결합합니다. 정보 왜곡의 위험이 적지만, 속성 정보 자체를 직접 반영하지 못한다는 한계가 있습니다.
Figure 1. 다양한 부가 정보 융합 기법
Limitation of Existing Works
기존 연구들은 다음과 같은 한계를 지닙니다.
시퀀스 내부의 노이즈 신호
사용자 시퀀스에는 본래의 취향과 무관한 우발적 클릭이나 단기적 관심 변화 등의 불규칙적인 패턴이 포함될 수 있습니다. 그러나 대부분의 연구들은 모든 아이템 신호를 그대로 활용하여 사용자 표현을 학습하기 때문에, 실제 사용자 선호와는 맞지 않는 노이즈 신호가 모델에 포함된 위험이 있습니다.
불충분한 부가 정보 활용
초기 융합과 늦은 융합의 한계로 인해 최근 널리 활용되고 있는 중간 융합 기법은 아이템 속성을 주의 가중치 (attention weight) 계산을 돕는 용도로서만 사용합니다. 즉, 최종적으로는 아이템 ID 임베딩을 합산해 사용자 표현을 얻기 때문에, 브랜드, 카테고리 등의 속성이 직접적으로 사용자 표현에 반영되지 못합니다. 이로 인해 다양한 속성 간의 풍부한 협업 신호(collaborative signals)를 놓칠 가능성이 존재합니다.
Proposed Model: DIFF
위 두 가지 challenge를 해결하기 위해 저희는 Dual Side-Information Filtering and Fusion(DIFF) 모델을 제안하였습니다. DIFF는 크게 다음과 같은 세 부분으로 구성됩니다:
주파수 기반 노이즈 필터링(Frequency-based Noise Filtering )
DIFF는 우발적 클릭 또는 단기적 관심과 같이 실제 사용자 선호와 관련없는 신호를 제거하기 위해 주파수 영역으로의 변환을 수행합니다. 아이템 ID와 각 속성 시퀀스를 각각 주파수 영역으로 변환한 뒤, 불규칙적이거나 중요도가 낮은 주파수 성분을 제거합니다. 이를 통해 실제 사용자 선호를 반영하는 핵심 신호만을 강화할 수 있으며, 다중 시퀀스에 대해 필터링을 적용함으로써 보다 정교한 노이즈 제거를 가능하게 합니다.
이중 멀티시퀀스 융합(Dual Multi-sequence Fusion)
노이즈가 제거된 시퀀스들을 효과적으로 통합하기 위해, DIFF는 서로 다른 장점을 지니는 중간 융합과 초기 융합 방식을 함께 활용합니다. 저희는 기존 연구들이 정보 침식(information invasion) 문제를 우려하여 초기 융합 방식의 활용은 제한하거나 배제하는 경향이 있었으며, 이로 인해 다양한 속성 간 상관관계 모델링 능력을 간과하고 있다는 점에 주목하였습니다. 초기 융합은 아이템을 여러 속성 임베딩과 함께 하나의 표현으로 묶어, 서로 다른 속성들 간의 상호작용을 직접적으로 학습하며, 이를 통해 브랜드-카테고리등 다양한 속성 조합에 대한 협업 신호를 놓치지 않고 잘 포착할 수 있습니다. DIFF는 초기 융합을 통해 다차원 속성 정보를 통합하고, 중간 융합을 통해 ID 중심의 선호 학습을 보완함으로써, ID와 속성 모두를 아우르는 정교한 사용자 표현을 학습합니다. 두 융합 방식의 상호보완적 조합을 통해 DIFF는 사용자 취향의 전반적인 구조뿐만 아니라 세부적인 속성 선호까지도 효과적으로 포착할 수 있습니다.
정보 침식(Information invasion) 방지를 위한 표현 정렬(Representation Alignment)
아이템 ID와 각 속성 임베딩은 서로 다른 표현 공간에 위치합니다. 따라서 이를 단순한 융합 함수(e.g. summation, concatenation, gating)로 합치는 초기 융합에서는 특정 정보가 과도하게 강조되거나 왜곡되는 정보 침식(information invasion) 문제가 발생할 수 있습니다. 이를 방지하기 위해 DIFF에서는 정렬 손실(Alignment Loss)을 설계하여, 아이템 ID와 속성 임베딩의 벡터 공간을 가깝게 만들어, 의미를 공유하면서도 적절한 차이를 유지할 수 있도록 유도합니다.
Figure 2: DIFF 모델의 전체 구조
Experiments
Overall Performance
저희는 DIFF의 효과를 검증하기 위해 대표적인 네 가지 순차적 추천 벤치마크 데이터셋을 활용하여 다양한 비교 모델과 비교를 수행하였습니다.
DIFF는 전체 데이터셋에 대해 가장 강력한 비교 모델 대비 Recall@20에서 최대 14.1%, NDCG@20에서 최대 12.5%의 성능 개선을 이루었습니다. 이는 DIFF의 노이즈 신호 제거 방식과 이중 융합 방식이 더욱 정교한 추천을 가능케 하였음을 시사합니다.
Figure 3. DIFF와 비교 모델들의 전체 성능 비교
Robustness to Noisy Sequence
DIFF의 주파수 기반 노이즈 필터링의 효과를 검증하기 위해 노이즈 환경에서의 모델 성능을 확인하였습니다. 구체적으로, 저희는 테스트 시퀀스 내 일부 아이템을 무작위로 교체하는 방식을 활용해 우발적 클릭과 같은 현실적인 노이즈를 주입하여 환경을 구성하였습니다. 그 결과, 모든 모델이 성능 저하를 겪었지만, DIFF는 다른 비교모델 대비 훨씬 완만한 성능 하락을 보여주었습니다. 구체적으로, Beauty 데이터셋에서 5% 노이즈 조건 하에 DIFF는 단 7.1%의 성능 하락을 보인 반면, ASIF, MSSR, DIF-SR은 각각 16.2%, 15.4%, 10.5%의 큰 감소를 나타냈습니다. Yelp 데이터셋에서 25% 노이즈 상황에서도 DIFF는 21.4% 하락에 그친 반면, 비교 모델들은 26.6%~32.9%까지 하락해 격차가 더 벌어졌습니다. 이는 DIFF가 불필요한 신호를 효과적으로 제거하여 핵심 사용자 선호를 잘 보존함을 시사합니다.
Figure 4. Yelp 및 Beauty 데이터셋에서의 노이즈 시퀀스에 대한 강건성 분석
Case Study
Figure 5에서는 Yelp 데이터셋을 대상으로 이중 융합(dual fusion) 전략의 효과를 분석하기 위한 case study를 수행하였습니다.
ID 중심 융합(IF)은 타겟 아이템과 동일한 “Coffee & Tea” 카테고리를 가진 아이템(i7)에 높은 주의 가중치를 부여하며 속성 정밀도 측면에서 강점을 보였습니다. 반면, 속성 기반 융합(AF)은 “Sandwiches”와 같은 유사한 카테고리를 가진 아이템(i2, i7)에 고르게 주의를 할당해 더 넓은 커버리지를 확보하였습니다. 이처럼 IF는 정밀한 속성 강조에, AF는 다양한 선호 포착에 강점을 보여, 두 전략의 결합이 사용자 선호를 보다 풍부하게 반영할 수 있음을 확인하였습니다.
Figure 5. DIFF의 이중 융합에서 각 융합 종류에 따른 아이템 attention 분포의 시각화
Conclusion
본 연구에서 제안한 DIFF 모델은 노이즈 제거와 아이템 속성의 효과적인 활용을 통해 사용자 선호를 한층 정밀하게 학습할 수 있음을 확인하였습니다.
DIFF는 주파수 기반 노이즈 필터링으로 불필요한 신호를 제거하고, 초기 융합을 통해 다양한 속성 간의 상호작용을 직접 반영하며, 중간 융합을 통해 아이템 ID 간의 연관성을 정교하게 포착합니다. 이러한 두 융합 전략의 상호보완적인 결합을 통해, DIFF는 정밀성과 다양성을 모두 갖춘 사용자 표현을 효과적으로 학습할 수 있습니다. 이를 바탕으로, DIFF는 더욱 복잡한 추천 환경에서도 높은 정확도와 표현력을 동시에 제공하는 핵심 기술로 활용될 것으로 기대됩니다.