GRAM: Generative Recommendation via Semantic-aware Multi-granular Late Fusion
3 Jun 2025
3 Jun 2025
본 문서에서는 ACL 2025 Main Conference에 게재된 논문 “GRAM: Generative Recommendation via Semantic-aware Multi-granular Late Fusion”을 소개합니다. 논문의 상세 정보는 아래와 같습니다.
Title: GRAM: Generative Recommendation via Semantic-aware Multi-granular Late Fusion
Authors: Sunkyung Lee, Minjin Choi, Eunseong Choi, Hye-young Kim, Jongwuk Lee
The 63rd Annual Meeting of the Association for Computational Linguistics (ACL)
Generative Recommendation
생성 추천은 사용자의 과거 행동 이력을 바탕으로 다음에 선호할 아이템의 식별자(ID)를 언어 모델이 직접 생성하는 새로운 추천 방식입니다. 예를 들어 <그림 1>과 같이, 사용자가 '4-3-1', '5-3-2' 등을 구매한 이력이 있다면, 모델이 다음에 구매할 아이템을 의미하는 텍스트 식별자 '2-7-9'를 생성하는 것입니다.
기존 추천 시스템이 주로 사용자와 아이템을 벡터 공간에 임베딩하고 유사도를 계산하는 방식에 집중했다면, 생성 추천은 이 과정을 텍스트 생성 문제로 변환하여 대규모 언어 모델(LLM)이 가진 방대한 지식을 직접 활용할 수 있다는 장점이 있습니다.
<그림 1> Generative Recommendation
Motivation
생성 추천 모델은 LLM의 능력을 활용할 수 있는 강력한 패러다임이지만, 기존 연구들은 중요한 한계를 가집니다. 아이템의 풍부한 메타데이터를 아이템 ID로 변환하는 과정에서 많은 정보가 손실된다는 점입니다. <그림 2>와 같이, 사용자의 선호도가 아이템 설명에는 담겨 있었지만, 정작 ID에는 그 정보가 누락된다면 모델은 사용자의 취향을 정확히 파악하기 어렵습니다. 모델은 결국 ID로만 구성된 단편적인 자연어 문장을 보기 때문입니다. 이러한 근본적인 정보 손실 문제는 LLM이 추천 시스템에서 효과적으로 사용되기 위해 풀어야 할 두 가지 구체적인 과제로 이어집니다.
<그림 2> Illustration of our motivation. While (a) existing works rely solely on item IDs for prediction, (b) GRAM directly leverages rich textual metadata during prediction, enabling more accurate recommendations.
첫째, 암시적인 아이템 관계를 온전히 이해하지 못하는 문제입니다.
LLM은 일반적인 언어 능력은 뛰어나지만, 추천 도메인에만 존재하는 특수한 의미 관계를 파악하는 데는 한계가 있습니다. 구체적인 관계는 다음과 같습니다.
계층적 관계 (Hierarchical Semantics): '립스틱'과 '마스카라'가 모두 '화장품'이라는 상위 카테고리에 속한다는 개념적 계층 구조는 매우 중요한 정보입니다. 하지만 모델이 이런 관계를 이해하지 못하면, 단순히 단어의 표면적 유사성에만 의존하여 <그림 3>처럼 '비누(soap)'와 관련 없는 '립스틱(lipstick)'을 추천하는 등 의미적으로 일관되지 않은 결과를 낼 수 있습니다. 또한, 생성 추천의 추론 과정 특성상 ID를 구성하는 토큰이 자기회귀적 디코딩(autoregressive decoding)을 통해 생성되기 때문에, 보다 광범위하고 일반적인 분류가 앞 토큰에, 구체적인 아이템 특성이 뒷 토큰에 위치하도록 하는 것은 매우 중요합니다.
협력적 관계 (Collaborative Semantics): 'A 아이템을 구매한 사용자는 B 아이템도 구매하는 경향이 있다'와 같은 사용자-아이템 상호작용 패턴은 추천의 핵심이지만, 단일 사용자 이력만으로는 추론하기 어렵습니다.
둘째, 풍부한 아이템 정보를 효율적으로 처리하지 못하는 문제입니다.
아이템은 제목, 설명, 카테고리 등 유용한 정보를 많이 담고 있지만, 이 모든 텍스트를 입력으로 사용하면 시퀀스가 너무 길어집니다. 이는 트랜스포머(Transformer) 모델의 연산량이 시퀀스 길이의 제곱에 비례하기 때문에 심각한 계산 병목 현상을 유발합니다. <그림 4>처럼 모든 텍스트를 단순히 이어 붙이는 초기 융합(Early Fusion) 방식은 비현실적이며, 이 때문에 기존 연구들은 일부 정보만 사용해 결국 정보 손실을 감수해야만 했습니다.
<그림 3> Illustration of the hierarchy when autoregressively decoding IDs
<그림 4> Schematic diagrams of early fusion and late fusion
Proposed Method: GRAM
이러한 한계를 극복하기 위해, 본 연구에서는 GRAM (Generative Recommender via semantic-Aware Multi-granular late fusion)을 제안합니다. GRAM은 (1) semantic-to-lexical translation과 (2) multi-granular late fusion이라는 두 가지 핵심 요소를 통해 앞서 언급된 문제들을 해결합니다.
<그림 5> Model architecture
(1) Semantic-to-Lexical Translation
이 단계는 아이템 관계 정보를 LLM이 이해할 수 있는 텍스트로 변환하는 전처리 과정입니다.
Hierarchical Semantics Indexing: 아이템의 텍스트 임베딩을 계층적 k-평균 클러스터링(hierarchical k-means clustering)을 사용하여 그룹화하고, 각 클러스터를 대표하는 단어를 LLM의 기존 어휘(vocabulary)에서 찾아 계층적인 텍스트 ID를 생성합니다. 예를 들어, 'soap-mild-mango'처럼 비슷한 아이템은 'soap-mild-'와 같은 접두사를 공유하게 됩니다.
Collaborative Semantics Verbalization: 협력 필터링(CF) 모델을 사용해 각 아이템과 가장 유사한 top-k 아이템들을 찾고, 이 정보를 "similar items: soap-essence-argan, ..."과 같은 텍스트 속성으로 만들어 아이템 정보에 추가합니다.
(2) Multi-granular Late Fusion
이 구조는 풍부한 아이템 정보를 효율적으로 처리하기 위해 설계되었습니다.
Multi-granular Encoder: 입력을 두 가지 종류의 프롬프트로 나누어 독립적으로 인코딩합니다. 하나는 사용자 전체의 선호도를 나타내는 coarse-grained user prompt이고, 다른 하나는 각 아이템의 상세 정보를 담은 fine-grained item prompt입니다.
Late Fusion Decoder: 각기 인코딩된 프롬프트들의 결과(hidden representation)를 입력 단계가 아닌, 디코더의 cross-attention 단계에서 통합합니다. 이 late fusion 방식을 통해 입력 시퀀스 길이로 인한 연산량 병목을 피하면서도 모든 정보를 활용할 수 있게 됩니다.
Experiments
실험 결과, 제안 모델 GRAM은 아마존(Beauty, Toys, Sports), Yelp 등 4개의 벤치마크 데이터셋에서 기존의 전통적인 추천 모델 및 최신 생성 추천 모델들을 모두 능가하는 최고 수준의 성능을 달성했습니다.
Conclusion
본 연구에서는 생성 추천의 핵심 한계를 해결하기 위해 새로운 모델 GRAM을 제안합니다. GRAM은 LLM이 아이템의 암시적인 관계를 이해하도록 돕는 Semantic-to-Lexical Translation과, 풍부한 아이템 정보를 정보 손실이나 계산 병목 없이 효율적으로 처리하는 Multi-granular Late Fusion을 핵심 방법론으로 제시합니다.
다양한 벤치마크 데이터셋을 통한 실험에서 GRAM은 기존의 생성 추천 모델들을 뛰어넘는 최고 수준의 성능을 달성했습니다. 특히, 지연 융합 아키텍처를 통해 LLM의 약점이었던 긴 텍스트 처리의 비효율성을 극복하면서도, 아이템의 풍부한 정보를 온전히 활용하여 추천 정확도를 높였습니다. 이는 정확성과 효율성 사이의 균형이 필수적인 실제 추천 시스템 환경에 매우 적합한 접근법이 될 수 있습니다.
본 연구가 LLM을 활용한 생성 추천 시스템이 정보 손실을 최소화하고 아이템의 다채로운 특성을 온전히 활용하는 방향으로 나아가는 데 중요한 기여를 하기를 기대합니다.