HiD-VAE: Interpretable Generative Recommendation via Hierarchical and Disentangled Semantic IDs

研究背景

核心思想

整体框架

HiD-VAE 采用两阶段设计: Stage 1 离线学习层次化解耦的 item tokenizer; Stage 2 基于冻结的 tokenizer 训练序列推荐模型.

20260612183642

Stage 1: 层次化与解耦的语义 ID 学习

层级标签生成 (可选 Stage 0)

对于缺少天然层级标签的数据集 (如 KuaiRand), HiD-VAE 提供了一套 LLM-based 的 “retrieval-then-classification” 流程:

  1. 候选检索: 用预训练句子编码器将商品文本和候选标签编码为向量, 通过 ANN 检索每层 top-K 候选标签;
  2. LLM 分类: 以商品内容、上级标签和候选集为 prompt, 让 LLM 从候选中选出最合适的标签.

该流程保证生成的标签始终来自预定义候选集, 避免了 LLM 幻觉问题.

Stage 2: 可解释的生成式推荐

关键洞察

继往开来

参考文献

  1. Fang D., Gao J., Zhu C., Li Y., Zhao X. and Chang Y. HiD-VAE: Interpretable Generative Recommendation via Hierarchical and Disentangled Semantic IDs. arXiv, 2025. [PDF]