Recommendation Foundation Model

通用推荐模型的前景似乎变得开阔了, Item 可以用多模态特征抽象, User 则天然可以用序列和某些静态特征表示, 由此或许真的可能通向推荐自己的基座模型.

2025

UniTok

通过 TokenMOE 和互信息约束实现一个 multi-domain 的 Tokenizer

Climber

一个 CTR 领域更加高效 Scaling 的推荐架构

A Survey on Generative Recommendation: Data, Model, and Tasks

相当全面的综述

MiniOneRec

何向南老师团队开源的类 OneRec 架构 (基于 Qwen3)

BLOGER

Tokenizer & Recommender 共同训练 (bi-level optimization)

Pctx

个性化 semantic IDs

OnePiece

Shoppe 的 retrieval & ranking 混合 (bi-directional) Transformer: 丰富的 Context 以及渐进式的多步推理

UniSearch

快手的端到端生成式检索模型: Progressive Contrastive Learning & SimVQ

OneSearch

快手的生成式检索模型, 在向量量化前引入协同和语义融合

RecBase: Generative Foundation Model Pretraining for Zero-Shot Recommendation

华为在多个开源数据集上训练的生成式推荐模型, 利用课程学习训练 Tokenizer

RECBENCH-MD

基座模型通用推荐能力 Benchmark: 19 基座模型 & 10 场景 & 15 数据集

OneRecv2

提出 Lazy Decoder 以提高效率 & 用户反馈作为强化学习信号

PSRQ

Progressive Semantic Residual Quantization: 残差与残差补的量化

DQ-VAE

在 SVD 分解张成的子空间中分别进行向量量化

DAS

协同对齐 & 量化: One-Stage Contrastive Alignment

SPARC

双塔模型 & End-to-End joint learning CodeBook

HiD-VAE

借助 LLM 打标的 Tag 来限制 RQ-VAE 量化过程, 得到解释性更强的 Semantic IDs

GRID

Snap 提出的一个生成式推荐的训练框架, 并分析比较了一些常用的 Tricks

RankMixer

抖音在 (非生成式) 大模型推荐上的探索: TokenMixing & Per-token FFN

RecFound

华为提出的 Recommendation Foundation Model 的设想: 通过多样的 Embedding/Generative + Task-specific MoE + Adaptive Sampling 来增强 LLM

MTGR

美团将 HSTU 应用到 ranking 阶段的尝试: Group Normalization 对齐不同语义空间的操作有点意思

UniGRF

用 Next-item 统一 Retrieval and Ranking, 强调 ranking 对于 retrieval 阶段的辅助

CCFRec

通过 Q-Former 将 semantic IDs 转换为 textual IDs, 旨在实现协同/文本特征的高效融合

COBRA

百度提出了一种通过离散编码衍生到稠密表示的框架, 二者结合可以获得更好的效果

OneRec

端到端生成式推荐在快手团队的尝试, 主要用于视频流推荐, 特征处理 + 离散编码 + reward

Unified Semantic and ID Representation Learning

分析了 Cosine 和 Euclidean 距离测度对于向量量化的差异

PrefEval

一个衡量 LLM 是否具备 Preference Following 的 Benchmark

MoLoRec

LLM-based, Domain-general + Domain-specific LoRAs

2024

LIGER

发现了生成式推荐容易过拟合到见过的 Code 组合, 导致在 Cold-start 商品上表现反而极差

AlphaRec

论证了 LLM 有着不逊色 BERT 类模型的编码能力, 同时扩展了用户意图嵌入等方向

EAGER

Behavior & Semantic + 分层 K-means 离散编码 + 对比学习

LETTER

兼顾语义和协同信息的 Tokenizer: 引入协同对齐损失

IDGenRec

利用语言模型'精炼'出文本 ID, 用于 Base Recommender 的 Diverse Beam Search 生成

HSTU

通过 Action 统一 retrieval 和 ranking. 针对 transformers Attention 的改进很吸引人, 而且似乎已经被工业界验证了

2023

LC-Rec

LLM + RQ-VAE + 非常丰富的多任务训练

Tiger

向量量化用于生成式推荐

MoRec

实验详细探讨了 ID- vs. Modality-based 的现阶段差距

2022

UniSRec

仅基于文本实现的多场景可迁移序列推荐模型, 引入了 MoE-enhanced Adaptor 以及相应的 Parameter-Efficient Fine-tuning