Pre-training & Fine-tuning: 多个领域的致胜法宝
Pre-training & Fine-tuning for Next-Item Recommendation:
Next-Item Recommendation:
推荐数据的异构性 (heterogeneity):
Computer Vision:
Natural Language Processing:
GRU4Rec: RNN; SASRec: Transformer; HSTU: Attention + Time-based positional encoding
$\textcircled{\small 1} \approx \textcircled{\small 2}$: 先进的序列推荐模型并没有依赖序列性做出更加复杂的推理 (即使 HSTU 引入了 Timestamps 信息)
$\textcircled{\small 1}/\textcircled{\small 2} \gtrapprox \textcircled{\small 3}$: Latest interaction 至关重要
上述结论与数据集预处理方式、优化目标、模型表达能力无关
[1] Xie X., et al. Contrastive Learning for Sequential Recommendation. ICDE, 2022.
[2] Liu Q., et al. STAMP: Short-term Attention/Memory Priority Model for Session-based Recommendation. KDD, 2018.
如何仅凭上下文推断马氏链下一时刻状态?
Step1: 根据 $[s_1, s_2, \ldots, s_t]$ 估计转移概率矩阵
Step2: 确定当前时刻的状态 $s_t$
Step3: 选取 $s_t \rightarrow ?$ 最大概率的状态作为预测
$\mathcal{L}_{\text{NSP}}$ 随着 tokens 增加逐渐下降, 且有多次骤降
在学习了 $10^{10}$ (约 10B) 左右 tokens 后, 大部分场景下都呈现饱和
不同场景下的最优训练 #Tokens 存在差异
存在理论上限 Bayes estimator
MPT 和 Qwen-2.5 的 Backbone 均未经过推荐训练
MPT 会更关注自身
Qwen-2.5 的 Attention Map 基本上没有区分度
MPT 甚至会产生和 SASRec+ 类似的模式
可迁移的推荐能力: 序列无关的偏好推断 & 特别关注最新交互
Next-State Prediction: ✅ Controllable ✅ Unlimited
Markovian Pre-trained Transformer (MPT): ✅ 高效 ✅ 易迁移