Multimodal Pre-training for Sequential Recommendation via Contrastive Learning

预备知识

核心思想

20250324111832

Multimodal Feature Extraction

Multimodal Mixup Sequence Encoder

  1. Sequence Random Dropout: 随机的 Dropout, 提取出 $\mathcal{S}$ 的部分子序列 $\tilde{\mathcal{S}}$.
  2. Text and Image Encoders: 这部分主要是将之前提的特征进行一个融合 (注意每个 item 有多个文本和图片表征). 以文本为例:
$$ \alpha^t = \text{softmax}\big( (\mathbf{x}_i^t \mathbf{W}_1^t + \mathbf{b}_1^t) \mathbf{W}_2^t + b_2^t \big), \\ \mathbf{e}_i^t = \sum_{j=1}^{|\mathcal{T}_i|} \alpha_j^t \mathbf{x}_i^t [j, :]. $$

然后通过 MoE 进行进一步特征变换, 最终得到整个文本/图片序列表征:

$$ \mathbf{Z}^t = stack[ \mathbf{z}_1^t, \mathbf{z}_2^t, \ldots, \mathbf{z}_{|\mathcal{\tilde{S}}|}^t ], \\ \mathbf{Z}^v = stack[ \mathbf{z}_1^v, \mathbf{z}_2^v, \ldots, \mathbf{z}_{|\mathcal{\tilde{S}}|}^v ]. $$
  1. Complementary Sequence Mixup: 为了进一步抹除两个模态的差异, 以一个 $p \in [0, 0.5]$ 的概率进行 Mixup (两个序列混合), 得到:
$$ \mathbf{M}^t, \mathbf{M}^v. $$
  1. Transformer Layers: 对 $\mathbf{M}^t, \mathbf{M}^v$ 进行特征变化得到最终的表示:
$$ \mathbf{h}^t, \mathbf{h}^v. $$

Pre-training Objectives

参考文献

  1. Zhang L., Zhou X., Zeng Z., and Shen Z. Multimodal Pre-training for Sequential Recommendation via Contrastive Learning TORS, 2024. [PDF] [Code]