Multimodal Collaborative Filtering

  • 推荐系统是一个显然的数据驱动的场景, 且数据的形式日新月异. 为了充分利用现实场景中丰富的文字、图片、音频等多媒体信息, 多模态推荐应运而生.
  • 单独讨论协同过滤 (而非 Multimodal Recommendation) 是因为这个方向的论文更注重模态的融合和去噪, 而在多模态序列推荐中, 往往掺杂更多对于 Encoder 的思考, 也更多是舍弃 ID 的场景.

2025

Enhanced I-I Semantic Graph
系统比较了多模态在不同场景不同阶段的效用, 以及最佳的利用结构
多模态大模型通过 5 种策略增强多模态序列推荐的评测
由高质量模态修正另一高质量模态特征以改善多模态协同过滤
指出了交互图掺杂多模态信息后频谱偏移现象并提出解决方法

2024

指出电商场景下交互行为的非模态驱动性, 以及交互图卷积的模态擦除问题

2023

提出后续常用的门控机制用以模态去噪
Layer-wise (graph) position encoder + Attention
相当复杂的对比学习

2022

进一步简化 LATTICE + 动态图采样
'高效'的对比学习

2021

应用 User 共现图
首次尝试使用多模 kNN 图

2019

图、文、音三路卷积然后合并

2015

多模态首次用在协同过滤上, 图像特征拼接ID embedding