Multimodal Collaborative Filtering

推荐系统是一个显然的数据驱动的场景, 且数据的形式日新月异. 为了充分利用现实场景中丰富的文字、图片、音频等多媒体信息, 多模态推荐应运而生.
单独讨论协同过滤 (而非 Multimodal Recommendation) 是因为这个方向的论文更注重模态的融合和去噪, 而在多模态序列推荐中, 往往掺杂更多对于 Encoder 的思考, 也更多是舍弃 ID 的场景.

MMR

Enhanced I-I Semantic Graph

系统比较了多模态在不同场景不同阶段的效用, 以及最佳的利用结构

LVLM Benchmark

多模态大模型通过 5 种策略增强多模态序列推荐的评测

R2MR

由高质量模态修正另一高质量模态特征以改善多模态协同过滤

Spectrum Shift Correction

指出了交互图掺杂多模态信息后频谱偏移现象并提出解决方法

STAIR

指出电商场景下交互行为的非模态驱动性, 以及交互图卷积的模态擦除问题

MGCN

提出后续常用的门控机制用以模态去噪

LightGT

Layer-wise (graph) position encoder + Attention

MMSSL

相当复杂的对比学习

FREEDOM

进一步简化 LATTICE + 动态图采样

BM3

'高效'的对比学习

DualGNN

应用 User 共现图

LATTICE

首次尝试使用多模 kNN 图

MMGCN

图、文、音三路卷积然后合并

VBPR

多模态首次用在协同过滤上, 图像特征拼接ID embedding