Zero-shot Composed Image Retrieval

Composed Image Retrieval 任务是基于参考图片, 找到符合文本所反映意图和需求的匹配图片. 由于打标 (Image, Text, Target) 往往会消耗大量资源, 所以衍生出更为主流的 Zero-shot Composed Image Retrieval 任务.

PrediCIR

通过裁剪数据增强更好的训练 Image feature -> Text token space 的 projector

OSrCIR

通过多模态大模型实现一阶段的推理, 实现 Training-free Zero-shot CIR

IP-CIR

Imagine and Seek: Improving Composed Image Retrieval with an Imagined Proxy

Slerp

仅通过 image feature 和 text feature 间的球面线性插值即可取得 SoTA 效果

KEDs

额外利用 Caption

Local Concept Re-ranking

除了通过大模型进行一般的 Training-free 的匹配, 还要求其识别出一些局部实体是否出现在候选图片中

LinCIR

发现 Pic2Word 的方式缺乏多样性, 提出 Language-only training for CIR

Pic2Word

首次图片特征转换为 pseudo word token