Zero-shot Composed Image Retrieval

  • Composed Image Retrieval 任务是基于参考图片, 找到符合文本所反映意图和需求的匹配图片. 由于打标 (Image, Text, Target) 往往会消耗大量资源, 所以衍生出更为主流的 Zero-shot Composed Image Retrieval 任务.

2025

通过裁剪数据增强更好的训练 Image feature -> Text token space 的 projector

2024

通过多模态大模型实现一阶段的推理, 实现 Training-free Zero-shot CIR
Imagine and Seek: Improving Composed Image Retrieval with an Imagined Proxy
仅通过 image feature 和 text feature 间的球面线性插值即可取得 SoTA 效果
额外利用 Caption

2023

除了通过大模型进行一般的 Training-free 的匹配, 还要求其识别出一些局部实体是否出现在候选图片中
发现 Pic2Word 的方式缺乏多样性, 提出 Language-only training for CIR
首次图片特征转换为 pseudo word token