Zero-shot Composed Image Retrieval
- Composed Image Retrieval 任务是基于参考图片, 找到符合文本所反映意图和需求的匹配图片. 由于打标 (Image, Text, Target) 往往会消耗大量资源, 所以衍生出更为主流的 Zero-shot Composed Image Retrieval 任务.
2025
通过裁剪数据增强更好的训练 Image feature -> Text token space 的 projector
2024
2023
除了通过大模型进行一般的 Training-free 的匹配, 还要求其识别出一些局部实体是否出现在候选图片中
发现 Pic2Word 的方式缺乏多样性, 提出 Language-only training for CIR
首次图片特征转换为 pseudo word token