Limitations of Dense Retrieval and Beyond

预备知识

核心思想


proof:

  1. 由于 $\text{rank}_{\text{gt}} A$ 所关联的集合是 $\text{rank}_{\text{rt}} A$ 集合的一个子集, 因此前者的最小值 $\ge$ 后者的最小值, 因此

    $$ \text{rank}_{\text{rt}} A \le \text{rank}_{\text{gt}} A. $$
  2. ($\text{rank}_{\text{rop}} A \le \text{rank}_{\text{rt}} A$) 对于满足 $\text{rank}_{\text{rt}}A$ 的任意 $S$, 我们有

    $$ A_{ij} = 1 \Rightarrow S_{ij} > \tau_i, \\ A_{ij} = 0 \Rightarrow S_{ij} < \tau_i. $$

    倘若 $A_{ij} > A_{ik}$, 则必定有 $A_{ij} = 1, A_{ik} = 0$, 即

    $$ S_{ij} > \tau_i > S_{ik}. $$

    即 $S$ 一定是在 $\text{rank}_{\text{rop}}$ 意义上近似 $A$ 的矩阵. 因此 $\text{rank}_{\text{rop}} A \le \text{rank}_{\text{rt}} A$.

  3. ($\text{rank}_{\text{rop}} A \ge \text{rank}_{\text{rt}} A$) 对于满足 $\text{rank}_{\text{rop}}A$ 的任意 $S$, 我们有

    $$ A_{ij} > A_{ik} \Rightarrow S_{ij} > S_{ik}. $$

    定义集合

    $$ \mathcal{M} = \{S_{ij}| A_{ij} = 1\}, \quad \mathcal{N} = \{S_{ij}| A_{ij} = 0\}, $$

    取 $\tau_i = (\min(\mathcal{M}) + \max(\mathcal{N})) / 2$, 显然有

    $$ A_{ij} = 1 \Rightarrow S_{ij} > \tau_i, \\ A_{ij} = 0 \Rightarrow S_{ij} < \tau_i. $$

    即 $S$ 也一定是在 $\text{rank}_{\text{rt}}$ 意义上近似 $A$ 的矩阵. 因此 $\text{rank}_{\text{rop}} A \ge \text{rank}_{\text{rt}} A$.



proof:

  1. ($\text{rank}_{\text{gt}} A \le \text{rank}_{\pm} (2A - \bm{1}_{m \times n })$) 假设 $S$ 是满足和 $2A - \bm{1}_{m \times n}$ 相同符号的矩阵, 则有

    $$ S_{ij} > 0 \Leftrightarrow 2 A_{ij} - 1 > 0 \Leftrightarrow A_{ij} = 1. $$

    因此, $\tau = 0$ 就是使得 $S$ globally thresholdable 的阈值.

  2. ($\text{rank}_{\pm} (2A - \bm{1}_{m \times n }) - 1 \le \text{rank}_{\text{rt}}(A)$) 假设 $S$ 是满足 row-wise thresholdable 的矩阵且其秩恰为 $\text{rank}_{\text{rt}} A$. 此时存在 $\tau_i, i=1,2,\ldots, m$

    $$ A_{ij} = 1 \Rightarrow S_{ij} > \tau_i, \\ A_{ij} = 0 \Rightarrow S_{ij} < \tau_i, \\ $$

    因此 $S - \tau \bm{1}_n^T$ 和 $2A - \bm{1}_{m \times n}$ 有相同的符号. 因此

    $$ \text{rank}_{\pm} (2A - \bm{1}_{m \times n}) \le \text{rank}(B - \tau \bm{1}_n^T) \le \text{rank}(B) + \text{rank}(\tau \bm{1}_n^T) = \text{rank}_{\text{rt}} A + 1. $$

20251012113144

参考文献

  1. Weller O., Boratko M., Naim I. and Lee J. On the Theoretical Limitations of Embedding-Based Retrieval. arXiv, 2025. [PDF] [Code]
  2. Zhang Y., Zhang R., Guo J., de Rijke M., Fan Y. and Cheng X. Does Generative Retrieval Overcome the Limitations of Dense Retrieval? arXiv, 2025. [PDF] [Code]