GraphLocator: Graph-guided Causal Reasoning for Issue Localization

February 25, 2026

Content

预备知识

(Issue Localization) 虽然 github 的仓库的 issues 通常包含相应的问题描述, 但这些描述与其所指向的具体代码块之间往往存在一定偏差, 进而与实际问题的根因不完全一致, 主要体现在以下两个方面: (1) symptom–to-cause mismatches: issue 中所陈述的表层现象与真实的根本原因之间可能存在显著距离, 往往需要经过多步依赖关系追溯或跨模块分析才能定位问题本源; (2) one-to-many mismatches: 在部分情形下, 单一 issue 的修复并非对应于某一个独立的 method/function, 而是需要同时对多个相关的 method/function 块进行协同修改。

20260225112719

20260225113717

20260225115311

如上图所示, 总得来说, 在 RDFS 的基础上通过 SearchAgent 形成原始 issue 的关联节点, 并在基础上逐步形成 sub-issue 以及相应的关联节点.
(RDFS) RDFS 的生成是 issue-无关的, 通过 tree-sitter 可以快速实现.
(Symptom Vertices Locating) GraphLocator 通过 SearchAgent 在图上 (RDFS) 搜索和原始 issue 相关的元素节点, SearchAgent 所依赖的工具如下:

20260225115748

(Dynamic CIG Discovering) 接着, GraphLocator 利用 CausalAgent 逐步扩展 CIG, 其大致流程如下:
1. 计算 sub-issue 对其他 sub-issue 的综合影响力:
  $$ \Psi(x) = 1 - \prod_{(x, y) \in \mathcal{Y}} (1 - \psi(x, y)). $$
2. 选择综合影响力最大的 sub-issue, 找到 RDFS 中和 sub-issue 相关元素节点的邻居 $\mathcal{O}^t$;
3. 在此基础上 ($I, \mathcal{G}^{t-1}, x, \mathcal{O}^t$) 利用 CausalAgent 形成新的 sub-issue, 得到 $\mathcal{G}^t$.

注: CausalAgent 在处理 $\mathcal{G}^{t-1}$ 的时候采用 Mermaid format 进行序列化, 个人认为这种方式确实比较适配 LLM.

本文主要关注在 file, module, function 三个层次的定位准确性, 对于每个层次均考虑如下四个指标:
1. Success Location:
  $$ SL = \frac{1}{|\mathcal{I}|} \sum_{i \in \mathcal{I}} \mathbb{I}[L_i \subset L_i']. $$
2. Recall:
  $$ Rec = \frac{1}{|\mathcal{I}|} \sum_{i \in \mathcal{I}} \frac{|L_i \cap L_i'|}{|L_i|}. $$
3. Precision:
  $$ PRE = \frac{1}{|\mathcal{I}|} \sum_{i \in \mathcal{I}} \frac{|L_i \cap L_i'|}{|L_i'|}. $$
4. F1-Score:
  $$ F1 = \frac{1}{|\mathcal{I}|} \sum_{i \in \mathcal{I}} \frac{2 \cdot |L_i \cap L_i'|}{|L_i| + |L_i'|}. $$
这里 $\mathcal{I}$ 表示 issues 集合, $L_i$ 表示 ground-truth locations, $L_i'$ 则是预测结果. 显然, SL, Recall 主要关注能否"定位全", PRE 主要关注能否"定位准", F1 则是二者兼顾.

Liu W., Peng C., Gao P., Liu A., Zhang W., Zhao H. and Jin Z. GraphLocator: Graph-guided Causal Reasoning for Issue Localization. arXiv, 2025. [PDF] [Code]