PAR$^2$-RAG: Planned Active Retrieval and Reasoning for Multi-Hop Question Answering
粗召回 & 细检索的多条 RAG 方案
粗召回 & 细检索的多条 RAG 方案
如何蒸馏图的推理路径
SWE-Bench Pro
GRPO: Group Relative Policy Optimization
PPO
著名的 REINFORCE 算法
PPO 的前身
自动化 Repository-level 实例任务生成
定制化 Agent-Computer Interface
SWE-Bench