Blogs

April 2, 2026

PAR$^2$-RAG: Planned Active Retrieval and Reasoning for Multi-Hop Question Answering

粗召回 & 细检索的多条 RAG 方案

March 30, 2026

Reasoning on Graphs: Faithful and Interpretable Large Language Model Reasoning

如何蒸馏图的推理路径

March 25, 2026

SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?

SWE-Bench Pro

March 5, 2026

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

GRPO: Group Relative Policy Optimization

March 5, 2026

Proximal Policy Optimization Algorithms

PPO

March 4, 2026

REINFORCE Algorithm

著名的 REINFORCE 算法

March 4, 2026

Trust Region Policy Optimization

PPO 的前身

February 27, 2026

SWE-smith: Scaling Data for Software Engineering Agents

自动化 Repository-level 实例任务生成

February 26, 2026

SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering

定制化 Agent-Computer Interface

February 26, 2026

SWE-Bench: Can Language Models Resolve Real-World GitHub Issues?

SWE-Bench