Trust Region Policy Optimization
PPO 的前身
PPO 的前身
零阶优化 & 收敛理论
向量检索的瓶颈以及生成式检索的未来
理解 Scaling up Embedding Size 过程中会出现的 double-peak/logarithmic 现象
通过限定子区域实现 Pareto MTL
从梯度融合角度理解多任务/多目标优化
图上特征 prompt 等价各异 graph prompt
讨论 RoPE base 对于相似 Tokens 感知能力的影响
理解 RoPE 的高低频