Pareto Multi-Task Learning
通过限定子区域实现 Pareto MTL
通过限定子区域实现 Pareto MTL
从梯度融合角度理解多任务/多目标优化
图上特征 prompt 等价各异 graph prompt
讨论 RoPE base 对于相似 Tokens 感知能力的影响
理解 RoPE 的高低频
Adam 预训练的 1-bit SGD 优化方法
GaLore, 低秩空间中的梯度投影以及权重更新
MicroAdam, 通过梯度稀疏化以及 error compensation 实现轻量的优化器