Distilling LLM Agent into Small Models with Retrieval and Code Tools
Agent Distillation
Agent Distillation
Agent 的 Reasoning & Action 蒸馏
不同采样策略在不同曝光偏差下的区分性, 鲁棒性, 一致性
混合距离用于量化匹配 & 端到端的联合训练
序列推荐任务的马尔科夫性
分析比较了现有生成式推荐的 Tricks 并给出了一个训练框架
利用多任务/多目标优化学习到更佳的 Attention 分布, 促进跨域推荐
通过限定子区域实现 Pareto MTL
从梯度融合角度理解多任务/多目标优化
将 Product Quantization 用于搜索以降低存储占用