Pareto Multi-Task Learning
通过限定子区域实现 Pareto MTL
通过限定子区域实现 Pareto MTL
非结构化的一维离散 Visual Tokens 生成策略
自回归图像生成: Multi-scale Quantization & Next-scale Prediction
多尺度 Transformer, 探究非 Subword Tokenizer 的可能性
探究非 Subword Tokenizer 的可能性
图上特征 prompt 等价各异 graph prompt
讨论 RoPE base 对于相似 Tokens 感知能力的影响
LLM Representational Collapse
MicroAdam, 通过梯度稀疏化以及 error compensation 实现轻量的优化器
EMR-MERGING, 多任务权重合并技术