Pareto Multi-Task Learning
通过限定子区域实现 Pareto MTL
通过限定子区域实现 Pareto MTL
从梯度融合角度理解多任务/多目标优化
将 Product Quantization 用于搜索以降低存储占用
通过 Q-Former 将 semantic IDs 转换为 textual IDs
非结构化的一维离散 Visual Tokens 生成策略
Visual Tokens & Masked Image Modeling
自回归图像生成: Multi-scale Quantization & Next-scale Prediction
兼顾 Low-level 的 Pixel 信息和 High-level 的 Semantic 信息
非常自然的 Image-Codeword+Text-LLM-NextCodeWord-Generation 流程
符号序列的自动切分, 探究非 Subword Tokenizer 的可能性
TiTok 框架 + Softmax 版 Vector Quantization 以期更高的压缩比
多尺度 Transformer, 探究非 Subword Tokenizer 的可能性
探究非 Subword Tokenizer 的可能性
借鉴 Hawkes Process 思想建模知识掌握的交叉影响和衰减
通过减小 KV cache size 加速 LLMRec 的推理
COBRA, 链接离散编码和稠密表示的尝试
LC-Rec, LLM + RQ-VAE + 丰富的多任务训练
关于利用 Sinkhorn 距离求解离散最优传输问题的记录
OneRec, 端到端的推荐模型
SimVQ, 坐标变换替代可学习 Codebook
一种利用 Rotation Trick 来替代 STE 的方案
是否每个 Item 都值得一个可学习的 Embedding 呢
来自 OpenAI 的 process supervision
来自 DeepSeek 的 process supervision
在 Lion 优化器之上的一些探索
个人的环境配置
图上特征 prompt 等价各异 graph prompt
统一 graph/edge/node-level 的 graph prompt
Laplace 变换的基本概念
讨论 RoPE base 对于相似 Tokens 感知能力的影响
理解 RoPE 的高低频
LLM Representational Collapse
TTA, Test-Time Augmentation
Adam 预训练的 1-bit SGD 优化方法
CPT, 类似 CosineAnnealingWarmRestarts 的 Precision 循环机制
GaLore, 低秩空间中的梯度投影以及权重更新
MicroAdam, 通过梯度稀疏化以及 error compensation 实现轻量的优化器
Q-GaLore, 对 GaLore 进一步施加低精度量化
SWALP, 通过 SWA 稳定低精度训练
快手, 广告场景下的 Scaling Laws
EMR-MERGING, 多任务权重合并技术
QARM, 多模态推荐对齐与量化
Next-token embedding 之于协同过滤
ReaRec, 多步序列推荐推理
探究 LLM 如何记忆和提取知识的实验性文章
SAKT, 自注意力知识追踪
ECNU
DKVMN, 带记忆结构的知识追踪
MANN, 外置记忆模块
DKT, 知识追踪
LIGER, 生成式检索的冷启动缺陷与解决方案
CARec, ID-Textual 特征对齐
MP4SR, 模态融合之于多模态协同过滤
RQ-VAE, 残差向量量化
TIGER, 向量量化生成式检索
找工作
FSQ, 标量量化
VQGAN, 自回归式的图片生成
VQ-VAE, 向量量化的开山之作
Git 的基本操作