Tokenization is the Language of AI
- 如果说表示学习是 AI 感知这个世界的介质, Tokenization 则是 AI 与人类沟通的工具.
2025
Mixture-of-Tinkers: 在 Graph Quantized Tokenizer 基础上添加了 Codebook 的对比 Alignment 和 Load-balancing 约束
符号序列的自动切分, 实现自适应的子词划分
Graph Quantized Tokenizer: 多任务监督下的图节点向量量化
Survey, 向量量化在图上的研究
2024
Softmax 版 Vector Quantization, 沿用 TiTok 的框架, 主要追求更高的压缩比
兼顾 Low-level 的 Pixel 信息和 High-level 的 Semantic 信息
坐标变换替代可学习 Codebook, 避免 Collapse
提出 Rotation Trick 替代 VQ-VAE 中的 STE
Transformer-based 1-Dimensional Tokenizer, 追求更高的压缩比
在 MegaByte 的基础上引入 Spacelike Bytes 以更合理地划分 patch
自回归图像生成: Multi-scale Quantization & Next-scale Prediction
2023
采用传统 Element-wise Rounding 的方式实现向量量化, Codebook 为超矩体的顶点
多尺度 Transformer, 去 Subword Tokenizer 的开创性工作
2022
残差向量量化
2020
向量量化 + 自回归式图片生成
2018
谷歌开源的子词工具包
采样而非确定性的编码方式
2017
向量量化的开山之作
1994
经典的 BPE tokenization