TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation
兼顾 Low-level 的 Pixel 信息和 High-level 的 Semantic 信息
兼顾 Low-level 的 Pixel 信息和 High-level 的 Semantic 信息
TiTok 框架 + Softmax 版 Vector Quantization 以期更高的压缩比
RQ-VAE, 残差向量量化
VQGAN, 自回归式的图片生成