标签:VQ-VAE

离散视觉tokenizer

本文深入探讨了离散视觉分词器(tokenizer)在多模态大模型中的关键作用,特别是在图像和文本数据的处理上。离散视觉分词器能够将图像转换成与文本token形式...