离散视觉tokenizer

AI最新资讯2个月前发布 tree

14 0 0

今日应用

奈飞中文影视

一个专注于免费提供高清Netflix影视内容的平台

今日话题

离散视觉tokenizer

重点标签 离散视觉分词器、多模态大模型、图像生成、VQ-VAE、dVAE

文章摘要

本文深入探讨了离散视觉分词器（tokenizer）在多模态大模型中的关键作用，特别是在图像和文本数据的处理上。离散视觉分词器能够将图像转换成与文本token形式一致的视觉token，实现统一表示，提升模型的泛化能力和多模态理解。此外，它还促进了零样本和少样本学习，推动了技术创新和应用发展，并在图像生成任务上超越了传统模型。

Chameleon模型通过早期融合的方式，使用基于token的多模态基础模型来处理视觉和文本数据。该模型采用了新的图像分词器，将图像编码成离散token，同时在预训练阶段特别关注了人脸图像。尽管存在重构含文本图像的局限性，但Chameleon展示了视觉分词器在多模态学习中的潜力。

Make-A-Scene项目基于离散表示的图像生成模型，采用两阶段训练方案，先训练图像分词器提取图像表示，再在潜在空间中生成图像。VQ-VAE技术通过向量量化学习离散潜在表示，而VQ-VAE-2则通过分层架构实现快速生成。DALL-E模型利用dVAE和gumbel-softmax技术，而VQGAN结合了对抗性和感知损失以生成高质量图像。

VQ-VAE模型通过变分自编码器和向量量化技术，将图像压缩到离散空间，减少了计算复杂度并提高了训练和采样速度。VQ-VAE 2则通过扩展自回归先验，生成更高连贯性和保真度的图像。dVAE模型则通过放松玻尔兹曼机至连续分布，提高了训练效果。

VQ-GAN结合了CNNs和Transformer，通过卷积方法学习图像成分的上下文，并利用Transformer高效建模组合，实现了高分辨率图像合成。DALL-E模型则通过两阶段训练，首先压缩图像成图像token网格，再训练自回归transformer对文本和图像tokens进行联合建模。

BEIT模型采用了BERT预训练方法，通过掩码图像建模任务来预训练视觉Transformer。它将图像分词成视觉tokens，并在预训练中从两个视角处理图像块和视觉tokens，以恢复原始视觉tokens。

总体而言，离散视觉分词器在多模态大模型中扮演着至关重要的角色，不仅提升了模型性能，也为图像生成、编辑、问答等应用领域带来了新的发展机遇。

文章来源

原文地址: 点我阅读全文
原文作者: 极市平台

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

离散视觉tokenizer

今日应用

今日话题

文章摘要

文章来源

损坏不可逆？英特尔13/14代酷睿桌面CPU崩溃后续，不会召回

异常检测开源数据集资源汇总

相关文章

暂无评论

热门网址

热门标签