标签:图像生成

离散视觉tokenizer

本文深入探讨了离散视觉分词器(tokenizer)在多模态大模型中的关键作用,特别是在图像和文本数据的处理上。离散视觉分词器能够将图像转换成与文本token形式...

B站AI课几秒出总结,划词就给解释,这个「AI学习搭子」真香

摘要:豆包电脑版是一款AI学习助手,它通过集成多种功能,如视频学习、文章阅读、论文翻译和博客写作等,极大地提升了用户在AI学习过程中的效率和体验。用户...

Llama也能做图像生成?文生图模型已开源

极市导读:最近,香港大学和字节跳动共同提出了一种名为LlamaGen的图像生成模型,该模型基于自回归模型LLama,首次在ImageNet benchmark上超越了LDM、DiT等扩...

局部归纳偏置真的有必要吗?探索 Transformer 新范式:一个像素就是一个 token!

PiT的提出质疑了局部性在视觉任务中的基本归纳偏置地位,尽管直接操作单个像素在计算复杂度上存在不实用之处,但研究者认为,随着处理超长序列技术的发展,Pi...

DiG:使用门控线性注意力机制的高效可扩展 Diffusion Transformer

本文介绍了一种新型的扩散模型——DiG(Diffusion Gated Linear Attention Transformers),由华中科技大学和字节跳动的研究团队共同开发。DiG模型通过引入门控...

重磅!OpenAI与苹果合作,将ChatGPT集成在iOS 18中

OpenAI与苹果公司宣布达成技术合作,将ChatGPT深度集成至苹果的iOS、iPadOS和macOS系统中。这一合作将允许苹果用户在移动设备上原生使用ChatGPT进行图片生成...

世界模型也扩散!训练出的智能体竟然不错

日内瓦大学、爱丁堡大学和微软研究院的研究者联合提出了一种名为DIAMOND的强化学习智能体,该智能体在扩散世界模型中接受训练。DIAMOND在Atari 100k基准测试...

无需参考图片,端到端采样无限创建新角色!大连理工卢湖川、贾旭团队开源CharacterFactory

大连理工大学的IIAU团队提出了一个名为CharacterFactory的框架,它能够在极短的时间内,使用极少的显存,端到端地生成具有高度一致性和可编辑性的新角色图像...

CVPR2024-扩散模型可解释性新探索,图像生成一致性创新高!AI视频生成新机遇?

摘要:本文提出了一种基于成对平均CLIP分数的语义一致性分数,用于量化图像生成的一致性。作者指出,对图像生成扩散模型的可重复性或一致性进行定量评分至关...

加速扩散模型,最快1步生成SOTA级图片,字节Hyper-SD开源了

摘要:字节跳动技术团队提出了一种名为Hyper-SD的新型扩散模型蒸馏框架,该框架结合了轨迹保持蒸馏和轨迹重构蒸馏两种策略的优点,旨在压缩去噪步数的同时保...
123