标签：图像生成

离散视觉tokenizer

本文深入探讨了离散视觉分词器（tokenizer）在多模态大模型中的关键作用，特别是在图像和文本数据的处理上。离散视觉分词器能够将图像转换成与文本token形式...

2个月前

摘要：豆包电脑版是一款AI学习助手，它通过集成多种功能，如视频学习、文章阅读、论文翻译和博客写作等，极大地提升了用户在AI学习过程中的效率和体验。用户...

2个月前

极市导读：最近，香港大学和字节跳动共同提出了一种名为LlamaGen的图像生成模型，该模型基于自回归模型LLama，首次在ImageNet benchmark上超越了LDM、DiT等扩...

3个月前

PiT的提出质疑了局部性在视觉任务中的基本归纳偏置地位，尽管直接操作单个像素在计算复杂度上存在不实用之处，但研究者认为，随着处理超长序列技术的发展，Pi...

3个月前

本文介绍了一种新型的扩散模型——DiG（Diffusion Gated Linear Attention Transformers），由华中科技大学和字节跳动的研究团队共同开发。DiG模型通过引入门控...

3个月前

OpenAI与苹果公司宣布达成技术合作，将ChatGPT深度集成至苹果的iOS、iPadOS和macOS系统中。这一合作将允许苹果用户在移动设备上原生使用ChatGPT进行图片生成...

3个月前

日内瓦大学、爱丁堡大学和微软研究院的研究者联合提出了一种名为DIAMOND的强化学习智能体，该智能体在扩散世界模型中接受训练。DIAMOND在Atari 100k基准测试...

4个月前

大连理工大学的IIAU团队提出了一个名为CharacterFactory的框架，它能够在极短的时间内，使用极少的显存，端到端地生成具有高度一致性和可编辑性的新角色图像...

4个月前

摘要：本文提出了一种基于成对平均CLIP分数的语义一致性分数，用于量化图像生成的一致性。作者指出，对图像生成扩散模型的可重复性或一致性进行定量评分至关...

5个月前

摘要：字节跳动技术团队提出了一种名为Hyper-SD的新型扩散模型蒸馏框架，该框架结合了轨迹保持蒸馏和轨迹重构蒸馏两种策略的优点，旨在压缩去噪步数的同时保...

5个月前