通用世界模型问世:不学习就能生成新领域视频,可实时控制

AI最新资讯4个月前发布 tree
28 0 0

今日应用


今日话题


通用世界模型问世:不学习就能生成新领域视频,可实时控制
通用世界模型问世:不学习就能生成新领域视频,可实时控制
 

重点标签 AI视频生成世界模型Pandora模型自回归模型交互式内容生成

文章摘要


AI视频生成领域,OpenAI于今年2月发布了Sora,使得世界模型再次成为AI领域的热门话题。世界模型是一种通过预测未来来理解数字世界和物理世界的范式,被认为是实现通用人工智能(AGI)的关键路径之一,与当前流行的智能体(Agent)方向形成对比。

最新的研究由UC San Diego穆罕默德・本・扎耶德人工智能大学(MBZUAI)等机构进行,他们引入了Pandora模型,向构建通用世界模型迈出了重要一步。MBZUAI校长邢波(Eric Xing)表示,Pandora是一个可以通过语言命令实时操控的世界模型,能够在视觉空间中实时推理概念层面,标志着超越语言世界中的LLM,进入物理和感官世界的新阶段。

Pandora模型是一种混合自回归扩散模型,能够通过生成视频来模拟世界状态,并允许通过自由文本动作进行实时控制。它通过大规模预训练和指令调整实现了领域通用性、视频一致性和可控性。更重要的是,Pandora通过集成预训练的LLM(7B)和预训练的视频模型,绕过了从头开始训练的成本,只需要额外的轻量级微调。研究展示了Pandora在不同领域(室内/室外、自然/城市、人类/机器人、2D/3D等)的广泛输出能力,结果表明,通过更大规模的训练,可以构建更强大的通用世界模型。

Pandora模型具有以下特点:
1. 领域通用性:能够生成广泛领域的视频,如室内/室外、自然/城市、人类/机器人、2D/3D等场景。
2. 动态控制:接受自然语言动作描述作为视频生成期间的输入,以指导未来的世界状态,支持交互式内容生成并增强稳健的推理和规划。
3. 动作可控性跨域迁移:使用高质量数据进行指令调整,使模型能够学习有效的动作控制,并迁移到不同的新领域。
4. 自回归生成更长的视频:基于扩散架构的现有视频生成模型通常会生成固定长度的视频,而Pandora能够以自回归方式无限延长视频持续时间,生成更高质量的更长视频。

Pandora模型的架构包括自回归主干网络(源自预训练LLM)和视频生成器(使用预训练视频模型进行初始化),以及视觉编码器和两个适配器。研究采用了两阶段训练策略,包括预训练和指令调整,以实现一致性、可控性和通用性。

尽管Pandora在某些方面仍存在挑战,如生成高质量和良好可控的视频,以及数据质量对模型性能的影响,但该研究展示了通过更大规模的训练,构建更强大的通用世界模型的潜力。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...