通用世界模型问世：不学习就能生成新领域视频，可实时控制

AI最新资讯4个月前发布 tree

28 0 0

今日应用

免费的海外视频素材

下载免费的股票视频片段，超过30万个视频剪辑在4K和高清。我们还提供了广泛的音乐和音效文件的选择，超过18万个剪辑可用。点击这里下载免版税授权视频，动态图形，音乐和声音效果从video今天。

今日话题

通用世界模型问世：不学习就能生成新领域视频，可实时控制

重点标签 AI视频生成、世界模型、Pandora模型、自回归模型、交互式内容生成

文章摘要

在AI视频生成领域，OpenAI于今年2月发布了Sora，使得世界模型再次成为AI领域的热门话题。世界模型是一种通过预测未来来理解数字世界和物理世界的范式，被认为是实现通用人工智能（AGI）的关键路径之一，与当前流行的智能体（Agent）方向形成对比。

最新的研究由UC San Diego和穆罕默德・本・扎耶德人工智能大学（MBZUAI）等机构进行，他们引入了Pandora模型，向构建通用世界模型迈出了重要一步。MBZUAI校长邢波（Eric Xing）表示，Pandora是一个可以通过语言命令实时操控的世界模型，能够在视觉空间中实时推理概念层面，标志着超越语言世界中的LLM，进入物理和感官世界的新阶段。

Pandora模型是一种混合自回归扩散模型，能够通过生成视频来模拟世界状态，并允许通过自由文本动作进行实时控制。它通过大规模预训练和指令调整实现了领域通用性、视频一致性和可控性。更重要的是，Pandora通过集成预训练的LLM（7B）和预训练的视频模型，绕过了从头开始训练的成本，只需要额外的轻量级微调。研究展示了Pandora在不同领域（室内/室外、自然/城市、人类/机器人、2D/3D等）的广泛输出能力，结果表明，通过更大规模的训练，可以构建更强大的通用世界模型。

Pandora模型具有以下特点：
1. 领域通用性：能够生成广泛领域的视频，如室内/室外、自然/城市、人类/机器人、2D/3D等场景。
2. 动态控制：接受自然语言动作描述作为视频生成期间的输入，以指导未来的世界状态，支持交互式内容生成并增强稳健的推理和规划。
3. 动作可控性跨域迁移：使用高质量数据进行指令调整，使模型能够学习有效的动作控制，并迁移到不同的新领域。
4. 自回归生成更长的视频：基于扩散架构的现有视频生成模型通常会生成固定长度的视频，而Pandora能够以自回归方式无限延长视频持续时间，生成更高质量的更长视频。

Pandora模型的架构包括自回归主干网络（源自预训练LLM）和视频生成器（使用预训练视频模型进行初始化），以及视觉编码器和两个适配器。研究采用了两阶段训练策略，包括预训练和指令调整，以实现一致性、可控性和通用性。

尽管Pandora在某些方面仍存在挑战，如生成高质量和良好可控的视频，以及数据质量对模型性能的影响，但该研究展示了通过更大规模的训练，构建更强大的通用世界模型的潜力。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

通用世界模型问世：不学习就能生成新领域视频，可实时控制

今日应用

今日话题

文章摘要

文章来源

李飞飞亲自撰文：大模型不存在主观感觉能力，多少亿参数都不行

2024「人工智能 +」标杆示范征集正式开启，7 月巅峰相见！

相关文章

暂无评论

热门网址

热门标签