阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律

AI最新资讯1个月前发布 tree

17 0 0

今日应用

LiblibAI·哩布哩布AI

创新AI模型社区 - 发现最新、最热原创模型，10万+免费下载，欢迎创作者加入，共同探索AI绘画的创新之路！

今日话题

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律

重点标签 视频生成、扩散模型、Tora、DiT架构、物理模拟

文章摘要

Tora是一种基于扩散模型的视频生成技术，由阿里的研究者开发。它采用Diffusion Transformer（DiT）架构，能够生成10到60秒的高质量视频，支持不同分辨率和纵横比，同时遵守实际物理定律。Tora是首个面向轨迹的DiT架构，将文本、视觉和轨迹条件集成，实现视频生成。

Tora的设计充分利用了DiT架构的可扩展性，允许对视频内容的持续时间、宽高比和分辨率进行精确控制。实验结果显示，Tora在高运动保真度方面表现出色，能够细致模拟物理世界的运动。

Tora的核心组件包括轨迹提取器（TE）、时空DiT（ST-DiT）和运动引导融合器（MGF）。TE将任意轨迹编码为分层时空运动patch，MGF将运动patch集成到DiT块中，生成遵循轨迹的一致视频。ST-DiT包含空间DiT块和时间DiT块，交替排列，利用处理可变长度序列的能力，去噪ST-DiT可以处理可变持续时间的视频。

在实验中，研究者基于OpenSora v1.2权重训练Tora，使用4块英伟达A100和Adam优化器。Tora与流行的运动指导视频生成方法进行了比较，在16帧、64帧和128帧的设置下，Tora在轨迹精度和运动控制方面均展现出卓越的性能。

Tora生成的视频流畅度高，物体运动更符合物理世界，能够保持有效的轨迹控制。在不同分辨率和持续时长的轨迹误差分析中，Tora的轨迹误差随时间推移渐进增加，与DiT模型中视频质量随时间增加而下降相一致。在包含两人共同运动的场景中，Tora的视觉质量更好，有助于实现更平滑的运动轨迹和更逼真的背景渲染。

例如，在自行车场景中，Tora生成的人物双腿表现出逼真的踩踏动作，而其他方法如DragNUWA和MotionCtrl则出现了违反物理真实性的问题。在生成灯笼的场景中，Tora严格遵循轨迹，最大程度减少了物体变形，确保了更高保真度的动作表示。

更多技术细节和实验结果可以在原论文中找到。Tora的开发为视频生成领域带来了新的突破，展示了DiT架构在生成可控动作视频方面的潜力。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律

今日应用

今日话题

文章摘要

文章来源

Stable Diffusion原班人马新公司官宣！新模型一夜刷新AI绘画格局，已获2.3亿元融资

Machine Unlearning 会是未来 LLM 的必需品吗？

相关文章

暂无评论

热门网址

热门标签