Open-Sora全面开源升级:支持16s视频生成和720p分辨率

AI最新资讯4个月前发布 tree
63 0 0

今日应用


今日话题


Open-Sora全面开源升级:支持16s视频生成和720p分辨率
Open-Sora全面开源升级:支持16s视频生成和720p分辨率
 

重点标签 Open-Sora视频生成开源技术创新数据处理

文章摘要


Open-Sora,一个开源的文本到视频生成项目,最近进行了一次悄无声息的更新,带来了一系列令人兴奋的新功能。现在,它能够支持长达16秒的视频生成,分辨率最高可达720p,并且能够处理任何宽高比的多种生成需求,如文本到图像、文本到视频、图像到视频、视频到视频以及无限长视频等。

技术报告解读

Open-Sora的作者团队在GitHub上发布了技术报告,详细介绍了本次更新的关键特性,包括:

– 支持长视频生成;
– 视频生成分辨率最高可达720p;
– 单模型支持任何宽高比,不同分辨率和时长的多种生成需求;
– 提出更稳定的模型架构设计,支持多时间/分辨率/长宽比/帧率训练;
– 开源了最新的自动数据处理全流程。

模型架构改进

在模型架构方面,团队对Open-Sora 1.0中的STDiT架构进行了关键性改进,提高了模型的训练稳定性和整体性能。他们采用了大型语言模型(LLM)的最佳实践,引入了旋转位置编码(RoPE embedding)和QK归一化技术,以增强半精度训练的稳定性,并提出了ST-DiT-2架构来支持多分辨率、不同长宽比和帧率的训练需求。

多阶段训练方法

Open-Sora采用了多阶段训练方法,每个阶段基于前一个阶段的权重继续训练,通过分步骤引入数据,更高效地实现高质量视频生成。初始阶段主要采用144p分辨率,第二阶段提升至240p和480p,第三阶段进一步增强至480p和720p。

统一的图生视频/视频生视频框架

作者团队提出了一种掩码策略来支持图像和视频的条件化处理,通过设置不同的掩码,可以支持各种生成任务,如图生视频、循环视频、视频延展等。

数据收集和预处理

在数据收集与处理环节,作者团队建立了一个自动化的数据处理流程,涵盖了场景分割、字幕处理、多样化评分与筛选等,并将相关脚本分享至开源社区。

性能评测

Open-Sora的性能在多个维度上得到了提升,能够将文字描述转化为动人的动态视频。无论是风景、自然生物还是其他内容,Open-Sora都能生成较为真实的视频。

当前局限与未来计划

尽管取得了进展,但团队也指出当前生成的视频在噪声问题、时间一致性、人物生成质量以及美学评分等方面仍有待改进。他们将在下一版本中优先解决这些问题。

Open-Sora的模型权重已经完全免费公开在他们的开源社区上,感兴趣的朋友可以下载尝试。同时,他们还支持视频拼接功能,意味着你有机会免费创作出一段带有故事性的小短片。

开源地址:https://github.com/hpcaitech/Open-Sora

文章来源


原文地址: 点我阅读全文
原文作者: AIGC新智界

© 版权声明

相关文章

暂无评论

暂无评论...