Open-Sora全面开源升级：支持16s视频生成和720p分辨率

AI最新资讯4个月前发布 tree

63 0 0

今日应用

无限画

无限画 - 基于AI技术的方便、快捷创作平台，多种工具与AIGC功能，助您轻松创作独具创意的艺术设计作品！

今日话题

Open-Sora全面开源升级：支持16s视频生成和720p分辨率

重点标签 Open-Sora、视频生成、开源、技术创新、数据处理

文章摘要

Open-Sora，一个开源的文本到视频生成项目，最近进行了一次悄无声息的更新，带来了一系列令人兴奋的新功能。现在，它能够支持长达16秒的视频生成，分辨率最高可达720p，并且能够处理任何宽高比的多种生成需求，如文本到图像、文本到视频、图像到视频、视频到视频以及无限长视频等。

技术报告解读

Open-Sora的作者团队在GitHub上发布了技术报告，详细介绍了本次更新的关键特性，包括：

– 支持长视频生成；
– 视频生成分辨率最高可达720p；
– 单模型支持任何宽高比，不同分辨率和时长的多种生成需求；
– 提出更稳定的模型架构设计，支持多时间/分辨率/长宽比/帧率训练；
– 开源了最新的自动数据处理全流程。

模型架构改进

在模型架构方面，团队对Open-Sora 1.0中的STDiT架构进行了关键性改进，提高了模型的训练稳定性和整体性能。他们采用了大型语言模型（LLM）的最佳实践，引入了旋转位置编码（RoPE embedding）和QK归一化技术，以增强半精度训练的稳定性，并提出了ST-DiT-2架构来支持多分辨率、不同长宽比和帧率的训练需求。

多阶段训练方法

Open-Sora采用了多阶段训练方法，每个阶段基于前一个阶段的权重继续训练，通过分步骤引入数据，更高效地实现高质量视频生成。初始阶段主要采用144p分辨率，第二阶段提升至240p和480p，第三阶段进一步增强至480p和720p。

统一的图生视频/视频生视频框架

作者团队提出了一种掩码策略来支持图像和视频的条件化处理，通过设置不同的掩码，可以支持各种生成任务，如图生视频、循环视频、视频延展等。

数据收集和预处理

在数据收集与处理环节，作者团队建立了一个自动化的数据处理流程，涵盖了场景分割、字幕处理、多样化评分与筛选等，并将相关脚本分享至开源社区。

性能评测

Open-Sora的性能在多个维度上得到了提升，能够将文字描述转化为动人的动态视频。无论是风景、自然生物还是其他内容，Open-Sora都能生成较为真实的视频。

当前局限与未来计划

尽管取得了进展，但团队也指出当前生成的视频在噪声问题、时间一致性、人物生成质量以及美学评分等方面仍有待改进。他们将在下一版本中优先解决这些问题。

Open-Sora的模型权重已经完全免费公开在他们的开源社区上，感兴趣的朋友可以下载尝试。同时，他们还支持视频拼接功能，意味着你有机会免费创作出一段带有故事性的小短片。

开源地址：https://github.com/hpcaitech/Open-Sora

文章来源

原文地址: 点我阅读全文
原文作者: AIGC新智界

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

Open-Sora全面开源升级：支持16s视频生成和720p分辨率

今日应用

今日话题

文章摘要

文章来源

苹果AI终于来了！从2.7到30亿四款大模型代码全开源，AI技术持续“狂飙”

xAI疯狂融资，两周内将揽60亿美元，估值飙至180亿

相关文章

暂无评论

热门网址

热门标签