视频生成控制提升几十倍,新一代轻量级ControlNeXt火了,贾佳亚团队正挑战Scaling Law

今日应用


今日话题


视频生成控制提升几十倍,新一代轻量级ControlNeXt火了,贾佳亚团队正挑战Scaling Law
视频生成控制提升几十倍,新一代轻量级ControlNeXt火了,贾佳亚团队正挑战Scaling Law
 

重点标签 ControlNeXt图像视频生成AI工具贾佳亚技术创新

文章摘要


ControlNeXt是由思谋科技创始人、港科大讲座教授贾佳亚团队开发的全新图像和视频生成控制工具。这款工具在生成速度、精准控制和用户友好性等方面进行了全方位优化,并且训练参数量仅为ControlNet的10%,使得它成为了下一代的“小钢炮版”ControlNet。ControlNeXt兼容多款Stable Diffusion家族图像生成模型和视频生成模型SVD,能够实现线稿生成全彩图、语义分割、边缘检测、人体姿势识别等功能。

贾佳亚团队在轻量级条件控制模块设计、控制注入位置和方式的选择、交叉归一化技术的使用等多个方面进行了创新,使得ControlNeXt在训练参数、计算开销和内存占用上全面“瘦身”,同时在模型训练收敛和推理层面实现了“提速”。ControlNeXt的架构创新让它更轻、更快、更强,解决了以往可控生成方法存在的较高计算成本、GPU内存占用和推理时延问题。

ControlNeXt的实战效果非常出色,支持Canny边缘条件控制、掩模和景深条件控制、姿势条件控制等多种控制方式,能够生成多样化风格的人物图像和超高清画质的图像。在视频生成模型SVD中,ControlNeXt实现了对人体姿势动作的整体控制,连手指动作的模仿都非常精准。

贾佳亚团队的研究理念是不盲从大模型领域的“摩尔定律”,而是在模型算法层面进行创新,力求用更少的计算量达到同样的效果。他们致力于拿少参数、少算力来深挖大模型潜能,走出了一条与Scaling Law不同的大模型之路。贾佳亚团队的这一思路在过去两年的系列成果中得到了充分验证,包括多模态大模型LISA、超长文本扩展技术LongLoRA、视觉语言模型LLaMA-VID和Mini-Gemini等。

ControlNeXt的开源特性和较低的算力需求使其更容易实现商业化应用落地。未来,在持续技术创新的驱动下,我们将看到更多“小而弥坚”的大模型成果出现。

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...