标签:视觉生成

颜水成挂帅,奠定「通用视觉多模态大模型」终极形态!一统理解/生成/分割/编辑

摘要:颜水成教授团队联合新加坡国立、南洋理工大学共同开源了Vitron模型,这是一个通用视觉多模态大语言模型,支持从视觉理解到视觉生成、从低层次到高层次...

详解Latte:去年底上线的全球首个开源文生视频DiT

摘要:Latte模型是一个开源的文生视频DiT模型,由上海人工智能实验室的研究团队联合其他机构开发。该模型旨在解决将DiT模型扩展到视频生成领域的挑战。文章详...