音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

今日应用


今日话题


音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘
音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘
 

重点标签 视频生成Loopy模型音频驱动数字人技术创新

文章摘要


近期,字节跳动发布的视频生成模型Loopy因其出色的逼真效果和自然的表情动作在业界引起了广泛关注。该模型通过一张图片和一段音频就能生成逼真的肖像视频,包括对声音中呼吸、叹气、挑眉等细节的捕捉。Loopy采用Diffusion视频生成框架,通过设计外观信息和音频信息的处理方法,实现了音频和口型同步以及自然的表情动作生成。

Loopy的技术方案包括inter/intra-clip temporal layers模块,用于捕捉时序信息,以及Temporal Segment Module,用于学习长时运动信息依赖。此外,还设计了audio to latents(A2L)模块,增强音频和头部运动之间的关联关系。在不同场景下,Loopy与其他方法相比展现出显著优势。

字节跳动智能创作数字人团队还推出了CyberHost半身人像版本,这是首个采用端到端算法框架进行纯音频驱动的半身视频生成系统。CyberHost通过Codebook Attention机制强化对关键区域的结构先验学习,提升了手部动作生成的质量。同时,设计了基于人体结构先验的训练策略,如Body Movement MapHand Clarity Score,以减少音频驱动下人体动作生成的不确定性。

字节跳动智能创作团队致力于建设行业领先的数字人生成和驱动技术,通过前沿算法、工程系统和产品全链路的闭环,为公司内部各业务提供内容理解和创作能力。团队的技术能力和服务已通过火山引擎向企业开放,同时在招聘相关岗位以推动技术创新

文章来源


原文地址: 点我阅读全文
原文作者: 机器之心

© 版权声明

相关文章

暂无评论

暂无评论...