音频驱动人像视频模型：字节Loopy、CyberHost研究成果揭秘

今日应用

新华妙笔，AI公文写作学习平台，由新华社媒体融合生产技术与系统国家重点实验室与博特智能公司联合研发。集查、写、审、问、学一体，集合了范文参考资料、写作素材、智能写作、校对纠错、润色续写等特色功能。帮助公务员、事业单位人员、国企人员的机关公文写作场景，快速拟稿，降低内容风险，擅长工作总结、竞聘材料、发言稿、工作简报等材料等智能写作。

今日话题

音频驱动人像视频模型：字节Loopy、CyberHost研究成果揭秘

重点标签 视频生成、Loopy模型、音频驱动、数字人、技术创新

文章摘要

近期，字节跳动发布的视频生成模型Loopy因其出色的逼真效果和自然的表情动作在业界引起了广泛关注。该模型通过一张图片和一段音频就能生成逼真的肖像视频，包括对声音中呼吸、叹气、挑眉等细节的捕捉。Loopy采用Diffusion视频生成框架，通过设计外观信息和音频信息的处理方法，实现了音频和口型同步以及自然的表情动作生成。

Loopy的技术方案包括inter/intra-clip temporal layers模块，用于捕捉时序信息，以及Temporal Segment Module，用于学习长时运动信息依赖。此外，还设计了audio to latents（A2L）模块，增强音频和头部运动之间的关联关系。在不同场景下，Loopy与其他方法相比展现出显著优势。

字节跳动智能创作数字人团队还推出了CyberHost半身人像版本，这是首个采用端到端算法框架进行纯音频驱动的半身视频生成系统。CyberHost通过Codebook Attention机制强化对关键区域的结构先验学习，提升了手部动作生成的质量。同时，设计了基于人体结构先验的训练策略，如Body Movement Map和Hand Clarity Score，以减少音频驱动下人体动作生成的不确定性。

字节跳动智能创作团队致力于建设行业领先的数字人生成和驱动技术，通过前沿算法、工程系统和产品全链路的闭环，为公司内部各业务提供内容理解和创作能力。团队的技术能力和服务已通过火山引擎向企业开放，同时在招聘相关岗位以推动技术创新。

文章来源

原文地址: 点我阅读全文
原文作者: 机器之心

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

音频驱动人像视频模型：字节Loopy、CyberHost研究成果揭秘

今日应用

今日话题

文章摘要

文章来源

谢尔盖布林：谷歌不敢用Transformer，作者剩一人了，现在我每天都在写代码

蚂蚁自研知识增强大模型服务框架KAG，可显著提升知识推理准确率

相关文章

暂无评论

热门网址

热门标签