Sonic:静态图生成动态视频,腾讯开源图片唱歌说话AI数字人项目

Sonic:静态图生成动态视频,腾讯开源图片唱歌说话AI数字人项目

Sonic是腾讯和浙江大学推出的音频驱动肖像动画框架,基于全局音频感知生成逼真的面部表情和动作。Sonic基于上下文增强音频学习和运动解耦控制器,分别提取音频片段内的长期时间音频知识和独立控制头部与表情运动,增强局部音频感知能力。Sonic用时间感知位置偏移融合机制,将局部音频感知扩展到全局,解决长视频生成中的抖动和突变问题。Sonic在视频质量、唇部同步精度、运动多样性和时间连贯性方面优于现有的最先进方法,显著提升肖像动画的自然性和连贯性,支持用户对动画的精细调整。

Sonic功能

  1. 逼真的唇部同步:精确地将音频与唇部动作对齐,确保说话内容与嘴型高度一致。
  2. 丰富的表情和头部动作:生成多样化且自然的面部表情和头部运动,让动画更具生动性和表现力。
  3. 长时间稳定生成:在处理长视频时,能保持稳定的输出,避免抖动和突变,确保整体连贯性。
  4. 用户可调节性:支持用户基于参数调整控制头部运动、表情强度和唇部同步效果,提供高度的可定制性。

官网链接:https://github.com/jixiaozhong/Sonic 

声明:内容来源公开的各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。
产品音频

Bocca:一款AI语音转文字应用,支持离线使用,多语言转录

2025-5-11 9:23:44

产品其他视频

EchoMimic:一张照片生成说话视频,阿里巴巴推出的一个开源数字人项目

2025-5-11 9:33:08

搜索