微软推出VASA-1 AI框架,可即时生成逼真对口型视频

微软推出VASA-1 AI框架,使用一张真人照片和个人语音音频即可生成逼真对口型视频。该技术克服了以往面部生成技术的局限性,利用扩散Transformer模型训练,将面部动态和头部运动视为单一潜在变量,可即时生成高分辨率、高帧率的视频。微软还利用3D技术辅助标记面部特征,设计损失函数,有效捕捉和重现面部3D结构。(IT之家)

搜索