只需一张图片就能替换视频主角!名为"VideoSwap"的新视频编辑模型可以轻松实现角色替换。不论原物体扭动幅度有多大,运动轨迹都能完美匹配。即使替换前后的物体形状差别很大,如高车换成超跑或大邮轮换小船,也能实现完美替换。与谷歌的Dreamix相比,这项技术的进步是肉眼可见的。VideoSwap使用少量语义点来描述物体的运动轨迹,并通过删除或拖拽这些点来实现替换。它基于扩散模型进行操作,在编码和去噪的过程中引入语义点对应关系,以保持时间一致性。此外,它还采用潜混合和图像扩散模型来保留背景和确保结果的一致性。语义点的提取和注册是关键步骤,需要在关键帧中标出并提取对应轨迹的embedding,并通过MLP投射和扩散模型进行运动引导。用户可以通过拖动语义点来保持视频的一致性,这使用了基于分层神经图谱的点位移传播技术。
https://arxiv.org/abs/2312.02087
https://videoswap.github.io/