李飞飞团队、谷歌联合发布AI视频扩散模型W.A.L.T

李飞飞的斯坦福团队与谷歌联合发布了名为W.A.L.T的扩散模型,用于生成逼真的视频。该模型基于Transformer进行训练,支持文生视频、图生视频和3D摄像机运动。据介绍,该方法采用了两个关键的设计。首先是使用因果编码器,在统一的潜空间内联合压缩图像和视频,实现跨模态的训练和生成。其次是为了提高记忆和训练效率,采用了窗口注意力架构,针对空间和时空联合生成进行量身定制。最后,团队针对文本到视频的生成任务训练了一个级联模型,包括一个基本潜在视频扩散模型和两个视频超分辨率扩散模型。该模型能够以每秒8帧的速度生成分辨率为512*896的视频。

项目地址:
https://walt-video-diffusion.github.io/
论文地址:
https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf

搜索