LatentSync：开源视频对口型AI模型，字节跳动开源的数字人项目

产品其他视频
25年5月10日
編輯

admin

LatentSync：开源视频对口型AI模型，字节跳动开源的数字人项目

LatentSync是一款由字节跳动与北京交通大学联合推出的端到端唇形同步框架。它基于音频驱动的潜在扩散模型（audio-driven latent diffusion models），旨在实现无缝的时间一致性，并生成高质量的、逼真的说话视频。该框架适用于配音、虚拟头像、游戏开发等多种应用场景。

LatentSync功能

端到端唇形同步：Latent Sync 无需任何中间运动表示，直接在潜在空间建模复杂的音视频关系。它能够精准地根据输入的音频生成与之匹配的唇部运动，实现唇形与语音的精准同步。
高分辨率视频生成：Latent Sync 克服了传统扩散模型在像素空间进行扩散时对硬件要求高的限制，能够生成高分辨率的视频。
动态逼真效果：生成的视频具有动态逼真的效果，能够捕捉到与情感语调相关的细微表情，使人物的说话更加自然生动。
时间一致性增强：Latent Sync 引入了 Temporal REPresentation Alignment（TREPA）方法，通过大规模自监督视频模型提取时间表示，增强生成帧与真实帧的时间一致性，减少视频闪烁现象，使视频播放更加流畅。
多语言支持：Latent Sync 支持多语言处理，适用于国际内容本地化。

官网链接：https://www.latentsync.org

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

AI视频工具 LatentSync 开源项目数字人数字人工具虚拟数字人

ContentAny：AI内容分析平台，提供AI检测、去痕迹、流量预测及多平台内容效果提升

2025-5-10 9:01:29

EchoComet：一款AI辅助编码工具，极大地简化了AI代码工作流程

2025-5-11 9:07:08

❯

搜索

幸运之星即将降临……

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠

_￥_優惠

使用時效：无法使用

使用時效：
之前

使用時效：预期有效

优惠编号：
×

限制以下商品使用：限制以下商品分类用途：不限制使用：

[{{ct.name}}]

所有商品及商品类型需求使用

没有优惠可用！

购物车

×

德

空空如也！

清空貨櫃前往

您的有新私信

没有新私信

写新私信查看全部