面壁智能发布 0.5B 参数语音模型,声音复刻逼真如人类

9 月 19 日消息,昨天下午面壁智能宣布“小钢炮”系列迎新:推出 0.5B 参数尺寸的语音生成基座模型 VoxCPM。面壁智能联合清华大学深圳国际研究生院人机语音交互实验室正式推出语音生成基座模型 VoxCPM。该模型参数规模为 0.5B,在语音自然度、音色相似度及韵律表现力方面均达到了业内 SOTA 水平。

面壁智能发布 0.5B 参数语音模型,声音复刻逼真如人类

性能表现:RTF ≈ 0.17,支持流式输出 VoxCPM 在 Seed-TTS-EVAL 测试中表现优异,词错误率极低,音色克隆任务中相似度高达真人级别。在 NVIDIA RTX 4090 显卡上实现 RTF ≈ 0.17 的推理速度,满足高质量实时交互需求。

听感体验:情绪、口音、韵律俱佳 模型可根据文本内容自动选择合适的声音风格,生成如天气播报、战前演讲、方言主播等多种语音场景。支持中英双语复刻,极少样本即可「原音重现」,甚至能朗读数学公式与符号。

技术架构:融合语言建模与扩散生成 VoxCPM 采用端到端扩散自回归架构,融合层次化语言建模与局部扩散生成技术。核心模块包括 LocEnc、TSLM、RALM 与 LocDiT,通过 VAE 编解码器实现语音连续特征的高效生成与重构。

目前 VoxCPM 已在 GitHub、Hugging Face 等多个平台开源,开发者可自由下载与体验,还可通过线上 PlayGround 快速试用,音频样例页面也已同步上线。

🔗 模型链接:

Github: https://github.com/OpenBMB/VoxCPM/

Hugging Face: https://huggingface.co/openbmb/VoxCPM-0.5B

ModelScope: https://modelscope.cn/models/OpenBMB/VoxCPM-0.5B

PlayGround 体验: https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo

音频样例页面: https://openbmb.github.io/VoxCPM-demopage

声明:内容来源公开的各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。
资讯

英伟达豪掷 50 亿美元收购英特尔约 4% 的股份,NVIDIA 和英特尔将共同开发AI基础设施和个人计算产品

2025-9-19 11:26:44

资讯

上传一张图、主演任何视频,“性能最强动作生成模型”阿里通义万相 Wan2.2-Animate 开源

2025-9-20 14:10:28

搜索