面壁智能发布 0.5B 参数语音模型，声音复刻逼真如人类

资讯
25年9月19日
編輯

admin

9 月 19 日消息，昨天下午面壁智能宣布“小钢炮”系列迎新：推出 0.5B 参数尺寸的语音生成基座模型 VoxCPM。面壁智能联合清华大学深圳国际研究生院人机语音交互实验室正式推出语音生成基座模型 VoxCPM。该模型参数规模为 0.5B，在语音自然度、音色相似度及韵律表现力方面均达到了业内 SOTA 水平。

性能表现：RTF ≈ 0.17，支持流式输出 VoxCPM 在 Seed-TTS-EVAL 测试中表现优异，词错误率极低，音色克隆任务中相似度高达真人级别。在 NVIDIA RTX 4090 显卡上实现 RTF ≈ 0.17 的推理速度，满足高质量实时交互需求。

听感体验：情绪、口音、韵律俱佳模型可根据文本内容自动选择合适的声音风格，生成如天气播报、战前演讲、方言主播等多种语音场景。支持中英双语复刻，极少样本即可「原音重现」，甚至能朗读数学公式与符号。

技术架构：融合语言建模与扩散生成 VoxCPM 采用端到端扩散自回归架构，融合层次化语言建模与局部扩散生成技术。核心模块包括 LocEnc、TSLM、RALM 与 LocDiT，通过 VAE 编解码器实现语音连续特征的高效生成与重构。

目前 VoxCPM 已在 GitHub、Hugging Face 等多个平台开源，开发者可自由下载与体验，还可通过线上 PlayGround 快速试用，音频样例页面也已同步上线。

🔗 模型链接：

Github： https://github.com/OpenBMB/VoxCPM/

Hugging Face： https://huggingface.co/openbmb/VoxCPM-0.5B

ModelScope： https://modelscope.cn/models/OpenBMB/VoxCPM-0.5B

PlayGround 体验： https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo

音频样例页面： https://openbmb.github.io/VoxCPM-demopage

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

{{userData.name}}已认证

面壁智能发布 0.5B 参数语音模型，声音复刻逼真如人类

英伟达豪掷 50 亿美元收购英特尔约 4% 的股份，NVIDIA 和英特尔将共同开发AI基础设施和个人计算产品

上传一张图、主演任何视频，“性能最强动作生成模型”阿里通义万相 Wan2.2-Animate 开源

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

{{userData.name}}已认证

相关内容：

英伟达豪掷 50 亿美元收购英特尔约 4% 的股份，NVIDIA 和英特尔将共同开发AI基础设施和个人计算产品

上传一张图、主演任何视频，“性能最强动作生成模型”阿里通义万相 Wan2.2-Animate 开源

面壁智能发布 Eurux-8x22B 开源大模型：代码性能超越 Llama3-70B

斯坦福团队为抄袭清华系面壁智能 AI 模型道歉：Llama3-V 模型将悉数撤下

“清华系”面壁智能与华为云合作，推进大模型端云协同解决方案

阿里巴巴发布新语音模型 Qwen2-Audio，实力超越 OpenAI Whisper

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注