小米开源 OmniVoice 多语言语音克隆 TTS

5 月 8 日消息,昨日,小米 AI 实验室发布并开源多语言语音克隆 TTS 模型 OmniVoice,团队基于 50 个开源数据集构建了 58 万小时的训练数据,覆盖 646 种语种。

小米开源 OmniVoice 多语言语音克隆 TTS

中英文合成质量优于主流同类模型,推理速度达到 40 倍实时;

在 24 种语言上,其语音相似度和可懂度超越多款商用系统;

在 102 种语言上,可懂度逼近真实语音,即便是训练数据不足 10 小时的小语种,也能正常合成。

除语音克隆外,OmniVoice 还支持用文字描述来指定音色(如「女,青年,四川话」),可自动过滤参考音频中的噪声,并支持插入笑声、叹气等语气符号,还可手动纠正多音字发音。

💻 GitHub: github.com/k2-fsa/OmniVoice

🤗 Hugging Face: huggingface.co/k2-fsa/OmniVoice

声明:内容来源公开的各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。
资讯

Claude Code 负责人:「Vibe Coding」这个词已经不够用了

2026-5-8 11:56:07

头条资讯

全国首例 AI 短剧侵权刑事案一审宣判:盗录超 1700 部牟利获刑,构成侵犯著作权罪

2026-5-8 12:02:33

搜索