5 月 8 日消息,昨日,小米 AI 实验室发布并开源多语言语音克隆 TTS 模型 OmniVoice,团队基于 50 个开源数据集构建了 58 万小时的训练数据,覆盖 646 种语种。

中英文合成质量优于主流同类模型,推理速度达到 40 倍实时;
在 24 种语言上,其语音相似度和可懂度超越多款商用系统;
在 102 种语言上,可懂度逼近真实语音,即便是训练数据不足 10 小时的小语种,也能正常合成。
除语音克隆外,OmniVoice 还支持用文字描述来指定音色(如「女,青年,四川话」),可自动过滤参考音频中的噪声,并支持插入笑声、叹气等语气符号,还可手动纠正多音字发音。
💻 GitHub: github.com/k2-fsa/OmniVoice
🤗 Hugging Face: huggingface.co/k2-fsa/OmniVoice