小米开源 OmniVoice 多语言语音克隆 TTS

资讯
6小时前
編輯

admin

5 月 8 日消息，昨日，小米 AI 实验室发布并开源多语言语音克隆 TTS 模型 OmniVoice，团队基于 50 个开源数据集构建了 58 万小时的训练数据，覆盖 646 种语种。

中英文合成质量优于主流同类模型，推理速度达到 40 倍实时；

在 24 种语言上，其语音相似度和可懂度超越多款商用系统；

在 102 种语言上，可懂度逼近真实语音，即便是训练数据不足 10 小时的小语种，也能正常合成。

除语音克隆外，OmniVoice 还支持用文字描述来指定音色（如「女，青年，四川话」），可自动过滤参考音频中的噪声，并支持插入笑声、叹气等语气符号，还可手动纠正多音字发音。

💻 GitHub: github.com/k2-fsa/OmniVoice

🤗 Hugging Face: huggingface.co/k2-fsa/OmniVoice

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

{{userData.name}}已认证

小米开源 OmniVoice 多语言语音克隆 TTS

Claude Code 负责人：「Vibe Coding」这个词已经不够用了

全国首例 AI 短剧侵权刑事案一审宣判：盗录超 1700 部牟利获刑，构成侵犯著作权罪

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

{{userData.name}}已认证

相关内容：

Claude Code 负责人：「Vibe Coding」这个词已经不够用了

全国首例 AI 短剧侵权刑事案一审宣判：盗录超 1700 部牟利获刑，构成侵犯著作权罪

小米开源“Xiaomi MiMo”大模型：为推理而生，以 7B 参数超越 OpenAI o1-mini

小米多模态大模型 MiMo-VL 开源，官方称多方面领先 Qwen2.5-VL-7B

小米突然发布新模型：媲美 DeepSeek-V3.2

未来三年小米 AI 投入超 600 亿元：MiMo-V2.5 将开源，几乎适配国内所有芯片

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注