小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio，对话自然度、交互适配达拟人化水准

资讯
25年9月19日
編輯

admin

9 月 19 日消息，小米今天宣布开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio，首次在语音领域实现基于 ICL 的少样本泛化。

据小米介绍，五年前 GPT-3 首次展示了通过自回归语言模型 + 大规模无标注数据训练，获得 In-Context Learning（ICL，上下文学习）能力，而在语音领域，现有的大模型仍严重依赖大规模标注数据，难以适应新任务达到类人智能。

而 Xiaomi-MiMo-Audio 模型打破了这种瓶颈，它基于创新预训练架构和上亿小时训练数据，在智商、情商、表现力与安全性在内的跨模态对齐能力均有提升，在自然度、情感表达和交互适配方面呈现出拟人化水准。

这款模型的具体创新点如下：

首次证明把语音无损压缩预训练 Scaling 至 1 亿小时可以“涌现”出跨任务的泛化性，表现为 Few-Shot Learning 能力。

首个明确语音生成式预训练的目标和定义，并开源一套完整的语音预训练方案，包括无损压缩的 Tokenizer、全新模型结构、训练方法和评测体系。

目前小米已在 Huggingface 平台开源了这款模型的预训练、指令微调模型，同时在 Github 平台开源了 Tokenizer 模型，其参数量达 1.2B，基于 Transformer 架构，支持音频重建任务和音频转文本任务。

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

{{userData.name}}已认证

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio，对话自然度、交互适配达拟人化水准

中文互联网基础语料 3.0 发布：数据量为 120GB，助力大模型训练与 AI 发展

英伟达豪掷 50 亿美元收购英特尔约 4% 的股份，NVIDIA 和英特尔将共同开发AI基础设施和个人计算产品

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

{{userData.name}}已认证

相关内容：

中文互联网基础语料 3.0 发布：数据量为 120GB，助力大模型训练与 AI 发展

英伟达豪掷 50 亿美元收购英特尔约 4% 的股份，NVIDIA 和英特尔将共同开发AI基础设施和个人计算产品

小米开源“Xiaomi MiMo”大模型：为推理而生，以 7B 参数超越 OpenAI o1-mini

小米多模态大模型 MiMo-VL 开源，官方称多方面领先 Qwen2.5-VL-7B

小米声音理解大模型 MiDashengLM-7B 发布并全量开源，22 个公开评测集刷新最好成绩

中国首款全尺寸通用人形机器人开源公版机“青龙”发布：高 185cm / 重 80kg，算力支持 400TOPS

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注