美团发布音频生成模型 LongCat-AudioDiT

资讯
4月3日
編輯

admin

4 月 3 日消息，美团龙猫昨日发布音频生成模型 LongCat-AudioDiT，并同步开源 1B 和 3.5B 两个版本。

据介绍，LongCat-AudioDiT 直接在波形潜空间进行扩散建模，整个流程仅需一个波形变分自编码器（Wav-VAE）和一个扩散 Transformer（DiT），从根源上消除了多阶段级联带来的误差累积。

训练-推理对齐：在每步推理中将提示区域的隐变量强制重置为真值，解决长期存在的音色漂移问题。

自适应投影引导（APG）：取代传统的无分类器引导（CFG），将引导信号分解为正交与平行分量，保留有益部分、抑制劣化部分，在提升音色相似度的同时避免频谱「过饱和」。

在 Seed 基准测试中，LongCat-AudioDiT-3.5B 的说话人相似度（SIM）在中文测试集（Seed-ZH）达到 0.818，中文难句集（Seed-Hard）达到 0.797，超越 Seed-TTS、CosyVoice3.5、MiniMax-Speech 等模型，取得当前最优（SOTA）成绩。

💻 GitHub: https://github.com/meituan-longcat/LongCat-AudioDiT

🤗 Hugging Face: https://huggingface.co/meituan-longcat/LongCat-AudioDiT

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

{{userData.name}}已认证

美团发布音频生成模型 LongCat-AudioDiT

摩根大通 CEO 戴蒙：AI 将带来三天半工作制，人类寿命有望达 100 岁

智谱 GLM-5.1 低调上线，与 Claude Opus 4.6 仅差 2.6 分

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

{{userData.name}}已认证

相关内容：

摩根大通 CEO 戴蒙：AI 将带来三天半工作制，人类寿命有望达 100 岁

智谱 GLM-5.1 低调上线，与 Claude Opus 4.6 仅差 2.6 分

消息称美团“All in AI”，王兴、王莆中双双看重

美团发布开源 LongCat-Video 视频生成模型，可稳定输出 5 分钟级内容

美团发布并开源 LongCat-Flash-Omni 模型：支持实时音视频交互，达到 SOTA 水平

美团 LongCat 大模型官方 App 发布：支持联网搜索，还可以发起语音通话

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注