全部标签

音频生成模型

美团发布音频生成模型 LongCat-AudioDiT

4 月 3 日消息，美团龙猫昨日发布音频生成模型 LongCat-AudioDiT，并同步开源 1B 和 3.5B 两个版本。据介绍，LongCat-AudioDiT 直接在波形潜空间进行扩散建模，整个流程仅需一个波形变分自编码器（Wav-VAE）和一个扩散 Transformer（DiT），从根源上消除了多阶段级联带来的误差累积。训练-推理对齐：在每步推理中将提示区域的隐变量强制重置为真值，…
资讯
- 4.4k
4月3日
Stable Audio 2.5 企业级音频生成 AI 模型发布，号称“3 分钟曲目 2 秒钟完成”

9 月 14 日消息，Stability AI 现已正式发布企业级音频生成模型 Stable Audio 2.5，相对上一代主要围绕音频细节、生成速度方面进行提升，号称“仅需 2 秒钟即可创建 3 分钟音频曲目”。据介绍，Stable Audio 2.5 的核心改进集中在音乐生成能力方面，号称生成结果更加贴合实际编曲逻辑，可呈现前奏、发展与结尾等完整多段式结构。同时新模型对提示词的理解更为准确，…
资讯
- 9.8k
25年9月15日
阿里通义开源旗下首个音频生成模型 ThinkSound：可像“专业音效师”一样思考

7 月 4 日消息，阿里“通义大模型”公众号今日发文宣布，通义实验室首个音频生成模型 ThinkSound 现已正式开源，将打破“静音画面”的想象力局限。 ThinkSound 首次将 CoT（Chain-of-Thought，思维链）应用到音频生成领域，让 AI 学会一步步“想清楚”画面事件与声音之间的关系，从而实现高保真、强同步的空间音频生成 —— 不只是“看图配音”，而是真正“听懂画面”。 …
资讯
- 43.9k
25年7月4日
Stability AI开源音频生成模型Stable Audio Open，可生成47秒的立体声音频

最近，Stability AI 团队推出了一款全新的开源音频生成模型，名为 Stable Audio Open。这款模型的特别之处在于，它能够从文本提示生成时长可达47秒的立体声音频，采样率高达44.1kHz。与许多当前流行的音频生成模型不同，Stable Audio Open 的权重是开放的，这意味着任何人都可以查看、修改和扩展这个模型。这样的设计理念不仅推动了科学研究的进展，也为开发者提供了…
资讯
- 12.8k
24年7月24日

❯

搜索

幸运之星即将降临……

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠

_￥_優惠

使用時效：无法使用

使用時效：
之前

使用時效：预期有效

优惠编号：
×

限制以下商品使用：限制以下商品分类用途：不限制使用：

[{{ct.name}}]

所有商品及商品类型需求使用

没有优惠可用！

购物车

×

德

空空如也！

清空貨櫃前往

您的有新私信

没有新私信

写新私信查看全部

{{userData.name}}已认证

音频生成模型

美团发布音频生成模型 LongCat-AudioDiT

Stable Audio 2.5 企业级音频生成 AI 模型发布，号称“3 分钟曲目 2 秒钟完成”

阿里通义开源旗下首个音频生成模型 ThinkSound：可像“专业音效师”一样思考

Stability AI开源音频生成模型Stable Audio Open，可生成47秒的立体声音频

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注