全部标签

语音模型

OpenAI 发布三款实时语音模型

5 月 8 日消息，今天，OpenAI 发布三款实时语音模型，分别针对语音推理、实时翻译和流式转录三类场景： GPT-Realtime-2：构建可用于生产环境的语音智能体。它们能够进行更深入的思考、执行操作、处理中断，并让对话持续自然地进行； GPT-Realtime-Translate：支持 70 多种输入语言和 13 种输出语言的实时翻译，打破语言障碍，帮助人们更自然地交流； GPT-Real…
资讯
- 2.2k
5月8日
Inworld AI 发布 Realtime TTS-2 语音模型：可感知用户情绪，支持 100 种语言保持同一声线

5 月 7 日消息，昨天，Inworld AI 发布新一代语音模型 Realtime TTS-2，以研究预览版形式通过 Inworld API 和 Inworld Realtime API 向开发者开放。 TTS-2 的核心变化在于从单向文本转语音管线转向闭环实时对话架构：模型直接接收对话中的实际音频，从而感知用户的语气、节奏与情绪状态并作出相应调整。新版本新增四项能力：语音指令（Voice D…
资讯
- 3.4k
5月7日
阿里通义百聆推出语音模型新版本：3 秒录音即可“复制”9 种语言、18 种方言

12 月 16 日消息，通义大模型通过官方公众号宣布，两款“百聆”语音模型正式开源，两款模型迎来升级。根据介绍，其只需 3 秒录音，就能让你的声音无缝切换语种、方言与情绪 —— 普通话、粤语、日、英、开心、愤怒……9 种通用语言、18 种方言，通通搞定。升级 Fun-CosyVoice3 模型升级：首包延迟降低 50%，中英混字准确率翻倍，支持 9 语种 18 方言口音、跨语种克隆与情感控制； …
资讯
- 8.5k
25年12月16日
面壁智能发布 0.5B 参数语音模型，声音复刻逼真如人类

9 月 19 日消息，昨天下午面壁智能宣布“小钢炮”系列迎新：推出 0.5B 参数尺寸的语音生成基座模型 VoxCPM。面壁智能联合清华大学深圳国际研究生院人机语音交互实验室正式推出语音生成基座模型 VoxCPM。该模型参数规模为 0.5B，在语音自然度、音色相似度及韵律表现力方面均达到了业内 SOTA 水平。性能表现：RTF ≈ 0.17，支持流式输出 VoxCPM 在 Seed-TTS-EV…
资讯
- 6.2k
25年9月19日
微软推出其首款自研 AI 模型：MAI-Voice-1 秒级生成音频，MAI-1-preview 剑指 Copilot 文本场景

8 月 29 日消息，周四，微软人工智能部门正式推出其首批两款自研 AI模型 ——MAI-Voice-1 语音模型与 MAI-1-preview 通用模型。据微软介绍，全新的 MAI-Voice-1 语音模型仅需单块 GPU，就能在 1 秒内生成时长 1 分钟的音频；而 MAI-1-preview 模型则“让用户提前窥见 Copilot 未来功能的发展方向”。目前，微软已将 MAI-Voice-…
资讯
- 2.8k
25年8月29日
OpenAI 发布新一代语音模型，让 AI 智能体语音表达更自然

3 月 21 日消息，OpenAI 昨日（3 月 20 日）发布博文，宣布推出语音转文本（speech-to-text）和文本转语音（text-to-speech）模型，提升语音处理能力，支持开发者构建更精准、可定制的语音交互系统，进一步推动人工智能语音技术的商业化应用。在语音转文本模型上，OpenAI 主要推出了 gpt-4o-transcribe 和 gpt-4o-mini-transcri…
资讯
- 5k
25年3月21日
MiniMax 海螺语音 AI 产品上线：支持 17 种语言生成，最长可输入多达 10000 字符

1 月 21 日消息，MiniMax 昨日宣布，带来全新升级的 T2A-01 系列语音模型，并全球同步上线海螺语音产品。据介绍，依托于 T2A-01 系列语音模型，用户在海螺AI 仅需输入文字即可生成自然、流畅的超拟人人声，最长可输入多达 10000 字符。与此同时，用户可以根据需要自由配置输出语音的情绪、语速、音高，甚至调整音色效果，满足复杂场景的精细化需求。 1AI注意到，海螺语音支持中文、…
资讯
- 6.4k
25年1月21日
智谱清言上线情感语音模型 GLM-4-Voice：可理解情感，有情绪表达和共鸣

智谱宣布上线 GLM-4-Voice 端到端情感语音模型。官方表示，其能够理解情感，有情绪表达、情感共鸣，可自助调节语速，支持多语言和方言，并且延时更低、可随时打断，用户即日起可在“智谱清言”App 上体验。据介绍，GLM-4-Voice 具备如下特点：情感表达和情感共鸣：声音有不同的情感和细腻的变化，如高兴、悲伤、生气、害怕等。调节语速：在同一轮对话中，可以要求 TA 快点说 or 慢点说…
资讯
- 13.7k
24年10月26日
阿里巴巴发布新语音模型 Qwen2-Audio，实力超越 OpenAI Whisper

近日，阿里巴巴在其 Qwen-Audio 的基础上，推出了全新的开源语音模型 Qwen2-Audio。这款模型不仅在语音识别、翻译和音频分析方面表现出色，更是在功能和性能上实现了显著提升。Qwen2-Audio 提供了基础版和指令微调版，用户可以通过语音对音频模型提问，并识别和分析内容。比如，用户可以让某位女性说一段话，Qwen2-Audio 可以判断她的年龄或分析她的情绪;如果输入一段嘈杂的声…
资讯
- 18.4k
24年8月11日
宣称超过XTTS！VoiceCraft：一个支持克隆语音及修改原始音频文本的语音模型

近日，一款名为VoiceCraft的语音模型引起了业界的广泛关注。据官方宣称，该模型的性能已经超过了XTTS，这无疑为AI音频处理领域带来了新的突破。项目地址:https://github.com/jasonppy/VoiceCraft VoiceCraft的最大亮点在于其强大的音频克隆能力。用户只需提供一段原始音频，VoiceCraft就能通过深度学习技术，复制出与原音频声音极为相似的新音频，…
资讯
- 7.2k
24年3月26日

❯

搜索

幸运之星即将降临……

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠

_￥_優惠

使用時效：无法使用

使用時效：
之前

使用時效：预期有效

优惠编号：
×

限制以下商品使用：限制以下商品分类用途：不限制使用：

[{{ct.name}}]

所有商品及商品类型需求使用

没有优惠可用！

购物车

×

德

空空如也！

清空貨櫃前往

您的有新私信

没有新私信

写新私信查看全部

{{userData.name}}已认证

语音模型

OpenAI 发布三款实时语音模型

Inworld AI 发布 Realtime TTS-2 语音模型：可感知用户情绪，支持 100 种语言保持同一声线

阿里通义百聆推出语音模型新版本：3 秒录音即可“复制”9 种语言、18 种方言

面壁智能发布 0.5B 参数语音模型，声音复刻逼真如人类

微软推出其首款自研 AI 模型：MAI-Voice-1 秒级生成音频，MAI-1-preview 剑指 Copilot 文本场景

OpenAI 发布新一代语音模型，让 AI 智能体语音表达更自然

MiniMax 海螺语音 AI 产品上线：支持 17 种语言生成，最长可输入多达 10000 字符

智谱清言上线情感语音模型 GLM-4-Voice：可理解情感，有情绪表达和共鸣

阿里巴巴发布新语音模型 Qwen2-Audio，实力超越 OpenAI Whisper

宣称超过XTTS！VoiceCraft：一个支持克隆语音及修改原始音频文本的语音模型

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注