-
面壁智能发布 0.5B 参数语音模型,声音复刻逼真如人类
9 月 19 日消息,昨天下午面壁智能宣布“小钢炮”系列迎新:推出 0.5B 参数尺寸的语音生成基座模型 VoxCPM。面壁智能联合清华大学深圳国际研究生院人机语音交互实验室正式推出语音生成基座模型 VoxCPM。该模型参数规模为 0.5B,在语音自然度、音色相似度及韵律表现力方面均达到了业内 SOTA 水平。 性能表现:RTF ≈ 0.17,支持流式输出 VoxCPM 在 Seed-TTS-EV…- 3k
-
微软推出其首款自研 AI 模型:MAI-Voice-1 秒级生成音频,MAI-1-preview 剑指 Copilot 文本场景
8 月 29 日消息,周四,微软人工智能部门正式推出其首批两款自研 AI模型 ——MAI-Voice-1 语音模型与 MAI-1-preview 通用模型。据微软介绍,全新的 MAI-Voice-1 语音模型仅需单块 GPU,就能在 1 秒内生成时长 1 分钟的音频;而 MAI-1-preview 模型则“让用户提前窥见 Copilot 未来功能的发展方向”。 目前,微软已将 MAI-Voice-…- 1.2k
-
OpenAI 发布新一代语音模型,让 AI 智能体语音表达更自然
3 月 21 日消息,OpenAI 昨日(3 月 20 日)发布博文,宣布推出语音转文本(speech-to-text)和文本转语音(text-to-speech)模型,提升语音处理能力,支持开发者构建更精准、可定制的语音交互系统,进一步推动人工智能语音技术的商业化应用。 在语音转文本模型上,OpenAI 主要推出了 gpt-4o-transcribe 和 gpt-4o-mini-transcri…- 2.1k
-
MiniMax 海螺语音 AI 产品上线:支持 17 种语言生成,最长可输入多达 10000 字符
1 月 21 日消息,MiniMax 昨日宣布,带来全新升级的 T2A-01 系列语音模型,并全球同步上线海螺语音产品。 据介绍,依托于 T2A-01 系列语音模型,用户在海螺AI 仅需输入文字即可生成自然、流畅的超拟人人声,最长可输入多达 10000 字符。与此同时,用户可以根据需要自由配置输出语音的情绪、语速、音高,甚至调整音色效果,满足复杂场景的精细化需求。 1AI注意到,海螺语音支持中文、…- 4.3k
-
智谱清言上线情感语音模型 GLM-4-Voice:可理解情感,有情绪表达和共鸣
智谱宣布上线 GLM-4-Voice 端到端情感语音模型。官方表示,其能够理解情感,有情绪表达、情感共鸣,可自助调节语速,支持多语言和方言,并且延时更低、可随时打断,用户即日起可在“智谱清言”App 上体验。 据介绍,GLM-4-Voice 具备如下特点: 情感表达和情感共鸣:声音有不同的情感和细腻的变化,如高兴、悲伤、生气、害怕等。 调节语速:在同一轮对话中,可以要求 TA 快点说 or 慢点说…- 9.4k
-
阿里巴巴发布新语音模型 Qwen2-Audio,实力超越 OpenAI Whisper
近日,阿里巴巴在其 Qwen-Audio 的基础上,推出了全新的开源语音模型 Qwen2-Audio。这款模型不仅在语音识别、翻译和音频分析方面表现出色,更是在功能和性能上实现了显著提升。Qwen2-Audio 提供了基础版和指令微调版,用户可以通过语音对音频模型提问,并识别和分析内容。 比如,用户可以让某位女性说一段话,Qwen2-Audio 可以判断她的年龄或分析她的情绪;如果输入一段嘈杂的声…- 11.8k
-
宣称超过XTTS!VoiceCraft:一个支持克隆语音及修改原始音频文本的语音模型
近日,一款名为VoiceCraft的语音模型引起了业界的广泛关注。据官方宣称,该模型的性能已经超过了XTTS,这无疑为AI音频处理领域带来了新的突破。 项目地址:https://github.com/jasonppy/VoiceCraft VoiceCraft的最大亮点在于其强大的音频克隆能力。用户只需提供一段原始音频,VoiceCraft就能通过深度学习技术,复制出与原音频声音极为相似的新音频,…- 4.4k
❯
搜索
扫码打开当前页
返回顶部
幸运之星即将降临……
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠
-
¥優惠使用時效:无法使用使用時效:
之前
使用時效:预期有效优惠编号:×
没有优惠可用!






