Inworld AI 发布 Realtime TTS-2 语音模型：可感知用户情绪，支持 100 种语言保持同一声线

资讯
5月7日
編輯

admin

5 月 7 日消息，昨天，Inworld AI 发布新一代语音模型 Realtime TTS-2，以研究预览版形式通过 Inworld API 和 Inworld Realtime API 向开发者开放。

TTS-2 的核心变化在于从单向文本转语音管线转向闭环实时对话架构：模型直接接收对话中的实际音频，从而感知用户的语气、节奏与情绪状态并作出相应调整。新版本新增四项能力：

语音指令（Voice Direction）：用自然语言描述表达方式，例如「疲惫但温柔，像刚下班回家」，模型据此调整语音风格，不再依赖固定情感标签；

对话感知（Conversational Awareness）：在 Realtime 会话中自动接收前序音频，语气与节奏可跨轮次延续；

跨语言支持（Crosslingual）：单一声音身份可在超过 100 种语言间无缝切换，声线与人物特征保持一致，支持同一段生成中混用多语；

高级语音设计（Advanced Voice Design）：无需参考音频，通过文字描述即可生成可复用声音角色，并提供「富有表现力」「均衡」「稳定」三种模式。

此外，模型支持内联非语言标记（如【笑】【叹气】）、语音克隆（上传 5 至 15 秒音频样本即可），TTS 层首包延迟低于 200 毫秒。

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

{{userData.name}}已认证

Inworld AI 发布 Realtime TTS-2 语音模型：可感知用户情绪，支持 100 种语言保持同一声线

Anthropic 与 SpaceX 达成算力协议，获超 22 万块英伟达 GPU

OpenAI 发布三款实时语音模型

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

{{userData.name}}已认证

相关内容：

Anthropic 与 SpaceX 达成算力协议，获超 22 万块英伟达 GPU

OpenAI 发布三款实时语音模型

宣称超过XTTS！VoiceCraft：一个支持克隆语音及修改原始音频文本的语音模型

智谱清言上线情感语音模型 GLM-4-Voice：可理解情感，有情绪表达和共鸣

MiniMax 海螺语音 AI 产品上线：支持 17 种语言生成，最长可输入多达 10000 字符

微软推出其首款自研 AI 模型：MAI-Voice-1 秒级生成音频，MAI-1-preview 剑指 Copilot 文本场景

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注