OpenAI 发布三款实时语音模型

5 月 8 日消息,今天,OpenAI 发布三款实时语音模型,分别针对语音推理、实时翻译和流式转录三类场景:

OpenAI 发布三款实时语音模型

GPT-Realtime-2:构建可用于生产环境的语音智能体。它们能够进行更深入的思考、执行操作、处理中断,并让对话持续自然地进行;

GPT-Realtime-Translate:支持 70 多种输入语言和 13 种输出语言的实时翻译,打破语言障碍,帮助人们更自然地交流;

GPT-Realtime-Whisper:实时转录音频流,生成字幕和注释。

其中,GPT-Realtime-2 搭载「GPT-5 级别的推理能力」,专为语音交互场景设计,能够在持续对话过程中处理复杂请求、多线程调用外部工具、应对用户中断,并保持对话的自然流畅。

三款模型均已通过 OpenAI Realtime API 向开发者开放,并可在 OpenAI Playground 中进行测试。

声明:内容来源公开的各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。
资讯

Inworld AI 发布 Realtime TTS-2 语音模型:可感知用户情绪,支持 100 种语言保持同一声线

2026-5-7 12:10:45

资讯

Kimi 完成 20 亿美元融资,估值突破 200 亿美元

2026-5-8 11:55:06

搜索