5 月 8 日消息,今天,OpenAI 发布三款实时语音模型,分别针对语音推理、实时翻译和流式转录三类场景:

GPT-Realtime-2:构建可用于生产环境的语音智能体。它们能够进行更深入的思考、执行操作、处理中断,并让对话持续自然地进行;
GPT-Realtime-Translate:支持 70 多种输入语言和 13 种输出语言的实时翻译,打破语言障碍,帮助人们更自然地交流;
GPT-Realtime-Whisper:实时转录音频流,生成字幕和注释。
其中,GPT-Realtime-2 搭载「GPT-5 级别的推理能力」,专为语音交互场景设计,能够在持续对话过程中处理复杂请求、多线程调用外部工具、应对用户中断,并保持对话的自然流畅。
三款模型均已通过 OpenAI Realtime API 向开发者开放,并可在 OpenAI Playground 中进行测试。