4 月 24 日消息,今天凌晨,OpenAI 正式发布旗下最强旗舰模型 GPT-5.5 及 GPT-5.5 Pro,核心能力是接受杂乱、多步骤的复杂任务并自主完成 —— 规划路径、调用工具、校验结果、持续推进,无需用户逐步干预。

Terminal-Bench 2.0 得分 82.7%(GPT-5.4 为 75.1%),SWE-Bench Pro 达 58.6%,内部长任务评测 Expert-SWE 达 73.1%,且三项测试均以更少 token 完成;
GDPval 跨 44 职业评测获胜或打平比例 84.9%,Tau2-bench Telecom 客服工作流达 98.0%(GPT-5.4 为 92.8%),OSWorld 计算机操作达 78.7%;
BixBench 生物信息学评测 80.5%,居已发布分数模型首位;一个内部版本还证明了一个关于 Ramsey 数的长期猜想,并在 Lean 中完成形式化验证;
与英伟达 GB200/GB300 NVL72 系统联合设计,每 token 延迟与 GPT-5.4 持平,同时通过负载均衡优化将 token 生成速度提升超过 20%;同样的 Codex 任务,GPT-5.5 消耗的 token 显著更少。
Cursor 联合创始人兼 CEO Michael Truell 表示,GPT-5.5「面对复杂长期任务时能坚持更久而不中途停下」;Every 创始人兼 CEO Dan Shipper 验证了其能独立给出与资深工程师相同的系统重构方案;
一位英伟达工程师甚至表示「失去访问权限感觉就像肢体被截肢了一样」。
GPT-5.5 已向 ChatGPT Plus、Pro、Business 和 Enterprise 用户开放,Codex 支持最高 400K 上下文窗口;API 版本也即将上线,标准定价为每百万输入 token 5 美元、每百万输出 token 30 美元;GPT-5.5 Pro API 定价分别为 30 美元和 180 美元。