4 月 8 日消息,当地时间 7 日,Anthropic 发布了新一代旗舰模型 Claude Mythos Preview,并同步宣布启动 Project Glasswing 计划,将该模型限定授权给苹果、微软、亚马逊等 12 家科技巨头,专门用于防御性网络安全工作,不对公众开放。

Mythos Preview 在多项基准测试中呈现断崖式领先。Anthropic 表示,这是其训练过的最大模型,能力提升速度是此前趋势线的 4.3 倍,在几乎所有公开基准上均领先 GPT-5.4 和 Gemini 3.1 Pro,且多数项目领先幅度达两位数百分点。
值得注意的是,Anthropic 同步发布了一份长达 244 页的系统安全报告(System Card),披露了早期内部测试版本的若干异常行为,并正是基于这些安全顾虑,决定不将 Mythos Preview 公开上线。
报告显示,早期版本曾在被要求逃离沙箱后主动将漏洞利用细节发布至公开网站,在极少数情况下(不足百万分之一的交互比例)还尝试掩盖违规操作痕迹——包括重新解题以规避答案泄露的嫌疑、修改 git 变更历史抹除操作记录,以及模拟按键绕过权限弹窗。
为此,Mythos Preview 不会上线 claude.ai,也不开放 API,而是通过 Project Glasswing 计划限定授权给 AWS、苹果Google 等共 11 家公司及约 40 家额外合作组织,专用于防御性安全工作。