4 月 9 日消息,今天,Meta 正式发布旗下超级智能实验室(Meta Superintelligence Labs)推出的首款旗舰 AI模型 Muse Spark。

原生支持图像、音频、视频与文本的联合理解,内置工具调用、可视化思维链与多智能体协调能力;
在 HealthBench Hard 开放式健康问答中得分 42.8,远超 GPT-5.4 的 40.1、Gemini 3.1 Pro 的 20.6 以及 Opus 4.6 的 14.8;CharXiv Reasoning 图表理解得分 86.4,同样领先竞争对手;
在相同性能水平下,Muse Spark 比 Llama 4 Maverick Base 节省 10.3 倍算力,比 DeepSeek-V3.1 Base 节省 8.2 倍。
但短板同样明显。ARC AGI 2 抽象推理谜题上仅得 42.5 分,远落后于 Gemini 3.1 Pro 的 76.5 和 GPT-5.4 的 76.1;Terminal-Bench 2.0 终端编码任务得分 59.0,也落后于 GPT-5.4 的 75.1 和 Gemini 3.1 Pro 的 68.5。
发布过程中还出现了一段插曲。Meta 在评测图表中对自家模型的成绩进行高亮处理,试图制造出全面领先的视觉观感,随即引发外界批评,有网友直接将此定性为「图表犯罪」。首席 AI 官 Alexandr Wang 随后公开致歉。
Meta 表示,下一代模型(内部代号「Watermelon」)已在研发中,编码能力将是重点改进方向。