首个 OpenClaw 专项基准测试出炉:轻量模型全面反超旗舰,国产 AI 强势跻身第一梯队

3 月 9 日消息,昨天,专为评估大语言模型在 OpenClaw 任务中表现的基准测试 PinchBench 正式出炉,一次性测试了 32 款主流大模型,从成功率、速度与成本三个维度进行横向比较。

首个 OpenClaw 专项基准测试出炉:轻量模型全面反超旗舰,国产 AI 强势跻身第一梯队

在成功率维度,Google 的 Gemini 3 Flash Preview 以 95.1% 的成功率位居第一。

作为 Gemini 系列的「轻量版」,其表现超越了自家旗舰 Gemini 3 Pro(91.7%),也压过了 Claude Sonnet 4.5(92.7%)与 GPT-4o(85.2%)。

国产模型表现同样亮眼,MiniMax M2.1 以 93.6% 的成功率排名第二,Kimi K2.5 以 93.4% 紧随其后,两款国产模型共同占据全球前三中的两席。

Anthropic 旗舰模型 Claude Opus 4.6 成功率仅为 90.6%,排名第七,落后于多款中端模型。

速度方面,MiniMax M2.5 以 105.96 秒完成全部测试任务,以 0.09 秒的微弱优势领先第二名 Gemini 2.0 Flash,夺得速度冠军。

相比之下,Claude Sonnet 4 耗时 137.66 秒,Gemini 3 Pro 则高达 239.55 秒,约为冠军用时的两倍。

成本维度上,GPT-5 Nano 以每次任务 0.03 美元成为全场最低价选项,成功率为 85.8%。

Gemini 2.5 Flash Lite 以 0.05 美元、83.2% 的成功率紧随其后。而 Claude Opus 4.6 完成测试的成本高达 5.89 美元,是 GPT-5 Nano 的近 200 倍,但成功率反而低于 MiniMax M2.1 逾 3 个百分点。

PinchBench 的评分机制包括代码运行验证(自动化检查)、质量评估(由 Claude Opus 担任评委)以及两者结合三种方式,所有题目与答案均已开源至 GitHub。完整榜单可在 pinchbench.com 查阅。

声明:内容来源公开的各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。
资讯

ChatGPT「成人模式」二度跳票,OpenAI:优先级更高的工作更重要

2026-3-9 11:36:39

头条资讯

「AI 养龙虾」走红背后,工信部点名 OpenClaw 安全隐患

2026-3-9 11:38:52

搜索