首个 OpenClaw 专项基准测试出炉：轻量模型全面反超旗舰，国产 AI 强势跻身第一梯队

资讯
3月9日
編輯

admin

3 月 9 日消息，昨天，专为评估大语言模型在 OpenClaw 任务中表现的基准测试 PinchBench 正式出炉，一次性测试了 32 款主流大模型，从成功率、速度与成本三个维度进行横向比较。

在成功率维度，Google 的 Gemini 3 Flash Preview 以 95.1% 的成功率位居第一。

作为 Gemini 系列的「轻量版」，其表现超越了自家旗舰 Gemini 3 Pro（91.7%），也压过了 Claude Sonnet 4.5（92.7%）与 GPT-4o（85.2%）。

国产模型表现同样亮眼，MiniMax M2.1 以 93.6% 的成功率排名第二，Kimi K2.5 以 93.4% 紧随其后，两款国产模型共同占据全球前三中的两席。

Anthropic 旗舰模型 Claude Opus 4.6 成功率仅为 90.6%，排名第七，落后于多款中端模型。

速度方面，MiniMax M2.5 以 105.96 秒完成全部测试任务，以 0.09 秒的微弱优势领先第二名 Gemini 2.0 Flash，夺得速度冠军。

相比之下，Claude Sonnet 4 耗时 137.66 秒，Gemini 3 Pro 则高达 239.55 秒，约为冠军用时的两倍。

成本维度上，GPT-5 Nano 以每次任务 0.03 美元成为全场最低价选项，成功率为 85.8%。

Gemini 2.5 Flash Lite 以 0.05 美元、83.2% 的成功率紧随其后。而 Claude Opus 4.6 完成测试的成本高达 5.89 美元，是 GPT-5 Nano 的近 200 倍，但成功率反而低于 MiniMax M2.1 逾 3 个百分点。

PinchBench 的评分机制包括代码运行验证（自动化检查）、质量评估（由 Claude Opus 担任评委）以及两者结合三种方式，所有题目与答案均已开源至 GitHub。完整榜单可在 pinchbench.com 查阅。

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

{{userData.name}}已认证

首个 OpenClaw 专项基准测试出炉：轻量模型全面反超旗舰，国产 AI 强势跻身第一梯队

ChatGPT「成人模式」二度跳票，OpenAI：优先级更高的工作更重要

「AI 养龙虾」走红背后，工信部点名 OpenClaw 安全隐患

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

{{userData.name}}已认证

相关内容：

ChatGPT「成人模式」二度跳票，OpenAI：优先级更高的工作更重要

「AI 养龙虾」走红背后，工信部点名 OpenClaw 安全隐患

MLCommons 发布 PC AI 基准测试 MLPerf Client 首个公开版本 0.5

数小时两度改名：爆火 AI 助手 Clawdbot 变身 OpenClaw

OpenClaw 之父：80% 的现有 App 将消失

海外爆火AI龙虾正式入驻中国社媒平台

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注