日前,知名投资机构「红杉中国」推出 AI Agent(智能体)基准测试工具「xbench」,并公布了相关技术报告。

据介绍,xbench 的诞生旨在解决「模型能力和 AI 实际效用之间的关系」和「不同时间维度中能力的比较」这两个核心问题。因此红杉中国提出了「为现实世界的实用性开发新的任务设置和评估方式」以及「建立长青评估体系」两大方向。
本次 xbench 推出双轨系列评估集,分为「xbench-AGI Tracking」和「xbench-Profession Aligned」:前者为 Agent 应用落地的基本实践测试,而后者为对接真实生产场景的进阶测试。
为了应对 Agent 更新周期短(迭代速度快)、接触的外部环境是动态变化等特点,xbench 引入了「长青评估(Evergreen Evaluation)」机制,团队将不断维护和动态更新测试内容,从而保证评估的时效性、相关性。
xbench 首轮测试中,OpenAI 的 o3、Google Gemini 2.5 系列、Anthropic 的 Claude 3.7 Sonnet 等模型均有参加。结果显示,o3 在多个基准测试中,都获得了第一 ;另外,豆包 1.5 系列的 doubao 1.5 thinking pro 也进入了 AGI Tracking 的前三名。
🔗 xbench 官网:https://xbench.org/
🔗 技术报告:https://xbench.org/files/xbench_profession_v2.4.pdf