红杉中国推出智能体 基准测试「xbench」

日前,知名投资机构「红杉中国」推出 AI Agent(智能体)基准测试工具「xbench」,并公布了相关技术报告。

红杉中国推出智能体 基准测试「xbench」

据介绍,xbench 的诞生旨在解决「模型能力和 AI 实际效用之间的关系」和「不同时间维度中能力的比较」这两个核心问题。因此红杉中国提出了「为现实世界的实用性开发新的任务设置和评估方式」以及「建立长青评估体系」两大方向。

本次 xbench 推出双轨系列评估集,分为「xbench-AGI Tracking」和「xbench-Profession Aligned」:前者为 Agent 应用落地的基本实践测试,而后者为对接真实生产场景的进阶测试。

为了应对 Agent 更新周期短(迭代速度快)、接触的外部环境是动态变化等特点,xbench 引入了「长青评估(Evergreen Evaluation)」机制,团队将不断维护和动态更新测试内容,从而保证评估的时效性、相关性。

xbench 首轮测试中,OpenAI 的 o3、Google Gemini 2.5 系列、Anthropic 的 Claude 3.7 Sonnet 等模型均有参加。结果显示,o3 在多个基准测试中,都获得了第一 ;另外,豆包 1.5 系列的 doubao 1.5 thinking pro 也进入了 AGI Tracking 的前三名。

🔗 xbench 官网:https://xbench.org/

🔗 技术报告:https://xbench.org/files/xbench_profession_v2.4.pdf

声明:内容来源公开的各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。
资讯

特斯拉前机器人项目负责人:Optimus 的形态并不适合“进厂打工”

2025-5-27 11:21:10

资讯

前 OpenAI 华人副总曝光新公司发展方向

2025-5-27 11:47:54

搜索