红杉中国推出智能体基准测试「xbench」

资讯
25年5月27日
編輯

admin

日前，知名投资机构「红杉中国」推出 AI Agent（智能体）基准测试工具「xbench」，并公布了相关技术报告。

据介绍，xbench 的诞生旨在解决「模型能力和 AI 实际效用之间的关系」和「不同时间维度中能力的比较」这两个核心问题。因此红杉中国提出了「为现实世界的实用性开发新的任务设置和评估方式」以及「建立长青评估体系」两大方向。

本次 xbench 推出双轨系列评估集，分为「xbench-AGI Tracking」和「xbench-Profession Aligned」：前者为 Agent 应用落地的基本实践测试，而后者为对接真实生产场景的进阶测试。

为了应对 Agent 更新周期短（迭代速度快）、接触的外部环境是动态变化等特点，xbench 引入了「长青评估（Evergreen Evaluation）」机制，团队将不断维护和动态更新测试内容，从而保证评估的时效性、相关性。

xbench 首轮测试中，OpenAI 的 o3、Google Gemini 2.5 系列、Anthropic 的 Claude 3.7 Sonnet 等模型均有参加。结果显示，o3 在多个基准测试中，都获得了第一；另外，豆包 1.5 系列的 doubao 1.5 thinking pro 也进入了 AGI Tracking 的前三名。

🔗 xbench 官网：https://xbench.org/

🔗 技术报告：https://xbench.org/files/xbench_profession_v2.4.pdf

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

{{userData.name}}已认证

红杉中国推出智能体基准测试「xbench」

特斯拉前机器人项目负责人：Optimus 的形态并不适合“进厂打工”

前 OpenAI 华人副总曝光新公司发展方向

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

{{userData.name}}已认证

相关内容：

特斯拉前机器人项目负责人：Optimus 的形态并不适合“进厂打工”

前 OpenAI 华人副总曝光新公司发展方向

首个国家级天气智能体上线：中国气象局联合支付宝推出“中国天气小助手”

荣耀、阿里在 AI 领域达成合作：千问、万相等多个模型已接入 YOYO 智能体

国内首个：上海虹口上线区域级教育智能体平台，老师半小时就能制作智能体

京东内部的智能体数量已超 1.4 万个，JoyAgent 2.0 发布

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注