红杉中国推出 Agent 基准测试「xbench」,关注 AI 真实场景

红杉中国推出双轨评估体系”xbench”,同时追踪AI模型的理论能力上限与Agent在真实场景的落地价值,采用长青评估机制持续更新测试内容;xbench分为AGI Tracking与Profession Aligned两条路径,前者测试模型关键能力边界,后者关注垂直领域实际价值,如招聘和营销领域的应用;评估设计能跟踪Agent能力的技术-市场契合点(TMF),预测在什么时间点AI能接管现有业务流程,分析成本效益与专业能力提升速度。

搜索