OpenAI开源BrowseComp,重塑Agent浏览器的测试基准

OpenAI开源了智能体浏览器功能测试基准BrowseComp,包含1266个高难度问题,需要在互联网中搜索并匹配复杂约束条件;基准极具挑战性,GPT-4o和GPT-4.5准确率仅为0.6%和0.9%,启用浏览功能的GPT-4o也只有1.9%,而OpenAI新Agent模型Deep Research达到51.5%;BrowseComp由专业数据师创建,采用反向问题设计方法,人类测试者在不使用AI助手情况下仅解决29.2%的问题,证明单纯浏览能力不足,还需强大推理和信息处理能力。

搜索