OpenAI开源了智能体浏览器功能测试基准BrowseComp,包含1266个高难度问题,需要在互联网中搜索并匹配复杂约束条件;基准极具挑战性,GPT-4o和GPT-4.5准确率仅为0.6%和0.9%,启用浏览功能的GPT-4o也只有1.9%,而OpenAI新Agent模型Deep Research达到51.5%;BrowseComp由专业数据师创建,采用反向问题设计方法,人类测试者在不使用AI助手情况下仅解决29.2%的问题,证明单纯浏览能力不足,还需强大推理和信息处理能力。
❯
搜索
扫码打开当前页
返回顶部
幸运之星即将降临……
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠
-
¥優惠使用時效:无法使用使用時效:
之前
使用時效:预期有效优惠编号:×
没有优惠可用!
