OpenAI 开源了专门用于智能体浏览器功能的测试基准——BrowseComp。这个测试基准非常有难度,连 OpenAI 自己的 GPT-4o、GPT-4.5 准确率只有 0.6% 和 0.9% 几乎为 0,即便使用带浏览器功能的 GPT-4o 也只有 1.9%。但 OpenAI 最新发布的 Agent 模型 Deep Research 准确率高达 51.5%,在自主搜索、信息整合、准确性校准方面非常优秀。(财联社)
❯
搜索
扫码打开当前页
返回顶部
幸运之星即将降临……
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠
-
¥優惠使用時效:无法使用使用時效:
之前
使用時效:预期有效优惠编号:×
没有优惠可用!
