OpenAI 开源 BrowseComp,重塑 Agent 浏览器评测

OpenAI 开源了专门用于智能体浏览器功能的测试基准——BrowseComp。这个测试基准非常有难度,连 OpenAI 自己的 GPT-4o、GPT-4.5 准确率只有 0.6% 和 0.9% 几乎为 0,即便使用带浏览器功能的 GPT-4o 也只有 1.9%。但 OpenAI 最新发布的 Agent 模型 Deep Research 准确率高达 51.5%,在自主搜索、信息整合、准确性校准方面非常优秀。(财联社)

搜索